Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
python:python_www [2019/11/17 12:15] Francesco Beretta [Récupérer des pages HTML et les transformer en XML] |
python:python_www [2021/02/01 01:12] (Version actuelle) Francesco Beretta [Récupérer des pages HTML et les transformer en XML] |
||
---|---|---|---|
Ligne 18: | Ligne 18: | ||
* BeautifulSoup | * BeautifulSoup | ||
* [[https://programminghistorian.org/en/lessons/intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]] | * [[https://programminghistorian.org/en/lessons/intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]] | ||
+ | * [[https://digitallatin.org/blog/using-beautifulsoup-add-works-dlls-database|Using BeautifulSoup to add works to the DLL's database]] | ||
* Trafilatura | * Trafilatura | ||
* Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML) | * Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML) | ||
Ligne 29: | Ligne 30: | ||
+ | |||
+ | |||
+ | |||
+ | {{:python:war_entities_stag.csv.zip|}} |