Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
|
python:python_www [2019/11/17 12:01] Francesco Beretta [Récupérer des pages HTML et les transformer en XML] |
python:python_www [2021/02/01 01:12] (Version actuelle) Francesco Beretta [Récupérer des pages HTML et les transformer en XML] |
||
|---|---|---|---|
| Ligne 18: | Ligne 18: | ||
| * BeautifulSoup | * BeautifulSoup | ||
| * [[https://programminghistorian.org/en/lessons/intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]] | * [[https://programminghistorian.org/en/lessons/intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]] | ||
| + | * [[https://digitallatin.org/blog/using-beautifulsoup-add-works-dlls-database|Using BeautifulSoup to add works to the DLL's database]] | ||
| * Trafilatura | * Trafilatura | ||
| * Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML) | * Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML) | ||
| * [[https://github.com/adbar/trafilatura|Trafilatura sur GitHub]] | * [[https://github.com/adbar/trafilatura|Trafilatura sur GitHub]] | ||
| - | * | + | * [[http://adrien.barbaresi.eu/blog/trafilatura-main-text-content-python.html|Extracting the main text content from web pages using Python]] |
| + | * [[https://scrapy.org/|Scrapy]] | ||
| + | * YouTube: [[https://www.youtube.com/watch?v=ve_0h4Y8nuI&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t|Tutoriel complet]] | ||
| + | * [[https://fr.wikipedia.org/wiki/Scrapy|Présentation sur Wikipaedia]] | ||
| + | * [[https://docs.scrapy.org/en/latest/intro/overview.html|Scrapy at a glance]] | ||
| + | * [[https://docs.scrapy.org/en/latest/|Documentation]] | ||
| + | |||
| + | |||
| + | |||
| + | {{:python:war_entities_stag.csv.zip|}} | ||