Outils pour utilisateurs

Outils du site


python:python_www

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision Les deux révisions suivantes
python:python_www [2019/11/16 12:59]
Francesco Beretta [Récupérer des pages HTML et les transformer en XML]
python:python_www [2019/11/17 12:00]
Francesco Beretta [Récupérer des pages HTML et les transformer en XML]
Ligne 14: Ligne 14:
   * LXML   * LXML
     * [[http://​adrien.barbaresi.eu/​blog/​parsing-converting-lxml-html-tei.html|Parsing and converting HTML documents to XML/TEI format using Python’s lxml]]     * [[http://​adrien.barbaresi.eu/​blog/​parsing-converting-lxml-html-tei.html|Parsing and converting HTML documents to XML/TEI format using Python’s lxml]]
 +    * [[https://​pythontips.com/​2018/​06/​20/​an-intro-to-web-scraping-with-lxml-and-python/​|Tutoriel avec exemple]]
   * BeautifulSoup   * BeautifulSoup
     * [[https://​programminghistorian.org/​en/​lessons/​intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]]     * [[https://​programminghistorian.org/​en/​lessons/​intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]]
 +  * Trafilatura
 +    * Une nouvelle librairie en cours de développement,​ utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML)
 +    * [[https://​github.com/​adbar/​trafilatura|Trafilatura sur GitHub]]
 +    * 
  
  
python/python_www.txt · Dernière modification: 2021/02/01 01:12 par Francesco Beretta