Différences

Ci-dessous, les différences entre deux révisions de la page.

--- python:python_www [2019/11/16 12:59]
Francesco Beretta [Récupérer des pages HTML et les transformer en XML]
+++ python:python_www [2019/11/17 12:00]
Francesco Beretta [Récupérer des pages HTML et les transformer en XML]
@@ Ligne 14: / Ligne 14: @@
   * LXML
     * [[http://adrien.barbaresi.eu/blog/parsing-converting-lxml-html-tei.html|Parsing and converting HTML documents to XML/TEI format using Python’s lxml]]
+    * [[https://pythontips.com/2018/06/20/an-intro-to-web-scraping-with-lxml-and-python/|Tutoriel avec exemple]]
   * BeautifulSoup
     * [[https://programminghistorian.org/en/lessons/intro-to-beautiful-soup|Programming historian: Intro to Beautiful Soup]]
+  * Trafilatura
+    * Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML)
+    * [[https://github.com/adbar/trafilatura|Trafilatura sur GitHub]]
+    *

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190