python:python_www [Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190]

python:python_www

Ceci est une ancienne révision du document !

Revenir à l'accueil

Technologies HTML et complémentaires

Cours de HTML en anglais
Référence pour le HTML, CSS, XSL, etc. en français

Récupérer des pages HTML et les transformer en XML

LXML
- Parsing and converting HTML documents to XML/TEI format using Python’s lxml
- Tutoriel avec exemple
  - Vidéo du même tutoriel
BeautifulSoup
- Programming historian: Intro to Beautiful Soup
- Using BeautifulSoup to add works to the DLL's database
Trafilatura
- Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page HTML)
- Trafilatura sur GitHub
- Extracting the main text content from web pages using Python
Scrapy
- YouTube: Tutoriel complet
- Présentation sur Wikipaedia
- Scrapy at a glance
- Documentation

python/python_www.1573997488.txt.gz · Dernière modification: 2019/11/17 14:31 par Francesco Beretta