Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente | Prochaine révision Les deux révisions suivantes | ||
python:traitement_corpus_textuels [2019/11/16 09:26] Francesco Beretta [Encodage sémantique avec Atom] |
python:traitement_corpus_textuels [2019/11/16 09:26] Francesco Beretta [Atelier du 27 novembre 2018] |
||
---|---|---|---|
Ligne 15: | Ligne 15: | ||
Vers la [[python:traitement_texte_vers_xml|page dédiée à l'encodage sémantique]] | Vers la [[python:traitement_texte_vers_xml|page dédiée à l'encodage sémantique]] | ||
- | |||
- | |||
- | ===== Atelier du 27 novembre 2018 ===== | ||
- | |||
- | Objectifs : | ||
- | * importation d'un corpus de textes OCRisés au format Word | ||
- | * constitution du corpus dans Python | ||
- | * tokenisation en français | ||
- | * analyse de fréquences pour nettoyer le texte | ||
- | |||
- | Ressources : | ||
- | * Corpus de texte (lien à mettre) | ||
- | * Librairies python pour importer les documents Word : | ||
- | * [[https://pypi.org/project/mammoth/|mammoth]] | ||
- | * [[https://github.com/python-openxml/python-docx|python-docx]], cf. [[https://discuss.analyticsvidhya.com/t/how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste. | ||