python:traitement_corpus_textuels
Ceci est une ancienne révision du document !
Traitement de corpus textuels
Atelier du 27 novembre 2018
Objectifs :
importation d'un corpus de textes OCRisés au format Word
constitution du corpus dans Python
tokenisation en français
analyse de fréquences pour nettoyer le texte
Ressources :
Corpus de texte (lien à mettre)
Librairies python pour importer les documents Word :
Librairies pour importer les documents odf (Open documents) :
python/traitement_corpus_textuels.1542124269.txt.gz · Dernière modification: 2018/11/13 16:51 par Pierre Vernus