Retour à la page [[python:traitement_corpus_textuels|Traitement de corpus textuels]] ===== Atelier du 27 novembre 2018 ===== Objectifs : * importation d'un corpus de textes OCRisés au format Word * constitution du corpus dans Python * tokenisation en français * analyse de fréquences pour nettoyer le texte Ressources : * Corpus de texte (lien à mettre) * Librairies python pour importer les documents Word : * [[https://pypi.org/project/mammoth/|mammoth]] * [[https://github.com/python-openxml/python-docx|python-docx]], cf. [[https://discuss.analyticsvidhya.com/t/how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste.