Différences

Ci-dessous, les différences entre deux révisions de la page.

--- python:traitement_corpus_textuels [2019/11/16 09:26]
Francesco Beretta [Encodage sémantique avec Atom]
+++ python:traitement_corpus_textuels [2019/11/16 09:26]
Francesco Beretta [Atelier du 27 novembre 2018]
@@ Ligne 15: / Ligne 15: @@
 Vers la [[python:traitement_texte_vers_xml|page dédiée à l'encodage sémantique]]
-===== Atelier du 27 novembre 2018  =====
-Objectifs :
-  * importation d'un corpus de textes OCRisés au format Word
-  * constitution du corpus dans Python
-  * tokenisation en français
-  * analyse de fréquences pour nettoyer le texte
-Ressources :
-  * Corpus de texte (lien à mettre)
-  * Librairies python pour importer les documents Word :
-    * [[https://pypi.org/project/mammoth/|mammoth]]
-    * [[https://github.com/python-openxml/python-docx|python-docx]], cf. [[https://discuss.analyticsvidhya.com/t/how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste.

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190