Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
python:traitement_corpus_textuels [2018/11/13 16:51] Pierre Vernus [Atelier du 27 novembre 2018] |
python:traitement_corpus_textuels [2019/11/16 09:32] Francesco Beretta [Encodage sémantique avec Atom] |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====== Traitement de corpus textuels ====== | ====== Traitement de corpus textuels ====== | ||
- | ===== Atelier du 27 novembre 2018 ===== | ||
- | Objectifs : | ||
- | * importation d'un corpus de textes OCRisés au format Word | ||
- | * constitution du corpus dans Python | ||
- | * tokenisation en français | ||
- | * analyse de fréquences pour nettoyer le texte | ||
- | Ressources : | + | ===== Encodage sémantique de textes XML avec ATOM ===== |
- | * Corpus de texte (lien à mettre) | + | |
- | * Librairies python pour importer les documents Word : | + | Annotation d'entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements, caractéristiques, relations, etc.) dans les textes. |
- | * [[https://pypi.org/project/mammoth/|mammoth]] | + | |
- | * [[https://github.com/python-openxml/python-docx|python-docx]], cf. [[https://discuss.analyticsvidhya.com/t/how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste. | + | Vers la [[python:encodage_semantique_atom|page dédiée à l'encodage sémantique]] |
- | * Librairies pour importer les documents odf (Open documents) : | + | |
- | * [[https://www.nltk.org/book/|odfpy]] | + | |
+ | ===== Annotation sémantique de documents en traitement de texte et transformation en XML ===== | ||
+ | |||
+ | Annotation de partie de textes avec marqueurs (concepts), annotation d'entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML. | ||
+ | |||
+ | Vers la [[python:traitement_texte_vers_xml|page dédiée à l'encodage sémantique]] | ||