Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
python:traitement_corpus_textuels [2018/11/13 16:38] Nicolas Guilhot créée |
python:traitement_corpus_textuels [2019/11/16 09:26] Francesco Beretta [Encodage sémantique avec Atom] |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====== Traitement de corpus textuels ====== | ====== Traitement de corpus textuels ====== | ||
+ | |||
+ | |||
+ | |||
+ | ===== Encodage sémantique avec Atom ===== | ||
+ | |||
+ | Annotation d'entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements, caractéristiques, relations, etc.) dans les textes. | ||
+ | |||
+ | Vers la [[python:encodage_semantique_atom|page dédiée à l'encodage sémantique]] | ||
+ | |||
+ | |||
+ | ===== Annotation sémantique de documents en traitement de texte et transformation en XML ===== | ||
+ | |||
+ | Annotation de partie de textes avec marqueurs (concepts), annotation d'entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML. | ||
+ | |||
+ | Vers la [[python:traitement_texte_vers_xml|page dédiée à l'encodage sémantique]] | ||
+ | |||
===== Atelier du 27 novembre 2018 ===== | ===== Atelier du 27 novembre 2018 ===== | ||
Ligne 11: | Ligne 27: | ||
Ressources : | Ressources : | ||
* Corpus de texte (lien à mettre) | * Corpus de texte (lien à mettre) | ||
+ | * Librairies python pour importer les documents Word : | ||
+ | * [[https://pypi.org/project/mammoth/|mammoth]] | ||
+ | * [[https://github.com/python-openxml/python-docx|python-docx]], cf. [[https://discuss.analyticsvidhya.com/t/how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste. | ||
+ | |||
+ | |||
+ |