Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
python:traitement_corpus_textuels [2018/11/13 16:48]
Nicolas Guilhot
python:traitement_corpus_textuels [2019/11/16 09:32]
Francesco Beretta [Annotation sémantique de documents en traitement de texte et transformation en XML]
Ligne 1: Ligne 1:
 ====== Traitement de corpus textuels ====== ====== Traitement de corpus textuels ======
  
-===== Atelier du 27 novembre 2018  ===== 
  
-Objectifs : 
-  * importation d'un corpus de textes OCRisés au format Word 
-  * constitution du corpus dans Python 
-  * tokenisation en français 
-  * analyse de fréquences pour nettoyer le texte 
  
-Ressources : +===== Encodage sémantique de textes XML avec ATOM ===== 
-  * Corpus de texte (lien à mettre) + 
-  * Librairies python pour importer ​les documents Word : +Annotation d'​entités nommées ​(personnes, concepts, lieux, etc.et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes. 
-    ​* ​[[https://​pypi.org/​project/​mammoth/​|mammoth]] + 
-    * [[https://​github.com/​python-openxml/​python-docx|python-docx]]cf. [[https://​discuss.analyticsvidhya.com/​t/​how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste+Vers la [[python:encodage_semantique_atom|page dédiée à l'​encodage sémantique]] 
 + 
 + 
 +===== Annotation sémantique de documents avec traitement de texte et transformation en XML ===== 
 + 
 +Annotation de partie de textes avec marqueurs (concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de textepuis tranformation en XML. 
 + 
 +Vers la [[python:​traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]] 
 + 
 + 
python/traitement_corpus_textuels.txt · Dernière modification: 2020/01/22 14:31 par Francesco Beretta