Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
python:traitement_corpus_textuels [2019/11/16 09:23]
Francesco Beretta
python:traitement_corpus_textuels [2020/01/18 18:03]
Pierre Vernus
Ligne 3: Ligne 3:
  
  
-===== Encodage sémantique avec Atom =====+===== Encodage sémantique ​de textes XML avec ATOM ===== 
 + 
 +[[https://​flight-manual.atom.io/​|Lien vers le manuel d'​Atom]]
  
 Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes. Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes.
Ligne 10: Ligne 12:
  
  
-===== Atelier du 27 novembre 2018  ​=====+===== Annotation sémantique de documents avec traitement de texte et transformation en XML =====
  
-Objectifs : +Annotation de partie ​de textes ​avec marqueurs (concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes ​en utilisant un logiciel de traitement ​de texte, puis tranformation en XML.
-  * importation d'un corpus ​de textes ​OCRisés au format Word +
-  * constitution du corpus ​dans Python +
-  * tokenisation ​en français +
-  * analyse ​de fréquences pour nettoyer le texte+
  
-Ressources : +Vers la [[python:traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]]
-  * Corpus de texte (lien à mettre) +
-  * Librairies python pour importer les documents Word : +
-    * [[https://​pypi.org/​project/​mammoth/​|mammoth]] +
-    * [[https://​github.com/​python-openxml/​python-docx|python-docx]],​ cf. [[https://​discuss.analyticsvidhya.com/​t/​how-to-read-a-bunch-of-docx-files-in-python/​19394|ce fil]] de forum pour une piste.+
  
  
  
python/traitement_corpus_textuels.txt · Dernière modification: 2020/01/22 14:31 par Francesco Beretta