Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
python:traitement_corpus_textuels [2019/11/16 09:23]
Francesco Beretta
python:traitement_corpus_textuels [2020/01/22 14:31] (Version actuelle)
Francesco Beretta [Traitement de corpus textuels]
Ligne 1: Ligne 1:
 +Revenir à [[python:​accueil|Python pour les historien-ne-s]]
 +
 +
 ====== Traitement de corpus textuels ====== ====== Traitement de corpus textuels ======
  
  
  
-===== Encodage sémantique avec Atom =====+===== Encodage sémantique ​de textes XML avec ATOM ===== 
 + 
 +[[https://​flight-manual.atom.io/​|Lien vers le manuel d'​Atom]]
  
 Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes. Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes.
Ligne 10: Ligne 15:
  
  
-===== Atelier du 27 novembre 2018  ​=====+===== Annotation sémantique de documents avec traitement de texte et transformation en XML =====
  
-Objectifs : +Annotation de partie ​de textes ​avec marqueurs (concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes ​en utilisant un logiciel de traitement ​de texte, puis tranformation en XML.
-  * importation d'un corpus ​de textes ​OCRisés au format Word +
-  * constitution du corpus ​dans Python +
-  * tokenisation ​en français +
-  * analyse ​de fréquences pour nettoyer le texte+
  
-Ressources : +Vers la [[python:traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]]
-  * Corpus de texte (lien à mettre) +
-  * Librairies python pour importer les documents Word : +
-    * [[https://​pypi.org/​project/​mammoth/​|mammoth]] +
-    * [[https://​github.com/​python-openxml/​python-docx|python-docx]],​ cf. [[https://​discuss.analyticsvidhya.com/​t/​how-to-read-a-bunch-of-docx-files-in-python/​19394|ce fil]] de forum pour une piste.+
  
  
  
python/traitement_corpus_textuels.1573892625.txt.gz · Dernière modification: 2019/11/16 09:23 par Francesco Beretta