Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
python:traitement_corpus_textuels [2018/11/13 17:29]
Pierre Vernus
python:traitement_corpus_textuels [2020/01/22 14:31] (Version actuelle)
Francesco Beretta [Traitement de corpus textuels]
Ligne 1: Ligne 1:
 +Revenir à [[python:​accueil|Python pour les historien-ne-s]]
 +
 +
 ====== Traitement de corpus textuels ====== ====== Traitement de corpus textuels ======
  
-===== Atelier du 27 novembre 2018  ===== 
  
-Objectifs : 
-  * importation d'un corpus de textes OCRisés au format Word 
-  * constitution du corpus dans Python 
-  * tokenisation en français 
-  * analyse de fréquences pour nettoyer le texte 
  
-Ressources : +===== Encodage sémantique ​de textes XML avec ATOM ===== 
-  * Corpus ​de texte (lien à mettre) + 
-  * Librairies python pour importer les documents Word : +[[https://flight-manual.atom.io/|Lien vers le manuel d'Atom]] 
-    ​* ​[[https://pypi.org/​project/​mammoth/|mammoth]] + 
-    * [[https://​github.com/​python-openxml/​python-docx|python-docx]]cf. [[https://​discuss.analyticsvidhya.com/​t/​how-to-read-a-bunch-of-docx-files-in-python/​19394|ce fil]] de forum pour une piste. +Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiquesrelations, etc.) dans les textes. 
-  * Librairies pour importer les documents odf (Open documents: + 
-    ​* ​[[https://​pypi.org/​project/​odfpy/​|odfpy]]+Vers la [[python:encodage_semantique_atom|page dédiée à l'​encodage sémantique]] 
 + 
 + 
 +===== Annotation sémantique ​de documents avec traitement de texte et transformation en XML ===== 
 + 
 +Annotation de partie de textes avec marqueurs ​(concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML. 
 + 
 +Vers la [[python:traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]] 
  
  
python/traitement_corpus_textuels.1542126597.txt.gz · Dernière modification: 2018/11/13 17:29 par Pierre Vernus