Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
python:traitement_corpus_textuels [2018/11/13 16:38]
Nicolas Guilhot créée
python:traitement_corpus_textuels [2020/01/22 14:31] (Version actuelle)
Francesco Beretta [Traitement de corpus textuels]
Ligne 1: Ligne 1:
 +Revenir à [[python:​accueil|Python pour les historien-ne-s]]
 +
 +
 ====== Traitement de corpus textuels ====== ====== Traitement de corpus textuels ======
  
-===== Atelier du 27 novembre 2018  ===== 
  
-Objectifs : 
-  * importation d'un corpus de textes OCRisés au format Word 
-  * constitution du corpus dans Python 
-  * tokenisation en français 
-  * analyse de fréquences pour nettoyer le texte 
  
-Ressources ​+===== Encodage sémantique de textes XML avec ATOM ===== 
-  * Corpus ​de texte (lien à mettre)+ 
 +[[https://​flight-manual.atom.io/​|Lien vers le manuel d'​Atom]] 
 + 
 +Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes. 
 + 
 +Vers la [[python:​encodage_semantique_atom|page dédiée à l'​encodage sémantique]] 
 + 
 + 
 +===== Annotation sémantique de documents avec traitement ​de texte et transformation en XML ===== 
 + 
 +Annotation de partie de textes avec marqueurs ​(concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML. 
 + 
 +Vers la [[python:​traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]] 
 + 
 + 
python/traitement_corpus_textuels.1542123509.txt.gz · Dernière modification: 2018/11/13 16:38 par Nicolas Guilhot