Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
python:traitement_corpus_textuels [2019/11/16 09:26]
Francesco Beretta [Encodage sémantique avec Atom]
python:traitement_corpus_textuels [2020/01/22 14:31] (Version actuelle)
Francesco Beretta [Traitement de corpus textuels]
Ligne 1: Ligne 1:
 +Revenir à [[python:​accueil|Python pour les historien-ne-s]]
 +
 +
 ====== Traitement de corpus textuels ====== ====== Traitement de corpus textuels ======
  
  
  
-===== Encodage sémantique avec Atom =====+===== Encodage sémantique ​de textes XML avec ATOM ===== 
 + 
 +[[https://​flight-manual.atom.io/​|Lien vers le manuel d'​Atom]]
  
 Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes. Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes.
Ligne 10: Ligne 15:
  
  
-===== Annotation sémantique de documents ​en traitement de texte et transformation en XML =====+===== Annotation sémantique de documents ​avec traitement de texte et transformation en XML =====
  
 Annotation de partie de textes avec marqueurs (concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML. Annotation de partie de textes avec marqueurs (concepts), annotation d'​entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML.
  
 Vers la [[python:​traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]] Vers la [[python:​traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]]
- 
- 
-===== Atelier du 27 novembre 2018  ===== 
- 
-Objectifs : 
-  * importation d'un corpus de textes OCRisés au format Word 
-  * constitution du corpus dans Python 
-  * tokenisation en français 
-  * analyse de fréquences pour nettoyer le texte 
- 
-Ressources : 
-  * Corpus de texte (lien à mettre) 
-  * Librairies python pour importer les documents Word : 
-    * [[https://​pypi.org/​project/​mammoth/​|mammoth]] 
-    * [[https://​github.com/​python-openxml/​python-docx|python-docx]],​ cf. [[https://​discuss.analyticsvidhya.com/​t/​how-to-read-a-bunch-of-docx-files-in-python/​19394|ce fil]] de forum pour une piste. 
  
  
  
python/traitement_corpus_textuels.1573892783.txt.gz · Dernière modification: 2019/11/16 09:26 par Francesco Beretta