Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
python:traitement_corpus_textuels [2019/11/16 09:26]
Francesco Beretta [Encodage sémantique avec Atom]
python:traitement_corpus_textuels [2019/11/16 09:32]
Francesco Beretta [Encodage sémantique avec Atom]
Ligne 3: Ligne 3:
  
  
-===== Encodage sémantique avec Atom =====+===== Encodage sémantique ​de textes XML avec ATOM =====
  
 Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes. Annotation d'​entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements,​ caractéristiques,​ relations, etc.) dans les textes.
Ligne 15: Ligne 15:
  
 Vers la [[python:​traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]] Vers la [[python:​traitement_texte_vers_xml|page dédiée à l'​encodage sémantique]]
- 
- 
-===== Atelier du 27 novembre 2018  ===== 
- 
-Objectifs : 
-  * importation d'un corpus de textes OCRisés au format Word 
-  * constitution du corpus dans Python 
-  * tokenisation en français 
-  * analyse de fréquences pour nettoyer le texte 
- 
-Ressources : 
-  * Corpus de texte (lien à mettre) 
-  * Librairies python pour importer les documents Word : 
-    * [[https://​pypi.org/​project/​mammoth/​|mammoth]] 
-    * [[https://​github.com/​python-openxml/​python-docx|python-docx]],​ cf. [[https://​discuss.analyticsvidhya.com/​t/​how-to-read-a-bunch-of-docx-files-in-python/​19394|ce fil]] de forum pour une piste. 
  
  
  
python/traitement_corpus_textuels.txt · Dernière modification: 2020/01/22 14:31 par Francesco Beretta