Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Ceci est une ancienne révision du document !


Traitement de corpus textuels

Encodage sémantique avec Atom

Annotation d'entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements, caractéristiques, relations, etc.) dans les textes.

Vers la page dédiée à l'encodage sémantique

Annotation sémantique de documents en traitement de texte et transformation en XML

Annotation de partie de textes avec marqueurs (concepts), annotation d'entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML.

Vers la page dédiée à l'encodage sémantique

Atelier du 27 novembre 2018

Objectifs :

  • importation d'un corpus de textes OCRisés au format Word
  • constitution du corpus dans Python
  • tokenisation en français
  • analyse de fréquences pour nettoyer le texte

Ressources :

  • Corpus de texte (lien à mettre)
  • Librairies python pour importer les documents Word :
python/traitement_corpus_textuels.1573892783.txt.gz · Dernière modification: 2019/11/16 09:26 par Francesco Beretta