Outils pour utilisateurs

Outils du site


python:traitement_corpus_textuels

Ceci est une ancienne révision du document !


Traitement de corpus textuels

Encodage sémantique avec Atom

Annotation d'entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements, caractéristiques, relations, etc.) dans les textes.

Vers la page dédiée à l'encodage sémantique

Atelier du 27 novembre 2018

Objectifs :

  • importation d'un corpus de textes OCRisés au format Word
  • constitution du corpus dans Python
  • tokenisation en français
  • analyse de fréquences pour nettoyer le texte

Ressources :

  • Corpus de texte (lien à mettre)
  • Librairies python pour importer les documents Word :
python/traitement_corpus_textuels.1573892625.txt.gz · Dernière modification: 2019/11/16 09:23 par Francesco Beretta