Ceci est une ancienne révision du document !
Traitement de corpus textuels
Encodage sémantique avec Atom
Annotation d'entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements, caractéristiques, relations, etc.) dans les textes.
Vers la page dédiée à l'encodage sémantique
Atelier du 27 novembre 2018
Objectifs :
importation d'un corpus de textes OCRisés au format Word
constitution du corpus dans Python
tokenisation en français
analyse de fréquences pour nettoyer le texte
Ressources :