Différences

Ci-dessous, les différences entre deux révisions de la page.

--- python:traitement_corpus_textuels [2018/11/13 16:48]
Nicolas Guilhot
+++ python:traitement_corpus_textuels [2020/01/18 18:03]
Pierre Vernus
@@ Ligne 1: / Ligne 1: @@
 ====== Traitement de corpus textuels ======
-===== Atelier du 27 novembre 2018  =====
-Objectifs :
-  * importation d'un corpus de textes OCRisés au format Word
-  * constitution du corpus dans Python
-  * tokenisation en français
-  * analyse de fréquences pour nettoyer le texte
-Ressources :
+===== Encodage sémantique de textes XML avec ATOM =====
-  * Corpus de texte (lien à mettre)
-  * Librairies python pour importer les documents Word :
+[[https://flight-manual.atom.io/|Lien vers le manuel d'Atom]]
-    * [[https://pypi.org/project/mammoth/|mammoth]]
-    * [[https://github.com/python-openxml/python-docx|python-docx]], cf. [[https://discuss.analyticsvidhya.com/t/how-to-read-a-bunch-of-docx-files-in-python/19394|ce fil]] de forum pour une piste
+Annotation d'entités nommées (personnes, concepts, lieux, etc.) et entités temporelles (événements, caractéristiques, relations, etc.) dans les textes.
+Vers la [[python:encodage_semantique_atom|page dédiée à l'encodage sémantique]]
+===== Annotation sémantique de documents avec traitement de texte et transformation en XML =====
+Annotation de partie de textes avec marqueurs (concepts), annotation d'entités nommées (personnes, concepts, lieux, dates, etc.) dans les textes en utilisant un logiciel de traitement de texte, puis tranformation en XML.
+Vers la [[python:traitement_texte_vers_xml|page dédiée à l'encodage sémantique]]

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190

Outils pour utilisateurs

Outils du site

Différences

Outils de la page

Wiki de l'ARHN

Axe de recherche en histoire numérique
LARHRA UMR5190