Ceci est une ancienne révision du document !
Objectifs
Dans cet atelier il s'agira de travailler sur la mise en place d'un workflow qui, partant d'ouvrages sous forme numérique, permettrait ne nettoyer le texte issu de la reconnaissance optique de caractères (ROC) pour en augmenter la qualité, d'effectuer un premier balisage structurel, de l'enrichir grâce un balisage sémantique ou d'en effectuer une analyse en lui appliquant les techniques de traitement automatique du langage naturel (TALN). La mise en oeuvre de ce workflow s'accompagnerait d'un apprentissage de Python.
Page sur la numérisation et l'OCRisation
Fichiers exemples
Les fichiers exemples et, pour Julien, des notebooks jupyter d'introduction à Python sont disponibles dan le fichier zip à télécharger ici (le lien est valable jusqu'au 4 février.
Les fichiers exemples concernent :
A noter, un fichier .epub est en fait un dossier “zippé”. On peut accéder à son contenu en remplaçant l'extension .epub par .zip et en décompressant le dossier. Le texte est alors disponible dans les fichiers xml.