Outils pour utilisateurs

Outils du site


atelier:20200122

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
atelier:20200122 [2020/01/18 21:35]
Pierre Vernus créée
atelier:20200122 [2020/01/22 14:49] (Version actuelle)
Francesco Beretta
Ligne 1: Ligne 1:
 ====== Atelier du 22 janvier 2020 ====== ====== Atelier du 22 janvier 2020 ======
 +
 +**Objectifs**
 +
 +Dans cet atelier il s'​agira de travailler sur la mise en place d'un workflow qui, partant d'​ouvrages sous forme numérique, permettrait ne nettoyer le texte issu de la reconnaissance optique de caractères (ROC) pour en augmenter la qualité, d'​effectuer un premier balisage structurel, de l'​enrichir grâce un balisage sémantique ou d'en effectuer une analyse en lui appliquant les techniques de traitement automatique du langage naturel (TALN). La mise en oeuvre de ce workflow s'​accompagnerait d'un apprentissage de Python.
 +
 +Quelques éléments sur la numérisation et l'​OCRisation [[manuel_digital_history:​numerisation_ocrisation|sur cette page]].
 +
 +**Fichiers exemples**
 +
 +Les fichiers exemples et, pour Julien, des notebooks jupyter d'​introduction à Python sont disponibles dans le fichier zip à télécharger [[https://​filez.univ-lyon2.fr/​5qs3ya04mm|ici (le lien est valable jusqu'​au 4 février]].
 +
 +Les fichiers exemples concernent : 
 +  * un ouvrage sur l'​histoire de la chambre de commerce de Lyon (Pariset). Le dossier comprend deux fichiers de texte brut issu de la ROC des deux volumes de l'​ouvrage,​ il comprend aussi deux fichiers pdf. Ces fichiers ont été chargés à partir du site de Gallica. On trouvera aussi un fichier xml tei en cours d'​encodage.
 +  * un volume annuel (1877) des travaux de la chambre de commerce de Lyon obtenu à partir du site Numeyo, la bibliothèque numérique de la Bibliothèque municipale de Lyon, sous la forme d'un fichier au format epub (les autres formats disponibles sont les formats .pdf ou .tiff). On peut accéder aux différents volumes disponibles à partir de [[https://​catalogue.bm-lyon.fr/​ark:/​75584/​pf0002018798|ce lien]].
 +
 +A noter, un fichier .epub est en fait un dossier "​zippé"​. On peut accéder à son contenu en remplaçant l'​extension .epub par .zip et en décompressant le dossier. Le texte est alors disponible dans les fichiers xml.
 +
 +
 +
atelier/20200122.1579379750.txt.gz · Dernière modification: 2020/01/18 21:35 par Pierre Vernus