Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente | Dernière révision Les deux révisions suivantes | ||
atelier:20200122 [2020/01/22 10:53] Pierre Vernus |
atelier:20200122 [2020/01/22 14:45] Pierre Vernus |
||
---|---|---|---|
Ligne 5: | Ligne 5: | ||
Dans cet atelier il s'agira de travailler sur la mise en place d'un workflow qui, partant d'ouvrages sous forme numérique, permettrait ne nettoyer le texte issu de la reconnaissance optique de caractères (ROC) pour en augmenter la qualité, d'effectuer un premier balisage structurel, de l'enrichir grâce un balisage sémantique ou d'en effectuer une analyse en lui appliquant les techniques de traitement automatique du langage naturel (TALN). La mise en oeuvre de ce workflow s'accompagnerait d'un apprentissage de Python. | Dans cet atelier il s'agira de travailler sur la mise en place d'un workflow qui, partant d'ouvrages sous forme numérique, permettrait ne nettoyer le texte issu de la reconnaissance optique de caractères (ROC) pour en augmenter la qualité, d'effectuer un premier balisage structurel, de l'enrichir grâce un balisage sémantique ou d'en effectuer une analyse en lui appliquant les techniques de traitement automatique du langage naturel (TALN). La mise en oeuvre de ce workflow s'accompagnerait d'un apprentissage de Python. | ||
- | Quesques éléments sur la numérisation et l'OCRisation [[manuel_digital_history:numerisation_ocrisation|ici]] | + | Quelques éléments sur la numérisation et l'OCRisation [[manuel_digital_history:numerisation_ocrisation|ici]] |
**Fichiers exemples** | **Fichiers exemples** |