Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Dernière révision Les deux révisions suivantes | ||
manuel_digital_history:numerisation_ocrisation [2020/01/22 10:32] Pierre Vernus |
manuel_digital_history:numerisation_ocrisation [2020/03/28 17:53] Pierre Vernus |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | =======Acquisition de données====== | + | [[[[manuel_digital_history:accueil|retour vers l'accueil du manuel]] |
+ | |||
+ | =======Numérisation et OCRisation====== | ||
===== Du document à l'image puis au texte ===== | ===== Du document à l'image puis au texte ===== | ||
Ligne 38: | Ligne 40: | ||
- | Cette étape vise à améliorer l'image qi fera l'objet d'une ROC. | + | Cette étape vise à améliorer l'image qui fera l'objet d'une ROC. |
Ligne 91: | Ligne 93: | ||
Pour obtenir une image haute définition il faut modifier l'url de la façon suivante : | Pour obtenir une image haute définition il faut modifier l'url de la façon suivante : | ||
- | * insérer **iiif** entre _gallica.bnf.fr_ et _ark:_ | + | * insérer **iiif** entre //gallica.bnf.fr// et //ark:// |
* ajouter après l'identifiant ark du document (_12148/btv1b53035185s_) **/f1/full/full/O/native.jpg** | * ajouter après l'identifiant ark du document (_12148/btv1b53035185s_) **/f1/full/full/O/native.jpg** | ||
Ligne 125: | Ligne 127: | ||
| | ||
La durée du téléchargement peu pendre du temps, en fonction de la taille de l'ouvrage et de la qualité de la connexion. | La durée du téléchargement peu pendre du temps, en fonction de la taille de l'ouvrage et de la qualité de la connexion. | ||
+ | |||
+ | ==== Reconnaissance de caractères===== | ||
+ | |||
+ | |||
+ | Disposer des images de scan du document peut être utile afin de pouvoir retravailler ces images en vue d'obtenir une ROC de meilleure qualité. | ||
+ | |||
+ | Pour ce faire il est possible d'utiliser | ||
+ | |||
+ | * l'outil Sharedoc mis à disposition par la TGIR Huma-Num qu'il est possible de combiner avec un outil de ROC (ABBY). | ||
+ | * Un autre outil de ROC libre comme [tesseract](https://github.com/tesseract-ocr/tesseract). Intialement développépar Hewlet-Packard son code source a été rendu publique en 2005. Depuis 2006, il est maintenu par Google. Une introduction rapide est disponible [ici](https://medium.com/better-programming/beginners-guide-to-tesseract-ocr-using-python-10ecbb426c3d). | ||
+ | |||
+ | **A COMPLETER** | ||
+ | |||