Outils pour utilisateurs

Outils du site


manuel_digital_history:numerisation_ocrisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
manuel_digital_history:numerisation_ocrisation [2020/01/22 10:32]
Pierre Vernus
manuel_digital_history:numerisation_ocrisation [2020/03/28 17:53]
Pierre Vernus
Ligne 1: Ligne 1:
-=======Acquisition de données======+[[[[manuel_digital_history:​accueil|retour vers l'​accueil du manuel]] 
 + 
 +=======Numérisation et OCRisation======
  
 ===== Du document à l'​image puis au texte ===== ===== Du document à l'​image puis au texte =====
Ligne 38: Ligne 40:
  
  
-Cette étape vise à améliorer l'​image ​qi fera l'​objet d'une ROC.+Cette étape vise à améliorer l'​image ​qui fera l'​objet d'une ROC.
  
  
Ligne 91: Ligne 93:
  Pour obtenir une image haute définition il faut modifier l'url de la façon suivante :  Pour obtenir une image haute définition il faut modifier l'url de la façon suivante :
    
-   * insérer **iiif** entre _gallica.bnf.fr_ et _ark:_+   * insérer **iiif** entre //gallica.bnf.fr// et //ark://
    * ajouter après l'​identifiant ark du document (_12148/​btv1b53035185s_) **/​f1/​full/​full/​O/​native.jpg** ​    * ajouter après l'​identifiant ark du document (_12148/​btv1b53035185s_) **/​f1/​full/​full/​O/​native.jpg** ​
        
Ligne 125: Ligne 127:
   ​   ​
 La durée du téléchargement peu pendre du temps, en fonction de la taille de l'​ouvrage et de la qualité de la connexion. La durée du téléchargement peu pendre du temps, en fonction de la taille de l'​ouvrage et de la qualité de la connexion.
 +
 +==== Reconnaissance de caractères=====
 +
 +
 +Disposer des images de scan du document peut être utile afin de pouvoir retravailler ces images en vue d'​obtenir une ROC de meilleure qualité.
 +
 +Pour ce faire il est possible d'​utiliser ​
 +
 +  * l'​outil Sharedoc mis à disposition par la TGIR Huma-Num qu'il est possible de combiner avec un outil de ROC (ABBY).
 +  * Un autre outil de ROC libre comme [tesseract](https://​github.com/​tesseract-ocr/​tesseract). Intialement développépar Hewlet-Packard son code source a été rendu publique en 2005. Depuis 2006, il est maintenu par Google. Une introduction rapide est disponible [ici](https://​medium.com/​better-programming/​beginners-guide-to-tesseract-ocr-using-python-10ecbb426c3d). ​
 +
 +**A COMPLETER**
 +
  
manuel_digital_history/numerisation_ocrisation.txt · Dernière modification: 2020/03/28 17:57 par Pierre Vernus