Différences

Ci-dessous, les différences entre deux révisions de la page.

--- manuel_digital_history:numerisation_ocrisation [2020/01/22 10:32]
Pierre Vernus
+++ manuel_digital_history:numerisation_ocrisation [2020/01/22 10:36]
Pierre Vernus
@@ Ligne 1: / Ligne 1: @@
+[[[[manuel_digital_history:accueil|retour vers l'accueil du manuel]]
 =======Acquisition de données======
@@ Ligne 125: / Ligne 127: @@
 La durée du téléchargement peu pendre du temps, en fonction de la taille de l'ouvrage et de la qualité de la connexion.
+==== Reconnaissance de caractères=====
+Disposer des images de scan du document peut être utile afin de pouvoir retravailler ces images en vue d'obtenir une ROC de meilleure qualité.
+Pour ce faire il est possible d'utiliser
+  * l'outil Sharedoc mis à disposition par la TGIR Huma-Num qu'il est possible de combiner avec un outil de ROC (ABBY).
+  * Un autre outil de ROC libre comme [tesseract](https://github.com/tesseract-ocr/tesseract). Intialement développépar Hewlet-Packard son code source a été rendu publique en 2005. Depuis 2006, il est maintenu par Google. Une introduction rapide est disponible [ici](https://medium.com/better-programming/beginners-guide-to-tesseract-ocr-using-python-10ecbb426c3d).
+**A COMPLETER**

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190