Outils pour utilisateurs

Outils du site


manuel_digital_history:numerisation_ocrisation

Ceci est une ancienne révision du document !


Acquisition de données

Du document à l'image puis au texte

Quelques ressources logicielles libres

pdftotext pour extraire le texte de documents pdf.

OpenCV bibliothèque de traitement d'image opensource avec des liens avec des langages comme Python.

Leptonica : bibliothèque de traitement et d'analyse d'image et outil en ligne de commande. Est utilisée par Tesseract OCR pour binariser les images.

unpaper: bibliothèque de postprocessing visant à éliminer tous les problèmes relatifs au support papier des documents scannés.

ImageMagick : bibliothèque de traitement d'image générale.

Gimp un éditeur d'image puissant qui peut être utilisé pour améliorer manuellement la qualité des images.

pdfsandwich fait le preprocessing et intègre tesseract. Il transforme des pdf images et leur applique un processus de ROC pour générer des fichiers pdf “sandwich”, i.e. desfichiers pdf auxquels le texte est ajouté “derrière” les images de manière invisible. Il s'agit d'un outil en ligne de commande élaboré pour traiter des livres ou des journaux qui ont été scannés. Il peut reconnaître le *layout* même avec plusieurs colonnes. Il s'agit d'un *wrapper script* qui appelle d'autres outils (*unpaper*, *convert*, *gs*, *hocr2pdf* et *tesseract*). Il fonctionne sur les systèmes Unix en particulier Linux et MacOs X.

manuel_digital_history/numerisation_ocrisation.1579685173.txt.gz · Dernière modification: 2020/01/22 10:26 par Pierre Vernus