Outils pour utilisateurs

Outils du site


manuel_digital_history:numerisation_ocrisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
manuel_digital_history:numerisation_ocrisation [2020/01/22 10:34]
Pierre Vernus
manuel_digital_history:numerisation_ocrisation [2020/03/28 17:57] (Version actuelle)
Pierre Vernus
Ligne 1: Ligne 1:
-=======Acquisition de données======+[[[[manuel_digital_history:​accueil|retour vers l'​accueil du manuel]] 
 + 
 +=======Numérisation et OCRisation======
  
 ===== Du document à l'​image puis au texte ===== ===== Du document à l'​image puis au texte =====
Ligne 38: Ligne 40:
  
  
-Cette étape vise à améliorer l'​image ​qi fera l'​objet d'une ROC.+Cette étape vise à améliorer l'​image ​qui fera l'​objet d'une ROC.
  
  
Ligne 91: Ligne 93:
  Pour obtenir une image haute définition il faut modifier l'url de la façon suivante :  Pour obtenir une image haute définition il faut modifier l'url de la façon suivante :
    
-   * insérer **iiif** entre _gallica.bnf.fr_ et _ark:_+   * insérer **iiif** entre //gallica.bnf.fr// et //ark://
    * ajouter après l'​identifiant ark du document (_12148/​btv1b53035185s_) **/​f1/​full/​full/​O/​native.jpg** ​    * ajouter après l'​identifiant ark du document (_12148/​btv1b53035185s_) **/​f1/​full/​full/​O/​native.jpg** ​
        
Ligne 102: Ligne 104:
 === Récupérer des images en masse === === Récupérer des images en masse ===
  
-Pour récupérer un lot d'​images (par exemple celles d'un livre) il existe un ensemble de scripts Python nommé **Pyllica** - information [ici](https://​github.com/​Dorialexander/​Pyllicaet [là](https://​prelia.hypotheses.org/​441) - utilisant [Beautifullsoup](https://​www.crummy.com/​software/​BeautifulSoup/​) une bibliothèque Python qui permet de récupérer des données à partir de fichiers HTML ou XML+Pour récupérer un lot d'​images (par exemple celles d'un livre) il existe un ensemble de scripts Python nommé **Pyllica** - information [[https://​github.com/​Dorialexander/​Pyllica|ici]] ​et [là](https://​prelia.hypotheses.org/​441) - utilisant [Beautifullsoup](https://​www.crummy.com/​software/​BeautifulSoup/​) une bibliothèque Python qui permet de récupérer des données à partir de fichiers HTML ou XML
  
  
  
-Par exemple pour récupérer les images de [Pariset E., La Chambre de commerce de Lyon : étude faite sur les registres de ses délibérations. II. Dix-neuvième siècle, Lyon, 1889](https://​gallica.bnf.fr/​ark:/​12148/​bpt6k97813640) évoqué plus haut nous utiliserons les scripts ​_pyllicalabsjpg.py_ et _actionpyllicalabsjpg.py_ que nous modifierons comme ci-dessous :+Par exemple pour récupérer les images de [Pariset E., La Chambre de commerce de Lyon : étude faite sur les registres de ses délibérations. II. Dix-neuvième siècle, Lyon, 1889](https://​gallica.bnf.fr/​ark:/​12148/​bpt6k97813640) évoqué plus haut nous utiliserons les scripts ​//​pyllicalabsjpg.py// et //​actionpyllicalabsjpg.py// que nous modifierons comme ci-dessous :
  
-Il faut copier le premier script python dans le dossier dans lequel on veut télécharger les images. Il faut ensuite définir ce dossier comme sont répertoire de travail courant. Ici la définition d'​image demandée est 3000. On peut la modifier. Par exemple pour avoir une résolutiond e 5000 il suffit de remplacer 3000 par 5000 dans l'​expression full/​3000/​0/​native.png. Pour obtenir la qualité maximale disponible, il faut remplacer 3000 par _full_ (full/​full/​0/​native.png.). Attention : on a bien deux fois "​full"​. On peut aussi télécharger les images dans un autre format (png ou tif) en remplaçant "​jpg"​ par "​png"​ ou "​tif"​ à la fin de l’adresse et du format de fichier créé comme ceci : +Il faut copier le premier script python dans le dossier dans lequel on veut télécharger les images. Il faut ensuite définir ce dossier comme son répertoire de travail courant. Ici la définition d'​image demandée est 3000. On peut la modifier. Par exemple pour avoir une résolution de 5000 il suffit de remplacer 3000 par 5000 dans l'​expression full/​3000/​0/​native.png. Pour obtenir la qualité maximale disponible, il faut remplacer 3000 par _full_ (full/​full/​0/​native.png.). Attention : on a bien deux fois "​full"​. On peut aussi télécharger les images dans un autre format (png ou tif) en remplaçant "​jpg"​ par "​png"​ ou "​tif"​ à la fin de l’adresse et du format de fichier créé comme ceci : 
  
 <​code>​ <​code>​
Ligne 121: Ligne 123:
   * **identifier** nous indiquons l'​identifiant ark du document   * **identifier** nous indiquons l'​identifiant ark du document
   * **title** nous indiquons un titre qui sera celui des fichiers images récupérés   * **title** nous indiquons un titre qui sera celui des fichiers images récupérés
-  * **firstpage** le numéro de la première vue que l'on veut charger. Par exemple ici nous commencerons à 9 car les précédentes sont des vues de la couverture et de pages blanches. Le numéro de la vue appraît ​dans l'url de la page lorsqu'​on consulte un document.+  * **firstpage** le numéro de la première vue que l'on veut charger. Par exemple ici nous commencerons à 9 car les précédentes sont des vues de la couverture et de pages blanches. Le numéro de la vue apparaît ​dans l'url de la page lorsqu'​on consulte un document.
   * **lastpage** le numéro de la dernière vue à charger. Ici 273.   * **lastpage** le numéro de la dernière vue à charger. Ici 273.
   ​   ​
manuel_digital_history/numerisation_ocrisation.1579685688.txt.gz · Dernière modification: 2020/01/22 10:34 par Pierre Vernus