Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/25 09:17]
Francesco Beretta [Dates]
td_histoire_numerique:exercice_2 [2015/09/29 10:02]
Francesco Beretta [Principes d'annotation]
Ligne 18: Ligne 18:
 \\ \\
  
-Nous disposons donc de **deux documents à annoter**Celui que nous venons de produire et celui que nous avons téléchargé pour le premier exercice (il est {{:​td_histoire_numerique:​notices_texte_brut.odt|téléchargeable ici}}).+Nous disposons donc de <​html><​span style="​color:​red;​font-weight:​bold;">​deux documents à annoter</​span></​html>​ : {{:​td_histoire_numerique:​liste_notices_bnf.odt|celui ​que nous venons de produire}} et celui que nous avons téléchargé pour le premier exercice (il est {{:​td_histoire_numerique:​notices_texte_brut.odt|téléchargeable ici}}).
  
 \\ \\
Ligne 26: Ligne 26:
 L'​annotation sémantique des textes utilise les principes de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée. L'​annotation sémantique des textes utilise les principes de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée.
  
 +Voir sur [[td_histoire_numerique:​descriptif_exercice_4&#​principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'​encodage d'un texte en XML.
 ==== Balises ==== ==== Balises ====
  
Ligne 56: Ligne 57:
 Par exemple: {en0cs}mathématicien{/​en} Par exemple: {en0cs}mathématicien{/​en}
  
 +\\
 +Si on souhaite spécifier un type sous forme d'un objet abstrait qu'on crée dans la base de données, on ajoutera l'​identifiant de l'​objet après un tiret bas.
 +
 +Par ex.:\\
 +{seg_23}Érudit et collectionneur français{/​seg}
 +
 +Dans la base de données, l'​objet 23 serait defini en tant que '​notice biographique succincte'​. Avec ce procédé on peut indexer et qualifier au point de vue sémantique toute portion de texte.
 +
 +\\
 ==== Dates ==== ==== Dates ====
  
Ligne 63: Ligne 73:
  \\ Mise en forme des dates :    \\  \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/​dat}  \\ Mise en forme des dates :    \\  \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/​dat}
  
 +\\
  
 === Types de dates === === Types de dates ===
Ligne 73: Ligne 84:
 |  du |  Date unique | |  du |  Date unique |
  
 +\\
  
 === Incertitude concernant les dates === === Incertitude concernant les dates ===
  
-On peut ajouter également, à la suite de la date, un caractère qui indique ​+On peut ajouter également, à la suite de la date, un caractère qui indique ​le degré de précision de la date
  
-|  [e] |  Date exacte |  |+|  [e] |  Date exacte | Ce caractère est omis car il s'agit de degré de précision par défaut ​|
 |  r |  Date reconstituée |Date qu'on a pu reconstituer à partir du contexte | |  r |  Date reconstituée |Date qu'on a pu reconstituer à partir du contexte |
 |  p |  Date postulée | Date qu'on fixe pour disposer d'un point d'​ancrage dans le temps à défaut d'en savoir plus | |  p |  Date postulée | Date qu'on fixe pour disposer d'un point d'​ancrage dans le temps à défaut d'en savoir plus |
  
-Il était en fonction au {dat20001115p_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}.+Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}.
  
 \\ \\
  
 ===== Annotation de documents ===== ===== Annotation de documents =====
- 
- 
- 
-==== Annotation manuelle ==== 
  
  
Ligne 106: Ligne 114:
     * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]     * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]
  
 +\\
 +
 +==== Annotation manuelle ====
 +
 +Une pratique efficace :
 +  * sélectionner le texte à annoter, par ex. une entitée nommée
 +  * ouvrir la boîte de dialogue Chercher/​Remplacer et activer les expressions régulières
 +  * entourer la chaîne recherchée avec une parenthèse ronde : ( )
 +  * utiliser les chaînes de remplacement précédemment utilisées, tout en mettant le bon objet, par ex. {en789}$1{/​en}
 +
 +
 +=== Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer ===
 +
 +  * Rechercher: ​ \{[a-zA-Z_/​0-9]*\}
 +  * Rechercher: ​ (\{[a-zA-Z0-9_/​]*\}) – Remplacer: $1 [avec indication du format dans le champs remplacer]
 +
 +\\
 +
 +==== Annotation semi-automatique ====
 +
 +
 +  * Créer des unités documentaires,​ une par notice
 +     * Chercher : $   ​Remplacer :​ \n{/​ud}\n{ud0}\n
 +     * Ajouter la première et la dernière balise
 +
 +  * Annoter les dates de naissance
 +     * Chercher : (,​\s|\()(\d{4})(\)) ​ Remplacer : ​ $1{dat$2}$2{/​dat}$3
 +     * Avec cette expression on devrait trouver presque exclusivement les dates de naissance
 +
 +  * Chercher les lieux de naissance
 +     * Chercher : ​ (\s\()([\w\s\(\),'​\?​]*)(,​\s\{) ​ Remplacer :​ $1{en0li}$2{/​en}$3
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta