Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/28 19:01]
Francesco Beretta [Annotation manuelle]
td_histoire_numerique:exercice_2 [2015/10/01 11:21]
Francesco Beretta [Annotation de documents]
Ligne 26: Ligne 26:
 L'​annotation sémantique des textes utilise les principes de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée. L'​annotation sémantique des textes utilise les principes de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée.
  
 +Voir sur [[td_histoire_numerique:​descriptif_exercice_4&#​principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'​encodage d'un texte en XML.
 ==== Balises ==== ==== Balises ====
  
-|{ud0}TTT{/​ud} |  unité documentaire ​|  tei:​div ​|Au dessus du niveau paragraphe, enveloppe un paragraphe | +TTT = n'​importe quelle chaîne de caractères 
-|  {eud}TTT{/​eud} |  en-tête d'​unité documentaire ​|  tei:​head ​|A placer toujours au début d'une unité documentaire pour disposer d'un titre | + 
-|  {seg}TTT{/​seg} |  segment |  ​tei:seg |Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | + 
-|  ​{co0}TTT{/co} |  ​contenu |  tei:seg | Identifie dans le texte une unité de connaissance de type '​contenu'​ | +^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^ 
-|  {in0}TTT{/in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type '​information' ​+|{ud0}TTT{/​ud} |  unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe ​| tei:div | {ud0_8}TTT{/​ud} | <ud ref="​0"​ ana="​8">​TTT</​ud> ​
-|  {en0}TTT{/​en} |  entité nommée ​|  tei:​name ​|Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  | +|  {eud}TTT{/​eud} |  en-tête d'​unité documentaire | A placer toujours au début d'une unité documentaire pour disposer d'un titre | tei:head | {eud_9}TTT{/eud} | <​eud ​type="​9">​TTT</eud> ​
-|  {ro0}TTT{/​ro} |  référence à un objet |  tei:​rs ​|Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom  +|  {en0}TTT{/​en} |  entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  ​| tei:name | {en2ai_10}TTT{/​en} | <en type="​ai"​ ref="​2"​ ana="​10">​TTT</​en> ​
-|  {dat}TTT{/​dat} |  ​date |  tei:date |Une chaîne de caractéres qui représente une date dans n'​importe quel format ​ |+|  {ro0}TTT{/​ro} |  référence à un objet | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | tei:rs | {ro0ai_10}TTT{/​ro} | <ro type="​ai"​ ref="​2"​ ana="​10">​TTT</​ro> ​
 +|  {dat}TTT{/​dat} |  date |Une chaîne de caractéres qui représente une date dans n'​importe quel format ​ tei:​date ​{dat1576r_df} | <dat when="​1576"​ cert="​r"​ type="​df">​TTT</​dat>​ | 
 +|  {seg}TTT{/​seg} |  segment | Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | tei:seg | {seg_8}TTT{/​seg} | <seg ana="​8">​TTT</​seg>​ | 
 +|  {co0}TTT{/​co} |  contenu | Identifie dans le texte une unité de connaissance de type '​contenu'​ | tei:seg | {co0_11}TTT{/​co} | <co ref="​0"​ ana="​11">​TTT</​co>​ | 
 +|  {in0}TTT{/​in} |  information | Identifie dans le texte une unité de connaissance de type '​information'​ | tei:seg | {in13_12}TTT{/​in} | <in ref="​2"​ ana="​12">​TTT</​in>​ | 
  
 Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'​identifiant de l'​objet dans la base de données. Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'​identifiant de l'​objet dans la base de données.
Ligne 94: Ligne 100:
  
 Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}. Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}.
 +
 +\\
  
 \\ \\
  
 ===== Annotation de documents ===== ===== Annotation de documents =====
 +\\
 +==== Fonctionnalité '​Rechercher et remplacer'​ ====
  
  
 +=== Expressions régulières ===
  
-==== Annotation manuelle ====+Une [[https://​fr.wikipedia.org/​wiki/​Expression_rationnelle|introduction]] aux expressions régulières. De nombreux tutoriels et sites proposant des exercices existent sur le web pour apprendre à les utiliser.
  
-Une pratique efficace : 
-  * sélectionner le texte à annoter, par ex. une entitée nommée 
-  * ouvrir la boîte de dialogue Chercher/​Remplacer et activer les expressions régulières 
-  * entourer la chaîne recherchée avec une parenthèse ronde : ( ) 
-  * utiliser les chaînes de remplacement précédemment utilisées, tout en mettant le bon objet, par ex. {en789}$1{/​en} 
- 
- 
-Chercher dans LibreOffice afin de supprimer ou colorer 
-\{[a-zA-Z_/​0-9]*\} 
- 
-(\{[a-zA-Z0-9_/​]*\}) ​ $1 [avec indication du format dans le champs remplacer] 
-==== Fonctionnalité '​Rechercher et remplacer'​ ==== 
  
 Documentation de LibreOffice (traduction en français): Documentation de LibreOffice (traduction en français):
Ligne 127: Ligne 126:
     * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]     * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]
  
 +\\
 +
 +==== Annotation manuelle ====
 +
 +Une pratique efficace :
 +
 +    * sélectionner le texte à annoter, par ex. une entitée nommée
 +    * ouvrir la boîte de dialogue Chercher/​Remplacer et activer les expressions régulières
 +    * entourer la chaîne recherchée avec une parenthèse ronde : ( )
 +    * dans la zone '​Remplacer'​ introduire le symbole $1 (qui se réfère aux premières parenthèses rondes de la recherche) en l'​entourant de la balise appropriée,​ par ex. {en0}$1{/​en}
 +    * pour aller plus vite, utiliser les chaînes de remplacement des recherches précédentes,​ tout en remplaçant l'​identifiant précédent par celui de l'​objet en question et en ajoutant, le cas échéant des bons paramètres,​ par ex. {en789}$1{/​en}
 +
 +=== Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer ===
 +
 +    * Rechercher: ​ %%\%%{[a-zA-Z_/​0-9]%%*%%%%\%%}
 +    * Rechercher: ​ (%%\%%{[a-zA-Z0-9_/​]%%*%%%%\%%}) – Remplacer: $1 [avec indication du format dans le champs remplacer]
 +
 +==== Annotation semi-automatique ====
 +
 +
 +  * Créer des unités documentaires,​ une par notice
 +     * Chercher : $   ​Remplacer :​ \n{/​ud}\n{ud0}\n
 +     * Ajouter la première et la dernière balise
 +
 +  * Annoter les dates de naissance
 +     * Chercher : (,​\s|\()(\d{4})(\)) ​ Remplacer : ​ $1{dat$2}$2{/​dat}$3
 +     * Avec cette expression on devrait trouver presque exclusivement les dates de naissance
 +
 +  * Chercher les lieux de naissance
 +     * Chercher : ​ (\s\()([\w\s\(\),'​\?​]*)(,​\s\{) ​ Remplacer :​ $1{en0li}$2{/​en}$3
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta