Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/28 19:02]
Francesco Beretta
td_histoire_numerique:exercice_2 [2015/09/30 18:48]
Francesco Beretta [Balises]
Ligne 26: Ligne 26:
 L'​annotation sémantique des textes utilise les principes de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée. L'​annotation sémantique des textes utilise les principes de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée.
  
 +Voir sur [[td_histoire_numerique:​descriptif_exercice_4&#​principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'​encodage d'un texte en XML.
 ==== Balises ==== ==== Balises ====
 +^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^
 +|{ud0}TTT{/​ud} |  unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/​ud} | <ud ref="​0"​ ana="​8">​TTT</​ud>​ |
 +|  {eud}TTT{/​eud} |  en-tête d'​unité documentaire | A placer toujours au début d'une unité documentaire pour disposer d'un titre |  tei:head | {eud_9}TTT{/​eud} | <eud type="​9">​TTT</​eud>​ |
 +|  {en0}TTT{/​en} |  entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  |  tei:name | {en2ai_10}TTT{/​en} | <en type="​ai"​ ref="​2"​ ana="​10">​TTT</​en>​ |
  
-|{ud0}TTT{/ud} |  ​unité documentaire ​|  tei:div |Au dessus du niveau paragraphe, enveloppe ​un paragraphe ​+ {ro0}TTT{/ro} |  ​référence à un objet |  tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom  ​
-|  {eud}TTT{/eud} |  ​en-tête d'​unité documentaire ​|  tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre |+|  {dat}TTT{/dat} |  ​date |  tei:date |Une chaîne de caractéres qui représente ​une date dans n'importe quel format  ​|
 |  {seg}TTT{/​seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | |  {seg}TTT{/​seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. |
 |  {co0}TTT{/​co} |  contenu |  tei:seg | Identifie dans le texte une unité de connaissance de type '​contenu'​ | |  {co0}TTT{/​co} |  contenu |  tei:seg | Identifie dans le texte une unité de connaissance de type '​contenu'​ |
 |  {in0}TTT{/​in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type '​information'​ | |  {in0}TTT{/​in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type '​information'​ |
-|  {en0}TTT{/​en} |  entité nommée |  tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  | 
-|  {ro0}TTT{/​ro} |  référence à un objet |  tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom  | 
-|  {dat}TTT{/​dat} |  date |  tei:date |Une chaîne de caractéres qui représente une date dans n'​importe quel format ​ | 
  
 Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'​identifiant de l'​objet dans la base de données. Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'​identifiant de l'​objet dans la base de données.
Ligne 126: Ligne 128:
 === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer ===
  
-\{[a-zA-Z_/​0-9]*\}+  * Rechercher:  ​\{[a-zA-Z_/​0-9]*\} 
 +  * Rechercher: ​ (\{[a-zA-Z0-9_/​]*\}) – Remplacer: $1 [avec indication du format dans le champs remplacer] 
 + 
 +\\ 
 + 
 +==== Annotation semi-automatique ==== 
 + 
 + 
 +  * Créer des unités documentaires,​ une par notice 
 +     * Chercher : $   ​Remplacer :​ \n{/​ud}\n{ud0}\n 
 +     * Ajouter la première et la dernière balise 
 + 
 +  * Annoter les dates de naissance 
 +     * Chercher : (,​\s|\()(\d{4})(\)) ​ Remplacer : ​ $1{dat$2}$2{/​dat}$3 
 +     * Avec cette expression on devrait trouver presque exclusivement les dates de naissance
  
-(\{[a-zA-Z0-9_/]*\})  $1 [avec indication du format dans le champs remplacer]+  * Chercher les lieux de naissance 
 +     * Chercher :  ​(\s\()([\w\s\(\),'​\?​]*)(,\s\{)  ​Remplacer : ​$1{en0li}$2{/​en}$3
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta