Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/30 18:52]
Francesco Beretta [Balises]
td_histoire_numerique:exercice_2 [2015/10/10 08:07]
Francesco Beretta [Balises]
Ligne 2: Ligne 2:
  
 \\  \\ 
 +====== Annotation de documents ======
 +\\
  
 ===== Documents à annoter ===== ===== Documents à annoter =====
Ligne 28: Ligne 30:
 Voir sur [[td_histoire_numerique:​descriptif_exercice_4&#​principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'​encodage d'un texte en XML. Voir sur [[td_histoire_numerique:​descriptif_exercice_4&#​principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'​encodage d'un texte en XML.
 ==== Balises ==== ==== Balises ====
 +
 +TTT = n'​importe quelle chaîne de caractères
 +
 +
 ^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^ ^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^
 |{ud0}TTT{/​ud} |  unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/​ud} | <ud ref="​0"​ ana="​8">​TTT</​ud>​ | |{ud0}TTT{/​ud} |  unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/​ud} | <ud ref="​0"​ ana="​8">​TTT</​ud>​ |
Ligne 33: Ligne 39:
 |  {en0}TTT{/​en} |  entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  | tei:name | {en2ai_10}TTT{/​en} | <en type="​ai"​ ref="​2"​ ana="​10">​TTT</​en>​ | |  {en0}TTT{/​en} |  entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  | tei:name | {en2ai_10}TTT{/​en} | <en type="​ai"​ ref="​2"​ ana="​10">​TTT</​en>​ |
 |  {ro0}TTT{/​ro} |  référence à un objet | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | tei:rs | {ro0ai_10}TTT{/​ro} | <ro type="​ai"​ ref="​2"​ ana="​10">​TTT</​ro>​ | |  {ro0}TTT{/​ro} |  référence à un objet | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | tei:rs | {ro0ai_10}TTT{/​ro} | <ro type="​ai"​ ref="​2"​ ana="​10">​TTT</​ro>​ |
-|  {dat}TTT{/​dat} | tei:date |Une chaîne de caractéres qui représente une date dans n'​importe quel format |date | {dat1576r_df} | <dat when="​1576"​ cert="​r"​ type="​df">​TTT</​dat>​ |+|  {dat}TTT{/​dat} |  date |Une chaîne de caractéres qui représente une date dans n'​importe quel format |  tei:date | {dat1576r_df} | <dat when="​1576"​ cert="​r"​ type="​df">​TTT</​dat> | 
 +|  {seg}TTT{/​seg} |  segment | Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | tei:seg | {seg_8}TTT{/​seg} | <seg ana="​8">​TTT</​seg>​ | 
 +|  {co0}TTT{/​co} |  contenu | Identifie dans le texte une unité de connaissance de type '​contenu'​ | tei:seg | {co0_11}TTT{/​co} | <co ref="​0"​ ana="​11">​TTT</​co>​ | 
 +|  {in0}TTT{/​in} |  information | Identifie dans le texte une unité de connaissance de type '​information'​ | tei:seg | {in13_12}TTT{/​in} | <in ref="​2"​ ana="​12">​TTT</​in> |
  
- 
-|  {seg}TTT{/​seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | 
-|  {co0}TTT{/​co} |  contenu |  tei:seg | Identifie dans le texte une unité de connaissance de type '​contenu'​ | 
-|  {in0}TTT{/​in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type '​information'​ | 
  
 Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'​identifiant de l'​objet dans la base de données. Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'​identifiant de l'​objet dans la base de données.
  
 ==== Types ==== ==== Types ====
 +
 +
 +=== Types d'​objets ===
  
 On peut ajouter un sigle sur deux caractères aux balises '​en'​ et '​ro',​ après le 0 ou l'​identifiant numérique de l'​objet,​ qui indique quel est le type de l'​objet visé. On peut ajouter un sigle sur deux caractères aux balises '​en'​ et '​ro',​ après le 0 ou l'​identifiant numérique de l'​objet,​ qui indique quel est le type de l'​objet visé.
Ligne 60: Ligne 68:
  
 \\ \\
-Si on souhaite spécifier ​un type sous forme d'un objet abstrait qu'on crée dans la base de donnéeson ajoutera l'​identifiant ​de l'​objet ​après un tiret bas.+ 
 + 
 +=== Typologie supplémentaire === 
 + 
 +Pour toutes les balises, sauf la balise '​dat'​ (pour la date), ​on peut ajouter ​un type sous forme d'un objet abstrait qu'on crée dans la base de données ​et dont on ajoutera l'​identifiant après un tiret bas.
  
 Par ex.:\\ Par ex.:\\
-{seg_23}Érudit et collectionneur français{/​seg} 
  
-Dans la base de données, l'​objet 23 serait defini en tant que '​notice biographique succincte'​. Avec ce procédé on peut indexer et qualifier au point de vue sémantique toute portion de texte.+  * {seg_23}Érudit et collectionneur français{/​seg} 
 +    * dans la base de données, l'​objet 23 serait defini en tant que '​notice biographique succincte'​. 
 +    * Avec ce procédé on peut indexer et qualifier au point de vue sémantique toute portion de texte. 
 +  * {en2ai_10}Johannes Kepler{/​en} 
 +    * Cette entité nommée correspond à un acteur individuel (ai) qui a le numéro 2 dans la base de données. 
 +    * De plus il s'agit de l'​objet concerné par le discours (identifant 10 de la base de données 
 +  * {ro18|19<​del>​cs</​del>​_10|999}Philosophe et savant français{/​ro} 
 +    * si on identifie plusieurs objets dans une même portion de texte, enveloppée par une balise, on peut ou lui associer plusieurs clés d'​objets de la base de données (18 et 19 dans l'​exemple) séparées par un trait vertical "​|"​. Dans ce cas, il est toutefois interdit d'​ajouter le type d'​objet. 
 +    * de la même manière on peut associer une ou plusieurs typologies à un texte, après le tiret sous la ligne, en les séparant par un "​|"​ 
 + 
  
 \\ \\
Ligne 97: Ligne 118:
  
 Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}. Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}.
 +
 +\\
  
 \\ \\
  
 ===== Annotation de documents ===== ===== Annotation de documents =====
 +\\
 +==== Fonctionnalité '​Rechercher et remplacer'​ ====
  
  
-==== Fonctionnalité '​Rechercher et remplacer'​ ====+ 
 +=== Expressions régulières ​=== 
 + 
 +Une [[https://​fr.wikipedia.org/​wiki/​Expression_rationnelle|introduction]] aux expressions régulières. De nombreux tutoriels et sites proposant des exercices existent sur le web pour apprendre à les utiliser. 
  
 Documentation de LibreOffice (traduction en français): Documentation de LibreOffice (traduction en français):
Ligne 120: Ligne 149:
 ==== Annotation manuelle ==== ==== Annotation manuelle ====
  
-Une pratique ​efficace : +Une pratique ​efficace ​:
-  * sélectionner le texte à annoter, par ex. une entitée nommée +
-  * ouvrir la boîte de dialogue Chercher/​Remplacer et activer les expressions régulières +
-  * entourer la chaîne recherchée avec une parenthèse ronde : ( ) +
-  * utiliser les chaînes de remplacement précédemment utilisées, tout en mettant le bon objet, par ex. {en789}$1{/​en}+
  
 +    * sélectionner le texte à annoter, par ex. une entitée nommée
 +    * ouvrir la boîte de dialogue Chercher/​Remplacer et activer les expressions régulières
 +    * entourer la chaîne recherchée avec une parenthèse ronde : ( )
 +    * dans la zone '​Remplacer'​ introduire le symbole $1 (qui se réfère aux premières parenthèses rondes de la recherche) en l'​entourant de la balise appropriée,​ par ex. {en0}$1{/​en}
 +    * pour aller plus vite, utiliser les chaînes de remplacement des recherches précédentes,​ tout en remplaçant l'​identifiant précédent par celui de l'​objet en question et en ajoutant, le cas échéant des bons paramètres,​ par ex. {en789}$1{/​en}
  
 === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer ===
  
-  ​* Rechercher: ​ \{[a-zA-Z_/​0-9]*\} +    ​* Rechercher:  ​%%\%%{[a-zA-Z_/​0-9\|]%%*%%%%\%%
-  * Rechercher: ​ (\{[a-zA-Z0-9_/​]*\}) – Remplacer: $1 [avec indication du format dans le champs remplacer] +    * Rechercher: ​ (%%\%%{[a-zA-Z0-9_/​\|]%%*%%%%\%%}) – Remplacer: $1 [avec indication du format dans le champs remplacer]
- +
-\\+
  
 ==== Annotation semi-automatique ==== ==== Annotation semi-automatique ====
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta