Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/28 19:02] Francesco Beretta |
td_histoire_numerique:exercice_2 [2015/10/01 11:11] Francesco Beretta [Annotation manuelle] |
||
---|---|---|---|
Ligne 26: | Ligne 26: | ||
L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. | L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. | ||
+ | Voir sur [[td_histoire_numerique:descriptif_exercice_4&#principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'encodage d'un texte en XML. | ||
==== Balises ==== | ==== Balises ==== | ||
- | |{ud0}TTT{/ud} | unité documentaire | tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe | | + | TTT = n'importe quelle chaîne de caractères |
- | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre | | + | |
- | | {seg}TTT{/seg} | segment | tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | + | |
- | | {co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' | | + | ^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^ |
- | | {in0}TTT{/in} | information | tei:seg |Identifie dans le texte une unité de connaissance de type 'information' | | + | |{ud0}TTT{/ud} | unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/ud} | <ud ref="0" ana="8">TTT</ud> | |
- | | {en0}TTT{/en} | entité nommée | tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | | + | | {eud}TTT{/eud} | en-tête d'unité documentaire | A placer toujours au début d'une unité documentaire pour disposer d'un titre | tei:head | {eud_9}TTT{/eud} | <eud type="9">TTT</eud> | |
- | | {ro0}TTT{/ro} | référence à un objet | tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | | + | | {en0}TTT{/en} | entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | tei:name | {en2ai_10}TTT{/en} | <en type="ai" ref="2" ana="10">TTT</en> | |
- | | {dat}TTT{/dat} | date | tei:date |Une chaîne de caractéres qui représente une date dans n'importe quel format | | + | | {ro0}TTT{/ro} | référence à un objet | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | tei:rs | {ro0ai_10}TTT{/ro} | <ro type="ai" ref="2" ana="10">TTT</ro> | |
+ | | {dat}TTT{/dat} | date |Une chaîne de caractéres qui représente une date dans n'importe quel format | tei:date | {dat1576r_df} | <dat when="1576" cert="r" type="df">TTT</dat> | | ||
+ | | {seg}TTT{/seg} | segment | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | tei:seg | {seg_8}TTT{/seg} | <seg ana="8">TTT</seg> | | ||
+ | | {co0}TTT{/co} | contenu | Identifie dans le texte une unité de connaissance de type 'contenu' | tei:seg | {co0_11}TTT{/co} | <co ref="0" ana="11">TTT</co> | | ||
+ | | {in0}TTT{/in} | information | Identifie dans le texte une unité de connaissance de type 'information' | tei:seg | {in13_12}TTT{/in} | <in ref="2" ana="12">TTT</in> | | ||
Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | ||
Ligne 101: | Ligne 107: | ||
==== Fonctionnalité 'Rechercher et remplacer' ==== | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
+ | |||
+ | |||
+ | === Expressions régulières === | ||
+ | |||
+ | Une [[https://fr.wikipedia.org/wiki/Expression_rationnelle|introduction]] aux expressions régulières. De nombreux tutoriels et sites proposant des exercices existent sur le web pour apprendre à les utiliser. | ||
+ | |||
Documentation de LibreOffice (traduction en français): | Documentation de LibreOffice (traduction en français): | ||
Ligne 117: | Ligne 129: | ||
==== Annotation manuelle ==== | ==== Annotation manuelle ==== | ||
- | Une pratique efficace : | + | Une pratique efficace : |
- | * sélectionner le texte à annoter, par ex. une entitée nommée | + | |
- | * ouvrir la boîte de dialogue Chercher/Remplacer et activer les expressions régulières | + | |
- | * entourer la chaîne recherchée avec une parenthèse ronde : ( ) | + | |
- | * utiliser les chaînes de remplacement précédemment utilisées, tout en mettant le bon objet, par ex. {en789}$1{/en} | + | |
+ | * sélectionner le texte à annoter, par ex. une entitée nommée | ||
+ | * ouvrir la boîte de dialogue Chercher/Remplacer et activer les expressions régulières | ||
+ | * entourer la chaîne recherchée avec une parenthèse ronde : ( ) | ||
+ | * dans la zone 'Remplacer' introduire le symbole $1 (qui se réfère aux premières parenthèses rondes de la recherche) en l'entourant de la balise appropriée, par ex. {en0}$1{/en} | ||
+ | * pour aller plus vite, utiliser les chaînes de remplacement des recherches précédentes, tout en remplaçant l'identifiant précédent par celui de l'objet en question et en ajoutant, le cas échéant des bons paramètres, par ex. {en789}$1{/en} | ||
=== Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === | === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === | ||
- | \{[a-zA-Z_/0-9]*\} | + | * Rechercher: %%\%%{[a-zA-Z_/0-9]%%*%%%%\%%} |
+ | * Rechercher: (%%\%%{[a-zA-Z0-9_/]%%*%%%%\%%}) – Remplacer: $1 [avec indication du format dans le champs remplacer] | ||
+ | |||
+ | ==== Annotation semi-automatique ==== | ||
+ | |||
+ | |||
+ | * Créer des unités documentaires, une par notice | ||
+ | * Chercher : $ Remplacer : \n{/ud}\n{ud0}\n | ||
+ | * Ajouter la première et la dernière balise | ||
+ | |||
+ | * Annoter les dates de naissance | ||
+ | * Chercher : (,\s|\()(\d{4})(\)) Remplacer : $1{dat$2}$2{/dat}$3 | ||
+ | * Avec cette expression on devrait trouver presque exclusivement les dates de naissance | ||
- | (\{[a-zA-Z0-9_/]*\}) $1 [avec indication du format dans le champs remplacer] | + | * Chercher les lieux de naissance |
+ | * Chercher : (\s\()([\w\s\(\),'\?]*)(,\s\{) Remplacer : $1{en0li}$2{/en}$3 |