Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/26 10:18] Francesco Beretta [Création du deuxième document à annoter] |
td_histoire_numerique:exercice_2 [2015/10/01 11:06] Francesco Beretta [Fonctionnalité 'Rechercher et remplacer'] |
||
---|---|---|---|
Ligne 26: | Ligne 26: | ||
L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. | L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. | ||
+ | Voir sur [[td_histoire_numerique:descriptif_exercice_4&#principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'encodage d'un texte en XML. | ||
==== Balises ==== | ==== Balises ==== | ||
- | |{ud0}TTT{/ud} | unité documentaire | tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe | | + | TTT = n'importe quelle chaîne de caractères |
- | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre | | + | |
- | | {seg}TTT{/seg} | segment | tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | + | |
- | | {co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' | | + | ^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^ |
- | | {in0}TTT{/in} | information | tei:seg |Identifie dans le texte une unité de connaissance de type 'information' | | + | |{ud0}TTT{/ud} | unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/ud} | <ud ref="0" ana="8">TTT</ud> | |
- | | {en0}TTT{/en} | entité nommée | tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | | + | | {eud}TTT{/eud} | en-tête d'unité documentaire | A placer toujours au début d'une unité documentaire pour disposer d'un titre | tei:head | {eud_9}TTT{/eud} | <eud type="9">TTT</eud> | |
- | | {ro0}TTT{/ro} | référence à un objet | tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | | + | | {en0}TTT{/en} | entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | tei:name | {en2ai_10}TTT{/en} | <en type="ai" ref="2" ana="10">TTT</en> | |
- | | {dat}TTT{/dat} | date | tei:date |Une chaîne de caractéres qui représente une date dans n'importe quel format | | + | | {ro0}TTT{/ro} | référence à un objet | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | tei:rs | {ro0ai_10}TTT{/ro} | <ro type="ai" ref="2" ana="10">TTT</ro> | |
+ | | {dat}TTT{/dat} | date |Une chaîne de caractéres qui représente une date dans n'importe quel format | tei:date | {dat1576r_df} | <dat when="1576" cert="r" type="df">TTT</dat> | | ||
+ | | {seg}TTT{/seg} | segment | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | tei:seg | {seg_8}TTT{/seg} | <seg ana="8">TTT</seg> | | ||
+ | | {co0}TTT{/co} | contenu | Identifie dans le texte une unité de connaissance de type 'contenu' | tei:seg | {co0_11}TTT{/co} | <co ref="0" ana="11">TTT</co> | | ||
+ | | {in0}TTT{/in} | information | Identifie dans le texte une unité de connaissance de type 'information' | tei:seg | {in13_12}TTT{/in} | <in ref="2" ana="12">TTT</in> | | ||
Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | ||
Ligne 100: | Ligne 106: | ||
+ | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
- | ==== Annotation manuelle ==== | ||
+ | === Expressions régulières === | ||
+ | |||
+ | Une [[https://fr.wikipedia.org/wiki/Expression_rationnelle|introduction]] aux expressions régulières. De nombreux tutoriels et sites proposant des exercices existent sur le web pour apprendre à les utiliser. | ||
- | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
Documentation de LibreOffice (traduction en français): | Documentation de LibreOffice (traduction en français): | ||
Ligne 117: | Ligne 125: | ||
* [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | ||
+ | \\ | ||
+ | |||
+ | ==== Annotation manuelle ==== | ||
+ | |||
+ | Une pratique efficace : | ||
+ | |||
+ | * sélectionner le texte à annoter, par ex. une entitée nommée | ||
+ | * ouvrir la boîte de dialogue Chercher/Remplacer et activer les expressions régulières | ||
+ | * entourer la chaîne recherchée avec une parenthèse ronde : ( ) | ||
+ | * utiliser les chaînes de remplacement précédemment utilisées, tout en mettant le bon objet, par ex. {en789}$1{/en} | ||
+ | |||
+ | === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === | ||
+ | |||
+ | * Rechercher: %%\%%{[a-zA-Z_/0-9]%%*%%%%\%%} | ||
+ | * Rechercher: (%%\%%{[a-zA-Z0-9_/]%%*%%%%\%%}) – Remplacer: $1 [avec indication du format dans le champs remplacer] | ||
+ | |||
+ | ==== Annotation semi-automatique ==== | ||
+ | |||
+ | |||
+ | * Créer des unités documentaires, une par notice | ||
+ | * Chercher : $ Remplacer : \n{/ud}\n{ud0}\n | ||
+ | * Ajouter la première et la dernière balise | ||
+ | |||
+ | * Annoter les dates de naissance | ||
+ | * Chercher : (,\s|\()(\d{4})(\)) Remplacer : $1{dat$2}$2{/dat}$3 | ||
+ | * Avec cette expression on devrait trouver presque exclusivement les dates de naissance | ||
+ | |||
+ | * Chercher les lieux de naissance | ||
+ | * Chercher : (\s\()([\w\s\(\),'\?]*)(,\s\{) Remplacer : $1{en0li}$2{/en}$3 |