Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/28 19:01] Francesco Beretta [Annotation manuelle] |
td_histoire_numerique:exercice_2 [2015/09/30 18:48] Francesco Beretta [Balises] |
||
---|---|---|---|
Ligne 26: | Ligne 26: | ||
L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. | L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. | ||
+ | Voir sur [[td_histoire_numerique:descriptif_exercice_4&#principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'encodage d'un texte en XML. | ||
==== Balises ==== | ==== Balises ==== | ||
+ | ^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^ | ||
+ | |{ud0}TTT{/ud} | unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/ud} | <ud ref="0" ana="8">TTT</ud> | | ||
+ | | {eud}TTT{/eud} | en-tête d'unité documentaire | A placer toujours au début d'une unité documentaire pour disposer d'un titre | tei:head | {eud_9}TTT{/eud} | <eud type="9">TTT</eud> | | ||
+ | | {en0}TTT{/en} | entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | tei:name | {en2ai_10}TTT{/en} | <en type="ai" ref="2" ana="10">TTT</en> | | ||
- | |{ud0}TTT{/ud} | unité documentaire | tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe | | + | | {ro0}TTT{/ro} | référence à un objet | tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | |
- | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre | | + | | {dat}TTT{/dat} | date | tei:date |Une chaîne de caractéres qui représente une date dans n'importe quel format | |
| {seg}TTT{/seg} | segment | tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | | {seg}TTT{/seg} | segment | tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | ||
| {co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' | | | {co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' | | ||
| {in0}TTT{/in} | information | tei:seg |Identifie dans le texte une unité de connaissance de type 'information' | | | {in0}TTT{/in} | information | tei:seg |Identifie dans le texte une unité de connaissance de type 'information' | | ||
- | | {en0}TTT{/en} | entité nommée | tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | | ||
- | | {ro0}TTT{/ro} | référence à un objet | tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | | ||
- | | {dat}TTT{/dat} | date | tei:date |Une chaîne de caractéres qui représente une date dans n'importe quel format | | ||
Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | ||
Ligne 100: | Ligne 102: | ||
+ | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
+ | |||
+ | Documentation de LibreOffice (traduction en français): | ||
+ | |||
+ | * [[https://help.libreoffice.org/Common/Find_and_Replace/fr|Rechercher & remplacer]] | ||
+ | * [[https://help.libreoffice.org/Common/List_of_Regular_Expressions/fr|Liste des expressions régulières]] | ||
+ | |||
+ | === Recherche de similarités === | ||
+ | |||
+ | * L'exemple de 'Jacob' | ||
+ | * [[https://fr.wikipedia.org/wiki/N-gramme|N-Gram]] | ||
+ | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | ||
+ | |||
+ | \\ | ||
==== Annotation manuelle ==== | ==== Annotation manuelle ==== | ||
Ligne 110: | Ligne 126: | ||
- | Chercher dans LibreOffice afin de supprimer ou colorer | + | === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === |
- | \{[a-zA-Z_/0-9]*\} | + | |
- | (\{[a-zA-Z0-9_/]*\}) $1 [avec indication du format dans le champs remplacer] | + | * Rechercher: \{[a-zA-Z_/0-9]*\} |
- | ==== Fonctionnalité 'Rechercher et remplacer' ==== | + | * Rechercher: (\{[a-zA-Z0-9_/]*\}) – Remplacer: $1 [avec indication du format dans le champs remplacer] |
- | Documentation de LibreOffice (traduction en français): | + | \\ |
- | * [[https://help.libreoffice.org/Common/Find_and_Replace/fr|Rechercher & remplacer]] | + | ==== Annotation semi-automatique ==== |
- | * [[https://help.libreoffice.org/Common/List_of_Regular_Expressions/fr|Liste des expressions régulières]] | + | |
- | === Recherche de similarités === | ||
- | * L'exemple de 'Jacob' | + | * Créer des unités documentaires, une par notice |
- | * [[https://fr.wikipedia.org/wiki/N-gramme|N-Gram]] | + | * Chercher : $ Remplacer : \n{/ud}\n{ud0}\n |
- | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | + | * Ajouter la première et la dernière balise |
+ | |||
+ | * Annoter les dates de naissance | ||
+ | * Chercher : (,\s|\()(\d{4})(\)) Remplacer : $1{dat$2}$2{/dat}$3 | ||
+ | * Avec cette expression on devrait trouver presque exclusivement les dates de naissance | ||
+ | * Chercher les lieux de naissance | ||
+ | * Chercher : (\s\()([\w\s\(\),'\?]*)(,\s\{) Remplacer : $1{en0li}$2{/en}$3 |