Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/25 07:35] Francesco Beretta [Création du document à annoter] |
td_histoire_numerique:exercice_2 [2015/10/10 07:48] Francesco Beretta |
||
---|---|---|---|
Ligne 2: | Ligne 2: | ||
\\ | \\ | ||
+ | ====== Annotation de documents ====== | ||
+ | \\ | ||
- | ===== Création du document à annoter ===== | + | ===== Documents à annoter ===== |
+ | ==== Création du deuxième document à annoter ==== | ||
**Document à télécharger pour l'exercice de mardi 29 septembre**: {{:td_histoire_numerique:liste_notices_bnf.ods|liste_notices_BNF.ods}} | **Document à télécharger pour l'exercice de mardi 29 septembre**: {{:td_histoire_numerique:liste_notices_bnf.ods|liste_notices_BNF.ods}} | ||
Ligne 14: | Ligne 17: | ||
* collez le contenu du presse-papier dans un document texte vide (Writer) | * collez le contenu du presse-papier dans un document texte vide (Writer) | ||
* sauvegardez ce document sous le nom '**liste_notices_BNF.odt**' | * sauvegardez ce document sous le nom '**liste_notices_BNF.odt**' | ||
+ | |||
+ | \\ | ||
+ | |||
+ | Nous disposons donc de <html><span style="color:red;font-weight:bold;">deux documents à annoter</span></html> : {{:td_histoire_numerique:liste_notices_bnf.odt|celui que nous venons de produire}} et celui que nous avons téléchargé pour le premier exercice (il est {{:td_histoire_numerique:notices_texte_brut.odt|téléchargeable ici}}). | ||
\\ | \\ | ||
Ligne 19: | Ligne 26: | ||
===== Principes d'annotation ===== | ===== Principes d'annotation ===== | ||
- | Le principe de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]] mais de manière simplifiée. | + | L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. |
- | === Balises === | + | Voir sur [[td_histoire_numerique:descriptif_exercice_4&#principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'encodage d'un texte en XML. |
+ | ==== Balises ==== | ||
- | |{ud0_}TTT{/ud} | unité documentaire | tei:div | Au dessus du niveau paragraphe, enveloppe un paragraphe | | + | TTT = n'importe quelle chaîne de caractères |
- | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head | A placer toujours au début d'une unité documentaire pour disposer d'un titre | | + | |
- | | {seg}TTT{/seg} | segment | tei:seg | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | + | |
- | | {co0}TTT{/co} | contentu | tei:seg | | | + | |
- | | {in0}TTT{/in} | information | tei:seg | | | + | |
- | | {en0}TTT{/en} | entité nommée | tei:name | | | + | |
- | | {ro0}TTT{/ro} | référence à un objet | tei:rs | | | + | |
- | | {dat}TTT{/dat} | date | tei:date | | | + | |
- | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. | ||
- | === Types === | + | ^ Balise ^ Définition ^ Explication ^ Balise TEI ^ Exemple complet ^ Transformé en XML ^ |
+ | |{ud0}TTT{/ud} | unité documentaire | Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/ud} | <ud ref="0" ana="8">TTT</ud> | | ||
+ | | {eud}TTT{/eud} | en-tête d'unité documentaire | A placer toujours au début d'une unité documentaire pour disposer d'un titre | tei:head | {eud_9}TTT{/eud} | <eud type="9">TTT</eud> | | ||
+ | | {en0}TTT{/en} | entité nommée | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | tei:name | {en2ai_10}TTT{/en} | <en type="ai" ref="2" ana="10">TTT</en> | | ||
+ | | {ro0}TTT{/ro} | référence à un objet | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | tei:rs | {ro0ai_10}TTT{/ro} | <ro type="ai" ref="2" ana="10">TTT</ro> | | ||
+ | | {dat}TTT{/dat} | date |Une chaîne de caractéres qui représente une date dans n'importe quel format | tei:date | {dat1576r_df} | <dat when="1576" cert="r" type="df">TTT</dat> | | ||
+ | | {seg}TTT{/seg} | segment | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | tei:seg | {seg_8}TTT{/seg} | <seg ana="8">TTT</seg> | | ||
+ | | {co0}TTT{/co} | contenu | Identifie dans le texte une unité de connaissance de type 'contenu' | tei:seg | {co0_11}TTT{/co} | <co ref="0" ana="11">TTT</co> | | ||
+ | | {in0}TTT{/in} | information | Identifie dans le texte une unité de connaissance de type 'information' | tei:seg | {in13_12}TTT{/in} | <in ref="2" ana="12">TTT</in> | | ||
- | On peut également ajouter un sigle sur deux caractères indiquant le type d'objet après le chiffre. | + | |
+ | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. | ||
+ | |||
+ | ==== Types ==== | ||
+ | |||
+ | |||
+ | === Types d'objets === | ||
+ | |||
+ | On peut ajouter un sigle sur deux caractères aux balises 'en' et 'ro', après le 0 ou l'identifiant numérique de l'objet, qui indique quel est le type de l'objet visé. | ||
| ai | Acteur [individuel] | | | ai | Acteur [individuel] | | ||
Ligne 51: | Ligne 67: | ||
Par exemple: {en0cs}mathématicien{/en} | Par exemple: {en0cs}mathématicien{/en} | ||
- | === Dates === | + | \\ |
+ | |||
+ | |||
+ | === Typologie supplémentaire === | ||
+ | |||
+ | Pour toutes les balises, sauf la balise 'dat' (pour la date), on peut ajouter un type sous forme d'un objet abstrait qu'on crée dans la base de données et dont on ajoutera l'identifiant après un tiret bas. | ||
+ | |||
+ | Par ex.:\\ | ||
+ | |||
+ | * {seg_23}Érudit et collectionneur français{/seg} | ||
+ | * dans la base de données, l'objet 23 serait defini en tant que 'notice biographique succincte'. | ||
+ | * Avec ce procédé on peut indexer et qualifier au point de vue sémantique toute portion de texte. | ||
+ | * {en2ai_10}Johannes Kepler{/en} | ||
+ | * Cette entité nommée correspond à un acteur individuel (ai) qui a le numéro 2 dans la base de données. | ||
+ | * De plus il s'agit de l'objet concerné par le discours (identifant 10 de la base de données | ||
+ | * {ro18|19<del>cs</del>_10|999}Philosophe et savant français{/ro} | ||
+ | * si on identifie plusieurs objets dans une même portion de texte, enveloppée par une balise, on peut ou lui associer plusieurs clés d'objets de la base de données (18 et 19 dans l'exemple) séparées par un trait vertical "|". Dans ce cas, il est toutefois interdit d'ajouter le type d'objet. | ||
+ | * de la même manière on peut associer une ou plusieurs typologies à un texte, après le tiret sous la ligne, en les séparant par un "|" | ||
+ | |||
+ | |||
+ | |||
+ | \\ | ||
+ | ==== Dates ==== | ||
Nous utilisons pour les dates le [[https://fr.wikipedia.org/wiki/ISO_8601|format ISO 8601]]. \\ | Nous utilisons pour les dates le [[https://fr.wikipedia.org/wiki/ISO_8601|format ISO 8601]]. \\ | ||
Ligne 57: | Ligne 95: | ||
\\ Mise en forme des dates : \\ \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/dat} | \\ Mise en forme des dates : \\ \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/dat} | ||
+ | |||
+ | \\ | ||
+ | |||
+ | === Types de dates === | ||
+ | |||
+ | On peut ajouter après la date, en la séparant par un tiret bas, une précision sous forme de sigle à deux caractères qui indique quel est le type de date: | ||
| dd | Date de début | | | dd | Date de début | | ||
Ligne 63: | Ligne 107: | ||
| du | Date unique | | | du | Date unique | | ||
- | | [e] | Date exacte | | + | \\ |
- | | r | Date reconstituée | | + | |
- | | p | Date postulée | | + | === Incertitude concernant les dates === |
+ | |||
+ | On peut ajouter également, à la suite de la date, un caractère qui indique le degré de précision de la date | ||
+ | |||
+ | | [e] | Date exacte | Ce caractère est omis car il s'agit de degré de précision par défaut | | ||
+ | | r | Date reconstituée |Date qu'on a pu reconstituer à partir du contexte | | ||
+ | | p | Date postulée | Date qu'on fixe pour disposer d'un point d'ancrage dans le temps à défaut d'en savoir plus | | ||
Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}. | Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}. | ||
+ | |||
+ | \\ | ||
\\ | \\ | ||
===== Annotation de documents ===== | ===== Annotation de documents ===== | ||
+ | \\ | ||
+ | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
- | ==== Annotation manuelle ==== | + | === Expressions régulières === |
+ | Une [[https://fr.wikipedia.org/wiki/Expression_rationnelle|introduction]] aux expressions régulières. De nombreux tutoriels et sites proposant des exercices existent sur le web pour apprendre à les utiliser. | ||
- | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
Documentation de LibreOffice (traduction en français): | Documentation de LibreOffice (traduction en français): | ||
Ligne 91: | Ligne 145: | ||
* [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | ||
+ | \\ | ||
+ | |||
+ | ==== Annotation manuelle ==== | ||
+ | |||
+ | Une pratique efficace : | ||
+ | |||
+ | * sélectionner le texte à annoter, par ex. une entitée nommée | ||
+ | * ouvrir la boîte de dialogue Chercher/Remplacer et activer les expressions régulières | ||
+ | * entourer la chaîne recherchée avec une parenthèse ronde : ( ) | ||
+ | * dans la zone 'Remplacer' introduire le symbole $1 (qui se réfère aux premières parenthèses rondes de la recherche) en l'entourant de la balise appropriée, par ex. {en0}$1{/en} | ||
+ | * pour aller plus vite, utiliser les chaînes de remplacement des recherches précédentes, tout en remplaçant l'identifiant précédent par celui de l'objet en question et en ajoutant, le cas échéant des bons paramètres, par ex. {en789}$1{/en} | ||
+ | |||
+ | === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === | ||
+ | |||
+ | * Rechercher: %%\%%{[a-zA-Z_/0-9\|]%%*%%%%\%%} | ||
+ | * Rechercher: (%%\%%{[a-zA-Z0-9_/\|]%%*%%%%\%%}) – Remplacer: $1 [avec indication du format dans le champs remplacer] | ||
+ | |||
+ | ==== Annotation semi-automatique ==== | ||
+ | |||
+ | |||
+ | * Créer des unités documentaires, une par notice | ||
+ | * Chercher : $ Remplacer : \n{/ud}\n{ud0}\n | ||
+ | * Ajouter la première et la dernière balise | ||
+ | |||
+ | * Annoter les dates de naissance | ||
+ | * Chercher : (,\s|\()(\d{4})(\)) Remplacer : $1{dat$2}$2{/dat}$3 | ||
+ | * Avec cette expression on devrait trouver presque exclusivement les dates de naissance | ||
+ | |||
+ | * Chercher les lieux de naissance | ||
+ | * Chercher : (\s\()([\w\s\(\),'\?]*)(,\s\{) Remplacer : $1{en0li}$2{/en}$3 |