Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/25 09:10] Francesco Beretta [Balises] |
td_histoire_numerique:exercice_2 [2015/09/28 19:05] Francesco Beretta [Annotation manuelle] |
||
---|---|---|---|
Ligne 18: | Ligne 18: | ||
\\ | \\ | ||
- | Nous disposons donc de **deux documents à annoter**. Celui que nous venons de produire et celui que nous avons téléchargé pour le premier exercice (il est {{:td_histoire_numerique:notices_texte_brut.odt|téléchargeable ici}}). | + | Nous disposons donc de <html><span style="color:red;font-weight:bold;">deux documents à annoter</span></html> : {{:td_histoire_numerique:liste_notices_bnf.odt|celui que nous venons de produire}} et celui que nous avons téléchargé pour le premier exercice (il est {{:td_histoire_numerique:notices_texte_brut.odt|téléchargeable ici}}). |
\\ | \\ | ||
Ligne 56: | Ligne 56: | ||
Par exemple: {en0cs}mathématicien{/en} | Par exemple: {en0cs}mathématicien{/en} | ||
+ | \\ | ||
+ | Si on souhaite spécifier un type sous forme d'un objet abstrait qu'on crée dans la base de données, on ajoutera l'identifiant de l'objet après un tiret bas. | ||
+ | |||
+ | Par ex.:\\ | ||
+ | {seg_23}Érudit et collectionneur français{/seg} | ||
+ | |||
+ | Dans la base de données, l'objet 23 serait defini en tant que 'notice biographique succincte'. Avec ce procédé on peut indexer et qualifier au point de vue sémantique toute portion de texte. | ||
+ | |||
+ | \\ | ||
==== Dates ==== | ==== Dates ==== | ||
Ligne 62: | Ligne 71: | ||
\\ Mise en forme des dates : \\ \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/dat} | \\ Mise en forme des dates : \\ \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/dat} | ||
+ | |||
+ | \\ | ||
+ | |||
+ | === Types de dates === | ||
+ | |||
+ | On peut ajouter après la date, en la séparant par un tiret bas, une précision sous forme de sigle à deux caractères qui indique quel est le type de date: | ||
| dd | Date de début | | | dd | Date de début | | ||
Ligne 68: | Ligne 83: | ||
| du | Date unique | | | du | Date unique | | ||
- | | [e] | Date exacte | | + | \\ |
- | | r | Date reconstituée | | + | |
- | | p | Date postulée | | + | === Incertitude concernant les dates === |
+ | |||
+ | On peut ajouter également, à la suite de la date, un caractère qui indique le degré de précision de la date | ||
+ | |||
+ | | [e] | Date exacte | Ce caractère est omis car il s'agit de degré de précision par défaut | | ||
+ | | r | Date reconstituée |Date qu'on a pu reconstituer à partir du contexte | | ||
+ | | p | Date postulée | Date qu'on fixe pour disposer d'un point d'ancrage dans le temps à défaut d'en savoir plus | | ||
Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}. | Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}. | ||
Ligne 77: | Ligne 98: | ||
===== Annotation de documents ===== | ===== Annotation de documents ===== | ||
- | |||
- | |||
- | |||
- | ==== Annotation manuelle ==== | ||
Ligne 96: | Ligne 113: | ||
* [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | ||
+ | \\ | ||
+ | |||
+ | ==== Annotation manuelle ==== | ||
+ | |||
+ | Une pratique efficace : | ||
+ | * sélectionner le texte à annoter, par ex. une entitée nommée | ||
+ | * ouvrir la boîte de dialogue Chercher/Remplacer et activer les expressions régulières | ||
+ | * entourer la chaîne recherchée avec une parenthèse ronde : ( ) | ||
+ | * utiliser les chaînes de remplacement précédemment utilisées, tout en mettant le bon objet, par ex. {en789}$1{/en} | ||
+ | |||
+ | |||
+ | === Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer === | ||
+ | |||
+ | * Rechercher: \{[a-zA-Z_/0-9]*\} | ||
+ | * Rechercher: (\{[a-zA-Z0-9_/]*\}) – Remplacer: $1 [avec indication du format dans le champs remplacer] | ||
+ | |||
+ | \\ | ||
+ | |||
+ | ==== Annotation semi-automatique ==== | ||
+ | |||
+ | |||
+ | * Créer des unités documentaires, une par notice | ||
+ | * Chercher : $ Remplacer : \n{/ud}\n{ud0}\n | ||
+ | * Ajouter la première et la dernière balise | ||
+ | |||
+ | * Annoter les dates de naissance | ||
+ | * Chercher : (,\s|\()(\d{4})(\)) Remplacer : $1{dat$2}$2{/dat}$3 | ||
+ | * Avec cette expression on devrait trouver presque exclusivement les dates de naissance | ||
+ | |||
+ | * Chercher les lieux de naissance | ||
+ | * Chercher : (\s\()([\w\s\(\),'\?]*)(,\s\{) Remplacer : $1{en0li}$2{/en}$3 |