Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/25 07:35] Francesco Beretta [Création du document à annoter] |
td_histoire_numerique:exercice_2 [2015/09/25 09:20] Francesco Beretta [Dates] |
||
---|---|---|---|
Ligne 3: | Ligne 3: | ||
\\ | \\ | ||
- | ===== Création du document à annoter ===== | + | ===== Documents à annoter ===== |
+ | ==== Création du deuxième document à annoter ==== | ||
**Document à télécharger pour l'exercice de mardi 29 septembre**: {{:td_histoire_numerique:liste_notices_bnf.ods|liste_notices_BNF.ods}} | **Document à télécharger pour l'exercice de mardi 29 septembre**: {{:td_histoire_numerique:liste_notices_bnf.ods|liste_notices_BNF.ods}} | ||
Ligne 14: | Ligne 15: | ||
* collez le contenu du presse-papier dans un document texte vide (Writer) | * collez le contenu du presse-papier dans un document texte vide (Writer) | ||
* sauvegardez ce document sous le nom '**liste_notices_BNF.odt**' | * sauvegardez ce document sous le nom '**liste_notices_BNF.odt**' | ||
+ | |||
+ | \\ | ||
+ | |||
+ | Nous disposons donc de **deux documents à annoter**. Celui que nous venons de produire et celui que nous avons téléchargé pour le premier exercice (il est {{:td_histoire_numerique:notices_texte_brut.odt|téléchargeable ici}}). | ||
\\ | \\ | ||
Ligne 19: | Ligne 24: | ||
===== Principes d'annotation ===== | ===== Principes d'annotation ===== | ||
- | Le principe de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]] mais de manière simplifiée. | + | L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. |
- | === Balises === | + | ==== Balises ==== |
- | |{ud0_}TTT{/ud} | unité documentaire | tei:div | Au dessus du niveau paragraphe, enveloppe un paragraphe | | + | |{ud0}TTT{/ud} | unité documentaire | tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe | |
- | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head | A placer toujours au début d'une unité documentaire pour disposer d'un titre | | + | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre | |
- | | {seg}TTT{/seg} | segment | tei:seg | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | + | | {seg}TTT{/seg} | segment | tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | |
- | | {co0}TTT{/co} | contentu | tei:seg | | | + | | {co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' | |
- | | {in0}TTT{/in} | information | tei:seg | | | + | | {in0}TTT{/in} | information | tei:seg |Identifie dans le texte une unité de connaissance de type 'information' | |
- | | {en0}TTT{/en} | entité nommée | tei:name | | | + | | {en0}TTT{/en} | entité nommée | tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet | |
- | | {ro0}TTT{/ro} | référence à un objet | tei:rs | | | + | | {ro0}TTT{/ro} | référence à un objet | tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom | |
- | | {dat}TTT{/dat} | date | tei:date | | | + | | {dat}TTT{/dat} | date | tei:date |Une chaîne de caractéres qui représente une date dans n'importe quel format | |
- | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. | + | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données. |
- | === Types === | + | ==== Types ==== |
- | On peut également ajouter un sigle sur deux caractères indiquant le type d'objet après le chiffre. | + | On peut ajouter un sigle sur deux caractères aux balises 'en' et 'ro', après le 0 ou l'identifiant numérique de l'objet, qui indique quel est le type de l'objet visé. |
| ai | Acteur [individuel] | | | ai | Acteur [individuel] | | ||
Ligne 51: | Ligne 56: | ||
Par exemple: {en0cs}mathématicien{/en} | Par exemple: {en0cs}mathématicien{/en} | ||
- | === Dates === | + | ==== Dates ==== |
Nous utilisons pour les dates le [[https://fr.wikipedia.org/wiki/ISO_8601|format ISO 8601]]. \\ | Nous utilisons pour les dates le [[https://fr.wikipedia.org/wiki/ISO_8601|format ISO 8601]]. \\ | ||
Ligne 57: | Ligne 62: | ||
\\ Mise en forme des dates : \\ \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/dat} | \\ Mise en forme des dates : \\ \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/dat} | ||
+ | |||
+ | |||
+ | === Types de dates === | ||
+ | |||
+ | On peut ajouter après la date, en la séparant par un tiret bas, une précision sous forme de sigle à deux caractères qui indique quel est le type de date: | ||
| dd | Date de début | | | dd | Date de début | | ||
Ligne 63: | Ligne 73: | ||
| du | Date unique | | | du | Date unique | | ||
- | | [e] | Date exacte | | + | \\ |
- | | r | Date reconstituée | | + | |
- | | p | Date postulée | | + | === Incertitude concernant les dates === |
+ | |||
+ | On peut ajouter également, à la suite de la date, un caractère qui indique le degré de précision de la date | ||
+ | |||
+ | | [e] | Date exacte | Ce caractère est omis car il s'agit de degré de précision par défaut | | ||
+ | | r | Date reconstituée |Date qu'on a pu reconstituer à partir du contexte | | ||
+ | | p | Date postulée | Date qu'on fixe pour disposer d'un point d'ancrage dans le temps à défaut d'en savoir plus | | ||
Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}. | Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}. |