Ceci est une ancienne révision du document !
Revenir à la page d'accueil.
Document à télécharger pour l'exercice de mardi 29 septembre: liste_notices_BNF.ods
Les indications concernant la production du document se trouvent sur cette page.
Il s'agit maintenant le créer le document en format texte que nous allons annoter en introduisant une indexation sémantique.
Nous disposons donc de deux documents à annoter. Celui que nous venons de produire et celui que nous avons téléchargé pour le premier exercice (il est téléchargeable ici).
L'annotation sémantique des textes utilise les principes de l'encodage en format XML, selon les recommandations de la Text encoding initiative, en les appliquant de manière simplifiée.
{ud0}TTT{/ud} | unité documentaire | tei:div | Au dessus du niveau paragraphe, enveloppe un paragraphe |
{eud}TTT{/eud} | en-tête d'unité documentaire | tei:head | A placer toujours au début d'une unité documentaire pour disposer d'un titre |
{seg}TTT{/seg} | segment | tei:seg | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. |
{co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' |
{in0}TTT{/in} | information | tei:seg | Identifie dans le texte une unité de connaissance de type 'information' |
{en0}TTT{/en} | entité nommée | tei:name | Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet |
{ro0}TTT{/ro} | référence à un objet | tei:rs | Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom |
{dat}TTT{/dat} | date | tei:date | Une chaîne de caractéres qui représente une date dans n'importe quel format |
Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue.
Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données.
On peut ajouter un sigle sur deux caractères aux balises 'en' et 'ro', après le 0 ou l'identifiant numérique de l'objet, qui indique quel est le type de l'objet visé.
ai | Acteur [individuel] |
ac | Acteur collectif |
oa | Objet abstrait |
cs | Caractère social |
om | Objet matériel |
bi | Bibliographie |
ud | Unité documentaire |
od | Objet digital |
li | Lieu |
im | Immeuble |
Par exemple: {en0cs}mathématicien{/en}
Nous utilisons pour les dates le format ISO 8601.
On saisira les dates sous forme de texte au format ISO 8601, ce qui permet de traiter les dates tronquées (seulement l'année, ou seulement l'année et le mois, etc.)
Mise en forme des dates :
{dat20001101} le premier novembre de la dernière année du siècle précédent{/dat}
dd | Date de début |
df | Date de fin |
di | Date intermédiaire |
du | Date unique |
[e] | Date exacte |
r | Date reconstituée |
p | Date postulée |
Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}.
Documentation de LibreOffice (traduction en français):