Outils pour utilisateurs

Outils du site


intro_histoire_numerique:xml_annotation_semantique

Ceci est une ancienne révision du document !


Revenir à l'accueil

Encodage sémantique de textes en XML

XML 

Tutoriels

TEI – Text encoding initiative

Exemple: encoder des correspondances
Collections, ressources, méthodes d'édition
Digital Latin Library

Encodage sémantique

Annotation sémantique de textes XML en utilisant quelques éléments de TEILite :

  • ouvrir un existant document préconfiguré (par ex. naudet_2.xml)

  • remplacer le texte et les méta-données de l'élément teiHeader avec les nouvelles données – enregistrer sous un nouveau nom:

    <sourceDesc>

    <p corresp=“https://fr.wikipedia.org/wiki/Emmanuel_de_Pastoret”>Notice wikipedia</p>

    </sourceDesc>

  • copier coller le texte de la notice dans l'élément body

  • créer divisions et paragraphes (éléments div et p)

  • annoter les entités nommées : éléments name et rs, attributs @ref pour l'individu

    <name ref=“1”>Galileo Galilei</name>

    <rs ref=“1”>l'astronome toscan</rs>

  • annoter les entités nommées sous-entendues: element ptr, attribut @target

    <ptr target=“1”/>

  • Annoter les dates:

    Elle est née le <date when=“1953-09-17”>27 septembre 1953</date>

    Il a été membre du conseil du comté de Suffolk <date from=“2001” to=“2005”>entre 2001 et 2005</date>

  • annoter les entités temporelles: élément seg (au dessous du niveau paragraphe), attributs @type pour le sigle de la classe, @ana pour le code de la classe
        <seg ana=“3”>[segment de texte concernant une naissance]</seg>

    <seg ana=“3”><name ref=“14”>Diane Julie Abbott</name>, née le <date when=“1953-09-17”>27 septembre 1953</date> à <name ref=“317”>Londres</name></seg>.

  • ajouter les propriétés avec l'attribut @ana
        <name ana=“19”>[segment de texte qui contient le nom de la personne qui naît]</seg>

    <seg ana=“3”><name ref=“14” ana=“19”>Diane Julie Abbott</name>, née le <date when=“1953-09-17”>27 septembre 1953</date> à <name ref=“317” ana=“4”>Londres</name></seg>.

  • ajouter des concepts qui classent les textes

    • utiliser les balises structurelles : div ou p ou la balise seg avec des attributs @type, en mettant des noms de concepts en tant que types comme chaînes de caractères (et non des chiffres).

    • attention: plusieurs concepts possibles réparés par espace mais dans le nom du concept pas d'accent ni espace; pour les concepts composés de deux mots mettre un tiret sous la ligne (underscore)

    • ces conceptes permettent d'identifier des portions de texte mais ne représentent pas des entités temporelles

    • on utilise @type pour les concepts définis en tant qu'instances (données) et @ana pour les code / clés des classes et propriétés (modèle)

    <div type=“biographie carriere_politique”>[division du texte qui concerne tel sujet]</div>

    <p type=“biographie”>[paragraphe qui concerne tel sujet]</p

intro_histoire_numerique/xml_annotation_semantique.1606694061.txt.gz · Dernière modification: 2020/11/30 00:54 par Francesco Beretta