Outils pour utilisateurs

Outils du site


intro_histoire_numerique:xml_annotation_semantique

Revenir à l'accueil

Encodage sémantique de textes en XML

HTML

Hypertext Markup Language – HTML

XML 

Tutoriels

TEI – Text encoding initiative

Exemple: encoder des correspondances
Collections, ressources, méthodes d'édition
Digital Latin Library

Encodage sémantique

Annotation sémantique de textes XML en utilisant quelques éléments de TEILite :

  • ouvrir un existant document préconfiguré (par ex. naudet_2.xml)

  • remplacer le texte et les méta-données de l'élément teiHeader avec les nouvelles données – enregistrer sous un nouveau nom:

    <sourceDesc>

    <p corresp=“https://fr.wikipedia.org/wiki/Emmanuel_de_Pastoret”>Notice wikipedia</p>

    </sourceDesc>

  • copier coller le texte de la notice dans l'élément body

  • créer divisions et paragraphes (éléments div et p)

  • annoter les entités nommées : éléments name et rs, attributs @ref pour l'individu

    <name ref=“1”>Galileo Galilei</name>

    <rs ref=“1”>l'astronome toscan</rs>

  • annoter les entités nommées sous-entendues: element ptr, attribut @target

    <ptr target=“1”/>

  • Annoter les dates:

    Elle est née le <date when=“1953-09-17”>27 septembre 1953</date>

    Il a été membre du conseil du comté de Suffolk <date from=“2001” to=“2005”>entre 2001 et 2005</date>

  • annoter les entités temporelles: élément seg (au dessous du niveau paragraphe), attributs @type pour le sigle de la classe, @ana pour le code de la classe
        <seg ana=“3”>[segment de texte concernant une naissance]</seg>

    <seg ana=“3”><name ref=“14”>Diane Julie Abbott</name>, née le <date when=“1953-09-17”>27 septembre 1953</date> à <name ref=“317”>Londres</name></seg>.

  • ajouter les propriétés avec l'attribut @ana
        <name ana=“19”>[segment de texte qui contient le nom de la personne qui naît]</seg>

    <seg ana=“3”><name ref=“14” ana=“19”>Diane Julie Abbott</name>, née le <date when=“1953-09-17”>27 septembre 1953</date> à <name ref=“317” ana=“4”>Londres</name></seg>.

  • ajouter des concepts qui classent les textes

    • utiliser les balises structurelles : div ou p ou la balise seg avec des attributs @type, en mettant des noms de concepts en tant que types comme chaînes de caractères (et non des chiffres).

    • attention: plusieurs concepts possibles réparés par espace mais dans le nom du concept pas d'accent ni espace; pour les concepts composés de deux mots mettre un tiret sous la ligne (underscore)

    • ces conceptes permettent d'identifier des portions de texte mais ne représentent pas des entités temporelles

    • on utilise @type pour les concepts définis en tant qu'instances (données) et @ana pour les code / clés des classes et propriétés (modèle)

    <div type=“biographie carriere_politique”>[division du texte qui concerne tel sujet]</div>

    <p type=“biographie”>[paragraphe qui concerne tel sujet]</p

Atom - éditeur de texte et de code

Installation de base

Sous Windows:

  • Vérifier que Java est bien installé sur votre ordinateur sous Windows:
    • activer l'invite de commandes de Windows = cherche CMD parmi les programmes
    • dans l'invite de commandes (CMD) taper: java -version
    • si il vous dit que Java n'est pas dans le chemin il n'est pas installé, s'il est installé il vous indique le numéro de version installée
  • Si Java n'est pas installé, l'installer depuis ce site:

   https://www.java.com/fr/download/

  • Tester l'insallation de java, taper dans CMD:

java -version

Sous MacOS:

  • Vérifier que Java est bien installé sur votre ordinateur:
    • ouvrir Terminal
    • taper: java -version
  • Java devrait être installé par défaut sur macOS, gérer dans Préférences Système > Java
  • Télécharger le logiciel libre Atom

    • Vérifier présence de:

      • autocomplete-html

    • Wikipedia : Atom

      • afin de protégér votre sphère privée, dans Préférences > Packages > désactiver le plugin 'metrics'


    Plugins à installer:

    • atom-beautify

    • atom-html-preview

    • atom-xsltransform

    • installer l'extension linter-autocomplete-jing

      •    Lorsque le logiciel vous demande: Install dependency? répondre Oui

         et ce plusieurs fois (Java est requis pour cette installation)

    • atom-wrap-in-tag

    • atom-live-server-plus

    • language-sparql

Installation optionnelle

Installer Git pour versionnement et intallation de plugins supplémentaires qui utilisent Git

  • choose Atom as GIT default's editor
  • le reste per default, y compris MinTTY
  • Vérifier l'installation:

apm -version

Résultat (avec d'autres versions des paquets):

apm  2.4.3
npm  6.2.0
node 10.2.1 x64
atom 1.40.1
python 3.7.3
git 2.17.2

Après avoir installé Git et vérifié qu'il est bien là:

  • installer le plugin quick-query

  • puis le plugin: quick-query-sqlite qui permet de visualiser des données d'une base SQLite directement dans Atom

  • SQLite est en lecture seule, si on utilise PostgreSQL on peut aussi écrire dans la base de données

intro_histoire_numerique/xml_annotation_semantique.txt · Dernière modification: 2020/11/30 11:45 par Francesco Beretta