Revenir à l'[[intro_histoire_numerique:accueil|accueil]]
===== Encodage sémantique de textes en XML =====
==== HTML ====
Hypertext Markup Language – HTML
*[[https://fr.wikipedia.org/wiki/Hypertext_Markup_Language|Hypertext Markup Language]] (Wikipedia en français)
* [[https://www.w3schools.com/html/|HTML Tutorial (w3schools)]]
==== XML ====
=== Tutoriels ===
* [[https://openclassrooms.com/fr/courses/1766341-structurez-vos-donnees-avec-xml?status=published|Structurez vos données avec XML]]
* XML - [[https://openclassrooms.com/fr/courses/1766341-structurez-vos-donnees-avec-xml/1766585-les-elements-de-base|Eléments de base]]
* [[https://openclassrooms.com/fr/courses/1766341-structurez-vos-donnees-avec-xml/1769236-introduction-a-xslt|XSLT]]
* [[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|Extensible Markup Language – XML]]
* [[https://fr.wikipedia.org/wiki/XQuery|XQuery]] – [[https://www.w3schools.com/XML/xquery_flwor.asp|FLOWR Tutorial]]
==== TEI – Text encoding initiative ====
* Un [[https://groupes.renater.fr/wiki/symogih/symogih_manuel/edition_de_textes_en_xml-tei|exemple d'encodage sémantique]] autour du projet symogih.org
== Exemple: encoder des correspondances ==
* TEI: [[https://tei-c.org/Activities/SIG/Correspondence/|Correspondence SIG]]
* [[https://wiki.tei-c.org/index.php?title=C._M._v._Weber_an_Johann_Gänsbacher,_Munich,_27th_June_1811|C. M. v. Weber an Johann Gänsbacher, Munich, 27th June 1811]]
* [[https://correspsearch.net/|correspSearch]] ([[https://tei-c.org/activities/projects/correspsearch/|TEI: correspSearch]])
== Collections, ressources, méthodes d'édition ==
* [[https://wiki.tei-c.org/index.php?title=Samples_of_TEI_texts|Samples of TEI texts]]
* Projet Gutenberg: [[http://www.gutenberg.org/catalog/world/results?filetype=tei&pageno=1|textes publiés]] selon les recommandations de la TEI
* [[https://ride.i-d-e.de/issues/|Ride]] – A review journal for digital editions and resources
== Digital Latin Library ==
* [[https://digitallatin.org/blog/setting-atom-editing-texts-digital-latin-library|Setting up Atom for Editing Texts for the Digital Latin Library]]
* [[https://digitallatin.org/blog/using-beautifulsoup-add-works-dlls-database|Using BeautifulSoup to add works to the DLL's database]]
==== Encodage sémantique ====
* Beretta, Francesco,[[https://halshs.archives-ouvertes.fr/halshs-01505635| Pour une annotation sémantique des textes: le projet symogih.org et la Text encoding initiative]], //Bruniana e Campanelliana, Ricerche filosofiche e materiali storico - testuali//, Fabrizio Serra editore, 2016, XXII (2), [[https://dx.doi.org/10.19272/201604102005|⟨10.19272/201604102005⟩]]
=== Annotation sémantique de textes XML en utilisant quelques éléments de TEILite : ===
- ouvrir un existant document préconfiguré (par ex. naudet_2.xml)
remplacer le texte et les méta-données de l'élément //teiHeader// avec les nouvelles données – enregistrer sous un nouveau nom:
Notice wikipedia
- copier coller le texte de la notice dans l'élément //body//
- créer divisions et paragraphes (éléments //div// et //p//)
annoter les **entités nommées** : éléments //name// et //rs//, attributs @ref pour l'individu
Galileo Galilei
l'astronome toscan
annoter les entités nommées sous-entendues: element //ptr//, attribut @target
Annoter les dates:
Elle est née le 27 septembre 1953
Il a été membre du conseil du comté de Suffolk entre 2001 et 2005
annoter les entités temporelles: élément //seg// (au dessous du niveau paragraphe), attributs @type pour le sigle de la classe, @ana pour le code de la classe\\
[segment de texte concernant une naissance]
Diane Julie Abbott, née le 27 septembre 1953 à Londres.
ajouter les propriétés avec l'attribut @ana\\
[segment de texte qui contient le nom de la personne qui naît]
Diane Julie Abbott, née le 27 septembre 1953 à Londres.
ajouter des concepts qui classent les textes
- utiliser les balises structurelles : //div// ou //p //ou la balise //seg avec des attributs @type, //en mettant des noms de concepts en tant que types comme chaînes de caractères (et non des chiffres).
- attention: plusieurs concepts possibles réparés par espace mais dans le nom du concept pas d'accent ni espace; pour les concepts composés de deux mots mettre un tiret sous la ligne (underscore)
- ces conceptes permettent d'identifier des portions de texte mais ne représentent pas des entités temporelles
- on utilise @type pour les concepts définis en tant qu'instances (données) et @ana pour les code / clés des classes et propriétés (modèle)
[division du texte qui concerne tel sujet]
[paragraphe qui concerne tel sujet]