Différences

Ci-dessous, les différences entre deux révisions de la page.

--- td_histoire_numerique:exercice_2 [2015/09/28 19:01]
Francesco Beretta [Annotation manuelle]
+++ td_histoire_numerique:exercice_2 [2015/09/30 18:39]
Francesco Beretta [Balises]
@@ Ligne 26: / Ligne 26: @@
 L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée.
+Voir sur [[td_histoire_numerique:descriptif_exercice_4&#principes_du_xmlla_grammaire_de_l_encodage|cette page]] une présentation synthétique des principe de l'encodage d'un texte en XML.
 ==== Balises ====
-|{ud0}TTT{/ud} |  unité documentaire |  tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe |
+|{ud0}TTT{/ud} |  unité documentaire |  Au dessus du niveau paragraphe, enveloppe un paragraphe | tei:div | {ud0_8}TTT{/ud} | <ud ref="0" ana="8"> |
 |  {eud}TTT{/eud} |  en-tête d'unité documentaire |  tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre |
-|  {seg}TTT{/seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. |
-|  {co0}TTT{/co} |  contenu |  tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' |
-|  {in0}TTT{/in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type 'information' |
 |  {en0}TTT{/en} |  entité nommée |  tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  |
 |  {ro0}TTT{/ro} |  référence à un objet |  tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom  |
 |  {dat}TTT{/dat} |  date |  tei:date |Une chaîne de caractéres qui représente une date dans n'importe quel format  |
+|  {seg}TTT{/seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. |
+|  {co0}TTT{/co} |  contenu |  tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' |
+|  {in0}TTT{/in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type 'information' |
 Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue.    \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données.
@@ Ligne 100: / Ligne 101: @@
+==== Fonctionnalité 'Rechercher et remplacer' ====
+Documentation de LibreOffice (traduction en français):
+    * [[https://help.libreoffice.org/Common/Find_and_Replace/fr|Rechercher & remplacer]]
+    * [[https://help.libreoffice.org/Common/List_of_Regular_Expressions/fr|Liste des expressions régulières]]
+=== Recherche de similarités ===
+    * L'exemple de 'Jacob'
+    * [[https://fr.wikipedia.org/wiki/N-gramme|N-Gram]]
+    * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]]
+\\
 ==== Annotation manuelle ====
@@ Ligne 110: / Ligne 125: @@
-Chercher dans LibreOffice afin de supprimer ou colorer
+=== Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer ===
-\{[a-zA-Z_/0-9]*\}
-(\{[a-zA-Z0-9_/]*\})  $1 [avec indication du format dans le champs remplacer]
+  * Rechercher:  \{[a-zA-Z_/0-9]*\}
-==== Fonctionnalité 'Rechercher et remplacer' ====
+  * Rechercher:  (\{[a-zA-Z0-9_/]*\}) – Remplacer: $1 [avec indication du format dans le champs remplacer]
-Documentation de LibreOffice (traduction en français):
+\\
-    * [[https://help.libreoffice.org/Common/Find_and_Replace/fr|Rechercher & remplacer]]
+==== Annotation semi-automatique ====
-    * [[https://help.libreoffice.org/Common/List_of_Regular_Expressions/fr|Liste des expressions régulières]]
-=== Recherche de similarités ===
-    * L'exemple de 'Jacob'
+  * Créer des unités documentaires, une par notice
-    * [[https://fr.wikipedia.org/wiki/N-gramme|N-Gram]]
+     * Chercher : $   Remplacer : \n{/ud}\n{ud0}\n
-    * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]]
+     * Ajouter la première et la dernière balise
+  * Annoter les dates de naissance
+     * Chercher : (,\s|\()(\d{4})(\))  Remplacer :  $1{dat$2}$2{/dat}$3
+     * Avec cette expression on devrait trouver presque exclusivement les dates de naissance
+  * Chercher les lieux de naissance
+     * Chercher :  (\s\()([\w\s\(\),'\?]*)(,\s\{)  Remplacer : $1{en0li}$2{/en}$3

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190

Outils pour utilisateurs

Outils du site

Différences

Outils de la page

Wiki de l'ARHN

Axe de recherche en histoire numérique
LARHRA UMR5190