Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/22 22:51]
Francesco Beretta [Création du document à annoter]
td_histoire_numerique:exercice_2 [2015/09/26 10:17]
Francesco Beretta [Création du deuxième document à annoter]
Ligne 1: Ligne 1:
 Revenir à la [[:​td_histoire_numerique:​accueil|page d'​accueil]]. Revenir à la [[:​td_histoire_numerique:​accueil|page d'​accueil]].
  
-===== Création du document à annoter =====+\\ 
  
-**Document ​à télécharger pour l'​exercice de mardi 22 septembre**:​ {{:​td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF.ods}}+===== Documents ​à annoter =====
  
-Les indications concernant la production du document se trouvent sur  [[td_histoire_numerique:​creation_liste_notices_bnf|cette page]].+==== Création du deuxième document à annoter ==== 
 +**Document à télécharger pour l'​exercice de mardi 29 septembre**:​ {{:​td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF.ods}} 
 + 
 +Les indications concernant la production du document se trouvent sur  ​**[[td_histoire_numerique:​creation_liste_notices_bnf|cette page]]**.
  
 Il s'agit maintenant le créer le document en format texte que nous allons annoter en introduisant une indexation sémantique. Il s'agit maintenant le créer le document en format texte que nous allons annoter en introduisant une indexation sémantique.
   * ouvrez le document '​liste_notices_BNF.ods'​   * ouvrez le document '​liste_notices_BNF.ods'​
   * sélectionnez toutes les cellules de la colonne '​notice'​ sauf la première (qui contient le nom de la colonne). Pour sélectionner les cellules sélectionnez la première, appuyez sur la touche majuscule puis sélectionnez la dernière.   * sélectionnez toutes les cellules de la colonne '​notice'​ sauf la première (qui contient le nom de la colonne). Pour sélectionner les cellules sélectionnez la première, appuyez sur la touche majuscule puis sélectionnez la dernière.
-  * collez le contenu du presse-papier dans un document texte vide (Writer ​ou Word+  * collez le contenu du presse-papier dans un document texte vide (Writer) 
-  * sauvegardez ce document sous le nom '​liste_notices_BNF.ods'+  * sauvegardez ce document sous le nom '**liste_notices_BNF.odt**'
  
 +\\
  
 +Nous disposons donc de <​html><​span style="​color:​red;​font-size:​150%;">​deux documents à annoter</​span></​html>​ : {{:​td_histoire_numerique:​liste_notices_bnf.odt|celui que nous venons de produire}} et celui que nous avons téléchargé pour le premier exercice (il est {{:​td_histoire_numerique:​notices_texte_brut.odt|téléchargeable ici}}).
  
-===== Annotation du document =====+\\
  
-==== Fonctionnalité '​Rechercher et remplacer' ====+===== Principes d'annotation =====
  
-Documentation ​de LibreOffice (traduction ​en français):+L'​annotation sémantique des textes utilise les principes ​de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage ​en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée.
  
-    * [[https://​help.libreoffice.org/​Common/​Find_and_Replace/​fr|Rechercher & remplacer]] +==== Balises ====
-    * [[https://​help.libreoffice.org/​Common/​List_of_Regular_Expressions/​fr|Liste des expressions régulières]]+
  
-=== Recherche ​de similarités ===+|{ud0}TTT{/​ud} |  unité documentaire |  tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe | 
 +|  {eud}TTT{/​eud} |  en-tête d'​unité documentaire |  tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre | 
 +|  {seg}TTT{/​seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | 
 +|  {co0}TTT{/​co} |  contenu |  tei:seg | Identifie dans le texte une unité ​de connaissance de type '​contenu'​ | 
 +|  {in0}TTT{/​in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type '​information'​ | 
 +|  {en0}TTT{/​en} |  entité nommée |  tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  | 
 +|  {ro0}TTT{/​ro} |  référence à un objet |  tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom  | 
 +|  {dat}TTT{/​dat} |  date |  tei:date |Une chaîne de caractéres qui représente une date dans n'​importe quel format ​ |
  
-    * L'exemple ​de 'Jacob'​ +Dans l'espace ​de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue.    ​\\ Pour les balises à deux lettresun 0 est ajouté si la référence à un objet dans la base de données est omiseAu cas contraireon remplace le 0 par l'​identifiant de l'​objet dans la base de données.
-    * [[https://​fr.wikipedia.org/​wiki/​N-gramme|N-Gram]] +
-    * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]+
  
-==== Principes d'​annotation ​====+==== Types ====
  
-Le principe de l'[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]] mais de manière simplifiée. +On peut ajouter un sigle sur deux caractères aux balises ​'​en' ​et 'ro', ​après le 0 ou l'identifiant numérique de l'​objet, ​qui indique quel est le type de l'​objet ​visé.
- +
-=== Balises === +
- +
-|{ud0_}TTT{/​ud} |  unité documentaire |  tei:div |  Au dessus du niveau paragraphe, enveloppe un paragraphe | +
-|  {eud}TTT{/​eud} |  ​en-tête d'unité documentaire |  tei:head |  A placer toujours au début d'une unité documentaire pour disposer d'un titre | +
-|  {seg}TTT{/​seg} |  segment |  tei:seg |  Au dessous du niveau paragraphetoujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | +
-|  {co0}TTT{/​co} |  contentu |  tei:seg |  | +
-|  {in0}TTT{/​in} |  information |  tei:seg |  | +
-|  {en0}TTT{/​en} |  entité nommée |  tei:name |  | +
-|  {ro0}TTT{/​ro} |  référence à un objet |  tei:rs |  | +
-|  {dat}TTT{/​dat} |  date |  tei:date |  | +
- +
-Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de donnéestrois si cette possibilité ​est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. +
- +
-=== Types === +
- +
-On peut également ajouter un sigle sur deux caractères indiquant ​le type d'​objet ​après le chiffre.+
  
 |  ai |  Acteur [individuel] | |  ai |  Acteur [individuel] |
Ligne 64: Ligne 56:
 Par exemple: {en0cs}mathématicien{/​en} Par exemple: {en0cs}mathématicien{/​en}
  
-=== Dates ===+\\ 
 +Si on souhaite spécifier un type sous forme d'un objet abstrait qu'on crée dans la base de données, on ajoutera l'​identifiant de l'​objet après un tiret bas. 
 + 
 +Par ex.:\\ 
 +{seg_23}Érudit et collectionneur français{/​seg} 
 + 
 +Dans la base de données, l'​objet 23 serait defini en tant que '​notice biographique succincte'​. Avec ce procédé on peut indexer et qualifier au point de vue sémantique toute portion de texte. 
 + 
 +\\ 
 +==== Dates ====
  
 Nous utilisons pour les dates le [[https://​fr.wikipedia.org/​wiki/​ISO_8601|format ISO 8601]]. ​   \\ Nous utilisons pour les dates le [[https://​fr.wikipedia.org/​wiki/​ISO_8601|format ISO 8601]]. ​   \\
Ligne 70: Ligne 71:
  
  \\ Mise en forme des dates :    \\  \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/​dat}  \\ Mise en forme des dates :    \\  \\ {dat20001101} le premier novembre de la dernière année du siècle précédent{/​dat}
 +
 +\\
 +
 +=== Types de dates ===
 +
 +On peut ajouter après la date, en la séparant par un tiret bas, une précision sous forme de sigle à deux caractères qui indique quel est le type de date:
  
 |  dd |  Date de début | |  dd |  Date de début |
Ligne 76: Ligne 83:
 |  du |  Date unique | |  du |  Date unique |
  
-|  [e] |  Date exacte | +\\ 
-|  r |  Date reconstituée | + 
-|  p |  Date postulée |+=== Incertitude concernant les dates === 
 + 
 +On peut ajouter également, à la suite de la date, un caractère qui indique le degré de précision de la date 
 + 
 +|  [e] |  Date exacte ​| Ce caractère est omis car il s'agit de degré de précision par défaut ​
 +|  r |  Date reconstituée ​|Date qu'on a pu reconstituer à partir du contexte ​
 +|  p |  Date postulée ​| Date qu'on fixe pour disposer d'un point d'​ancrage dans le temps à défaut d'en savoir plus |
  
 Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}. Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}.
  
 \\ \\
 +
 +===== Annotation de documents =====
 +
 +
 +
 +==== Annotation manuelle ====
 +
 +
 +==== Fonctionnalité '​Rechercher et remplacer'​ ====
 +
 +Documentation de LibreOffice (traduction en français):
 +
 +    * [[https://​help.libreoffice.org/​Common/​Find_and_Replace/​fr|Rechercher & remplacer]]
 +    * [[https://​help.libreoffice.org/​Common/​List_of_Regular_Expressions/​fr|Liste des expressions régulières]]
 +
 +=== Recherche de similarités ===
 +
 +    * L'​exemple de '​Jacob'​
 +    * [[https://​fr.wikipedia.org/​wiki/​N-gramme|N-Gram]]
 +    * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]
  
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta