Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/22 21:50]
Francesco Beretta
td_histoire_numerique:exercice_2 [2015/09/25 09:09]
Francesco Beretta [Types]
Ligne 1: Ligne 1:
 Revenir à la [[:​td_histoire_numerique:​accueil|page d'​accueil]]. Revenir à la [[:​td_histoire_numerique:​accueil|page d'​accueil]].
  
-===== Création du document à annoter =====+\\ 
  
-**Document ​à télécharger pour l'​exercice de mardi 22 septembre**:​ {{:​td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF}}+===== Documents ​à annoter =====
  
-Les indications concernant la production ​du document ​se trouvent sur  [[td_histoire_numerique:​creation_liste_notices_bnf|cette page]].+==== Création ​du deuxième ​document ​à annoter ==== 
 +**Document à télécharger pour l'​exercice de mardi 29 septembre**:​ {{:td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF.ods}}
  
 +Les indications concernant la production du document se trouvent sur  **[[td_histoire_numerique:​creation_liste_notices_bnf|cette page]]**.
  
 +Il s'agit maintenant le créer le document en format texte que nous allons annoter en introduisant une indexation sémantique.
 +  * ouvrez le document '​liste_notices_BNF.ods'​
 +  * sélectionnez toutes les cellules de la colonne '​notice'​ sauf la première (qui contient le nom de la colonne). Pour sélectionner les cellules sélectionnez la première, appuyez sur la touche majuscule puis sélectionnez la dernière.
 +  * collez le contenu du presse-papier dans un document texte vide (Writer)
 +  * sauvegardez ce document sous le nom '​**liste_notices_BNF.odt**'​
  
-===== Annotation du document =====+\\
  
-==== Fonctionnalité '​Rechercher ​et remplacer'​ ====+Nous disposons donc de **deux documents à annoter**. Celui que nous venons de produire ​et celui que nous avons téléchargé pour le premier exercice (il est {{:​td_histoire_numerique:​notices_texte_brut.odt|téléchargeable ici}}).
  
-Documentation de LibreOffice (traduction en français):+\\
  
-    * [[https://​help.libreoffice.org/​Common/​Find_and_Replace/​fr|Rechercher & remplacer]] +===== Principes d'​annotation =====
-    * [[https://​help.libreoffice.org/​Common/​List_of_Regular_Expressions/​fr|Liste des expressions régulières]]+
  
-=== Recherche ​de similarités ===+L'​annotation sémantique des textes utilise les principes ​de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://​www.tei-c.org/​|Text encoding initiative]],​ en les appliquant de manière simplifiée.
  
-    * L'​exemple de '​Jacob'​ +==== Balises ====
-    * [[https://​fr.wikipedia.org/​wiki/​N-gramme|N-Gram]] +
-    * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&share=&​direct_url=t1;,Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]+
  
-==== Principes d'​annotation ==== +|{ud0}TTT{/ud} |  unité documentaire |  tei:div |Au dessus du niveau paragraphe, enveloppe un paragraphe | 
- +|  {eud}TTT{/​eud} |  en-tête d'​unité documentaire |  tei:head |A placer toujours au début d'une unité documentaire pour disposer d'un titre | 
-Le principe de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]] mais de manière simplifiée. +|  {seg}TTT{/​seg} |  segment |  tei:seg |Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | 
- +|  {co0}TTT{/​co} |  ​contenu ​|  tei:seg | Identifie dans le texte une unité de connaissance de type '​contenu' ​
-=== Balises === +|  {in0}TTT{/​in} |  information |  tei:seg |Identifie dans le texte une unité de connaissance de type '​information' ​
- +|  {en0}TTT{/​en} |  entité nommée |  tei:name |Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet  | 
-|{ud0_}TTT{/ud} |  unité documentaire |  tei:div |  Au dessus du niveau paragraphe, enveloppe un paragraphe | +|  {ro0}TTT{/​ro} |  référence à un objet |  tei:rs |Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom  | 
-|  {eud}TTT{/​eud} |  en-tête d'​unité documentaire |  tei:head |  A placer toujours au début d'une unité documentaire pour disposer d'un titre | +|  {dat}TTT{/​dat} |  date |  tei:date |Une chaîne de caractéres qui représente une date dans n'​importe quel format ​ |
-|  {seg}TTT{/​seg} |  segment |  tei:seg |  Au dessous du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | +
-|  {co0}TTT{/​co} |  ​contentu ​|  tei:seg |  +
-|  {in0}TTT{/​in} |  information |  tei:seg |  +
-|  {en0}TTT{/​en} |  entité nommée |  tei:name |  | +
-|  {ro0}TTT{/​ro} |  référence à un objet |  tei:rs |  | +
-|  {dat}TTT{/​dat} |  date |  tei:date |  |+
  
 Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise.
  
-=== Types ===+==== Types ====
  
-On peut également ​ajouter un sigle sur deux caractères ​indiquant ​le type d'​objet ​après ​le chiffre.+On peut ajouter un sigle sur deux caractères ​aux balises '​en'​ et '​ro',​ après ​le 0 ou l'​identifiant numérique de l'objet, qui indique quel est le type de l'​objet visé.
  
 |  ai |  Acteur [individuel] | |  ai |  Acteur [individuel] |
Ligne 58: Ligne 56:
 Par exemple: {en0cs}mathématicien{/​en} Par exemple: {en0cs}mathématicien{/​en}
  
-=== Dates ===+==== Dates ====
  
 Nous utilisons pour les dates le [[https://​fr.wikipedia.org/​wiki/​ISO_8601|format ISO 8601]]. ​   \\ Nous utilisons pour les dates le [[https://​fr.wikipedia.org/​wiki/​ISO_8601|format ISO 8601]]. ​   \\
Ligne 77: Ligne 75:
  
 \\ \\
 +
 +===== Annotation de documents =====
 +
 +
 +
 +==== Annotation manuelle ====
 +
 +
 +==== Fonctionnalité '​Rechercher et remplacer'​ ====
 +
 +Documentation de LibreOffice (traduction en français):
 +
 +    * [[https://​help.libreoffice.org/​Common/​Find_and_Replace/​fr|Rechercher & remplacer]]
 +    * [[https://​help.libreoffice.org/​Common/​List_of_Regular_Expressions/​fr|Liste des expressions régulières]]
 +
 +=== Recherche de similarités ===
 +
 +    * L'​exemple de '​Jacob'​
 +    * [[https://​fr.wikipedia.org/​wiki/​N-gramme|N-Gram]]
 +    * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]
  
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta