Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_2

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_2 [2015/09/22 09:58]
Francesco Beretta [Principes d'annotation]
td_histoire_numerique:exercice_2 [2015/09/25 07:31]
Francesco Beretta
Ligne 3: Ligne 3:
 ===== Création du document à annoter ===== ===== Création du document à annoter =====
  
-**Document à télécharger pour l'​exercice de mardi 22 septembre**:​ {{:​td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF}}+**Document à télécharger pour l'​exercice de mardi 29 septembre**:​ {{:​td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF.ods}}
  
-==== Requête dans les données de la Bibliothèque nationale ====+Les indications concernant ​la production du document se trouvent sur  **[[td_histoire_numerique:​creation_liste_notices_bnf|cette page]]**.
  
-On interroge le point d'accès SPARQL de la Bibliothèque nationale de France pour créer ​un ensemble de données tirées des notices d'​autoritéOuvrir l'[[http://​data.bnf.fr/​sparql/​|Editeur SPARQL ​de data.bnf.fr]] et coller dans l'espace Rêquete ​la requête ​qui suit, tout en laissant ​le format ​de sortie par défaut: HTMLLe résultat de la requête est ainsi mis en forme et peut être parcouru.+Il s'agit maintenant le créer ​le document en format texte que nous allons annoter en introduisant une indexation sémantique. 
 +  * ouvrez le document ​'liste_notices_BNF.ods' 
 +  * sélectionnez toutes les cellules ​de la colonne '​notice' ​sauf la première (qui contient ​le nom de la colonne)Pour sélectionner les cellules sélectionnez ​la première, appuyez sur la touche majuscule puis sélectionnez la dernière. 
 +  * collez le contenu du presse-papier dans un document texte vide (Writer ou Word) 
 +  * sauvegardez ce document sous le nom '​liste_notices_BNF.odt'​
  
-<code sparql>​PREFIX ​ egr:  <​http://​rdvocab.info/​ElementsGr2/>​ 
  
-SELECT DISTINCT ?s ?na ?fn ?annee ?pb ?gd ?bio 
-WHERE 
-  { { { SELECT DISTINCT ​ ?s ?bio 
-        WHERE 
-          {   { ?s egr:​biographicalInformation ?bio 
-                FILTER ( CONTAINS(?​bio,​ "​mathém"​) || CONTAINS(?​bio,​ "​Mathém"​) ) 
-              } 
-            UNION 
-              { ?s egr:​biographicalInformation ?bio 
-                FILTER ( CONTAINS(?​bio,​ "​astrono"​) || CONTAINS(?​bio,​ "​Astrono"​) ) 
-              } 
-          } 
-      } 
-      ?s egr:​dateOfBirth ?bd 
-      OPTIONAL 
-        { ?s <;​http://​xmlns.com/​foaf/​0.1/​name>;​ ?na } 
-      OPTIONAL 
-        { ?s <;​http://​xmlns.com/​foaf/​0.1/​familyName>;​ ?fn } 
-      OPTIONAL 
-        { ?s egr:​placeOfBirth ?pb } 
-          OPTIONAL 
-        { ?s <;​http://​xmlns.com/​foaf/​0.1/​gender>;​ ?gd } 
  
-    } +===== Annotation de documents =====
-    BIND(STRBEFORE(STRAFTER(STR(?​bd),​ "​http://​DATA.bnf.fr/​date/"​),​ "/"​) AS ?annee) +
-    FILTER ( ( ?annee > "​1100"​ ) && ( ?annee < "​1761"​ ) ) +
-  } +
-ORDER BY ?annee +
-</​code>​+
  
-Pour les intéressés,​ une présentation des concepts du web sémantique,​ dans le contexte du mouvement //Open Data//, se trouve [[http://​phn-wiki.ish-lyon.cnrs.fr/​doku.php?​id=thatcamp_2014:​session_thatcamp2014|sur cette page]]. 
  
-\\+==== Principes d'​annotation ====
  
-=== Création et nettoyage du fichier à encoder ===+Le principe de l'​[[https://​fr.wikipedia.org/​wiki/​Extensible_Markup_Language|encodage en format XML]] mais de manière simplifiée.
  
-    * Revenir à la page de la '​Requête'​ et changer le '​Format du résultat'​ à CSV (comma-separated values) +=== Balises ===
-    * Reexécuter al requête, sélectionner toute la page du résultat et la copier dans le presse-papier +
-    * Ouvrir une nouvelle feuille de calcul dans le logiciel de tableur (Calc pour LibreOffice/​OpenOffice;​ Excel dans la suite Microsoft) +
-    * Coller avec collage spécial dans la première cellule de la feuille de calcul: A1 et choisir 'Texte non formaté'​. +
-      * Dans la boîte de dialogue mettre '​Virgule'​ comme séparateur +
-      * Mettre le 'Type de colonne':'​Texte'​ pour la colonne '​annee'​ +
-      * Importer et vérifier le résultat +
-    * Sauvegarder le nouveau fichier avec le nom '​liste_notices_BNF'​ au format .ods ou .xls+
  
-    * Ajouter une colonne avant la colonne ​'annee' ​qu'on va appeler ​'nom+|{ud0_}TTT{/​ud} |  unité documentaire |  tei:div |  Au dessus du niveau paragraphe, enveloppe un paragraphe | 
-    * Dans la première cellule qui contient les données insérer la formule=SI(ESTVIDE(B2);​C2;​B2) +|  {eud}TTT{/​eud} |  en-tête d'unité documentaire |  tei:head |  A placer toujours au début d'une unité documentaire pour disposer d'un titre | 
-    * Copier-coller cette formule dans toutes les cellules de la colonne sauf la première ligne +|  {seg}TTT{/​seg} |  segment |  tei:seg |  Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | 
-    * Ajouter une colonne annee_mediane après la colonne année +|  {co0}TTT{/​co} |  contentu |  tei:seg |  | 
-    * Insérer dans toutes les cellules de cette colonne la formule =SI(ESTERREUR(CHERCHE("​-";​E2)) ; E2; CONCATENER(GAUCHE(E2;​2);"​51"​)) +|  {in0}TTT{/​in} |  information |  tei:seg |  | 
-    * Ajouter une colonne '​naissance'​ avant la colonne '​gd'​ (gender) et mettre cette formule dans toutes les cellules=SI(ESTVIDE(G2);​F2;​CONCATENER(G2;",​ ";F2)) +|  {en0}TTT{/​en} |  entité nommée |  tei:name |  | 
-    * Ajouter une colonne '​notice'​ après la colonne '​bio'​ et mettre dans toutes les cellules cette formule=CONCATENER(D2;"​ (";​H2;"​) ";​J2;"​ [";​A2;"​]"​) +|  {ro0}TTT{/​ro} |  référence à un objet |  tei:rs |  | 
-    * Trier les données d'​après les colonnes '​annee_mediane'​ et '​nom'​+|  {dat}TTT{/​dat} |  date |  tei:date |  |
  
-On obtient ce résultat: {{:​td_histoire_numerique:​liste_notices_bnf.ods|liste_notices_BNF}} ​+Dans l'​espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue. ​   \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise.
  
-===== Annotation du document =====+=== Types ===
  
-==== Fonctionnalité ​'Rechercher et remplacer'​ ====+On peut également ajouter un sigle sur deux caractères indiquant le type d'objet après le chiffre.
  
-Documentation de LibreOffice (traduction en français):+|  ai |  Acteur [individuel] | 
 +|  ac |  Acteur collectif | 
 +|  oa |  Objet abstrait | 
 +|  cs |  Caractère social | 
 +|  om |  Objet matériel | 
 +|  bi |  Bibliographie | 
 +|  ud |  Unité documentaire | 
 +|  od |  Objet digital | 
 +|  li |  Lieu | 
 +|  im |  Immeuble |
  
-  * [[https://​help.libreoffice.org/​Common/​Find_and_Replace/​fr|Rechercher & remplacer]] +Par exemple{en0cs}mathématicien{/en}
-  * [[https://​help.libreoffice.org/​Common/​List_of_Regular_Expressions/​fr|Liste des expressions régulières]]+
  
 +=== Dates ===
  
 +Nous utilisons pour les dates le [[https://​fr.wikipedia.org/​wiki/​ISO_8601|format ISO 8601]]. ​   \\
 +On saisira les dates sous forme de texte au format ISO 8601, ce qui permet de traiter les dates tronquées (seulement l'​année,​ ou seulement l'​année et le mois, etc.)
  
-=== Recherche ​de similarités ===+ \\ Mise en forme des dates :    \\  \\ {dat20001101} le premier novembre ​de la dernière année du siècle précédent{/​dat}
  
-    * L'​exemple ​de '​Jacob'​ +|  dd |  Date de début | 
-    * [[https://​fr.wikipedia.org/​wiki/​N-gramme|N-Gram]] + df |  Date de fin | 
-    * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]+ di |  Date intermédiaire | 
 +|  du |  Date unique ​|
  
 +|  [e] |  Date exacte |
 +|  r |  Date reconstituée |
 +|  p |  Date postulée |
  
- +Il était ​en fonction ​au {dat20001115r_dimilieu ​du mois de novembre ​de la dernière année du siècle précédent{/dat}.
- +
-==== Principes d'​annotation ==== +
- +
-=== Balises === +
- +
- +
-|{ud0_}TTT{/​ud} |  unité documentaire| tei:div | Au dessus du niveau paragraphe, enveloppe un paragraphe | +
-|{eud}TTT{/​eud}| ​en-tête d'​unité documentaire| tei:head| A placer toujours ​au début d'une unité documentaire pour disposer d'un titre | +
-|{seg}TTT{/seg}| segment| tei:seg| Au dessous ​du niveau paragraphe, toujours à l'​intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions.| +
-|{co0}TTT{/​co} | contentu| tei:seg| | +
-| {in0}TTT{/​in}| information| tei:seg| | +
-|{en0}TTT{/​en}| entité nommée| tei:name| | +
-|{ro0}TTT{/​ro}| référence à un objet| tei:rs| |  +
-|{dat}TTT{/​dat}| date| tei:date| | +
- +
- +
-Dans l'​espace ​de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'​être associée à un objet de la base de données, trois si cette possibilité est exclue.\\ +
-Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise.\\ +
- +
- +
-=== Types === +
- +
- +
-On peut également ajouter un sigle sur deux caractères indiquant le type d'​objet après le chiffre. +
- +
-| ai | Acteur [individuel]|  +
-| ac | Acteur collectif| +
-| oa | Objet abstrait| +
-| cs | Caractère social|  +
-|om| Objet matériel| +
-| bi| Bibliographie|  +
-|ud| Unité documentaire| +
-|od| Objet digital| +
-|li| Lieu|  +
-|im| Immeuble| +
- +
-Par exemple: +
-{en0cs}mathématicien{/en}+
  
 \\ \\
  
 +==== Fonctionnalité '​Rechercher et remplacer'​ ====
  
-=== Dates ===+Documentation de LibreOffice (traduction en français):
  
 +    * [[https://​help.libreoffice.org/​Common/​Find_and_Replace/​fr|Rechercher & remplacer]]
 +    * [[https://​help.libreoffice.org/​Common/​List_of_Regular_Expressions/​fr|Liste des expressions régulières]]
  
-\\ +=== Recherche ​de similarités ===
-Mise en forme des dates :\\ +
-\\ +
-{dat20001101} le premier novembre ​de la dernière année du siècle précédent{/​dat}\\ +
-\\ +
-\\ +
-|dd | Date de début|  +
-|df | Date de fin|  +
-|di | Date intermédiaire|  +
-|du | Date unique|+
  
 +    * L'​exemple de '​Jacob'​
 +    * [[https://​fr.wikipedia.org/​wiki/​N-gramme|N-Gram]]
 +    * [[https://​books.google.com/​ngrams/​graph?​content=Galileo+Galilei,​Cartesio,​Descartes,​Copernico,​Copernicus,​Kopernik&​year_start=1800&​year_end=2000&​corpus=22&​smoothing=3&​share=&​direct_url=t1;,​Galileo Galilei;,​c0;​.t1;,​Cartesio;,​c0;​.t1;,​Descartes;,​c0;​.t1;,​Copernico;,​c0;​.t1;,​Copernicus;,​c0;​.t1;,​Kopernik;,​c0|Google NGram viewer]] – explication : [[https://​fr.wikipedia.org/​wiki/​Ngram_Viewer|Ngram Viewer]]
  
-| [e] | Date exacte | 
-| r | Date reconstituée | 
-| p | Date postulée | 
- 
-Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/​dat}. 
td_histoire_numerique/exercice_2.txt · Dernière modification: 2019/10/07 09:15 par Francesco Beretta