Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
td_histoire_numerique:exercice_2 [2015/09/22 22:51] Francesco Beretta |
td_histoire_numerique:exercice_2 [2015/09/25 09:04] Francesco Beretta [Balises] |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
Revenir à la [[:td_histoire_numerique:accueil|page d'accueil]]. | Revenir à la [[:td_histoire_numerique:accueil|page d'accueil]]. | ||
- | ===== Création du document à annoter ===== | + | \\ |
- | **Document à télécharger pour l'exercice de mardi 22 septembre**: {{:td_histoire_numerique:liste_notices_bnf.ods|liste_notices_BNF.ods}} | + | ===== Documents à annoter ===== |
+ | |||
+ | ==== Création du deuxième document à annoter ==== | ||
+ | **Document à télécharger pour l'exercice de mardi 29 septembre**: {{:td_histoire_numerique:liste_notices_bnf.ods|liste_notices_BNF.ods}} | ||
Les indications concernant la production du document se trouvent sur **[[td_histoire_numerique:creation_liste_notices_bnf|cette page]]**. | Les indications concernant la production du document se trouvent sur **[[td_histoire_numerique:creation_liste_notices_bnf|cette page]]**. | ||
Ligne 10: | Ligne 13: | ||
* ouvrez le document 'liste_notices_BNF.ods' | * ouvrez le document 'liste_notices_BNF.ods' | ||
* sélectionnez toutes les cellules de la colonne 'notice' sauf la première (qui contient le nom de la colonne). Pour sélectionner les cellules sélectionnez la première, appuyez sur la touche majuscule puis sélectionnez la dernière. | * sélectionnez toutes les cellules de la colonne 'notice' sauf la première (qui contient le nom de la colonne). Pour sélectionner les cellules sélectionnez la première, appuyez sur la touche majuscule puis sélectionnez la dernière. | ||
- | * collez le contenu du presse-papier dans un document texte vide (Writer ou Word) | + | * collez le contenu du presse-papier dans un document texte vide (Writer) |
- | * sauvegardez ce document sous le nom 'liste_notices_BNF.odt' | + | * sauvegardez ce document sous le nom '**liste_notices_BNF.odt**' |
+ | \\ | ||
+ | Nous disposons donc de **deux documents à annoter**. Celui que nous venons de produire et celui que nous avons téléchargé pour le premier exercice (il est {{:td_histoire_numerique:notices_texte_brut.odt|téléchargeable ici}}). | ||
- | ===== Annotation du document ===== | + | \\ |
- | ==== Fonctionnalité 'Rechercher et remplacer' ==== | + | ===== Principes d'annotation ===== |
- | Documentation de LibreOffice (traduction en français): | + | L'annotation sémantique des textes utilise les principes de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]], selon les recommandations de la [[http://www.tei-c.org/|Text encoding initiative]], en les appliquant de manière simplifiée. |
- | * [[https://help.libreoffice.org/Common/Find_and_Replace/fr|Rechercher & remplacer]] | + | ==== Balises ==== |
- | * [[https://help.libreoffice.org/Common/List_of_Regular_Expressions/fr|Liste des expressions régulières]] | + | |
- | + | ||
- | === Recherche de similarités === | + | |
- | + | ||
- | * L'exemple de 'Jacob' | + | |
- | * [[https://fr.wikipedia.org/wiki/N-gramme|N-Gram]] | + | |
- | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | + | |
- | + | ||
- | ==== Principes d'annotation ==== | + | |
- | + | ||
- | Le principe de l'[[https://fr.wikipedia.org/wiki/Extensible_Markup_Language|encodage en format XML]] mais de manière simplifiée. | + | |
- | + | ||
- | === Balises === | + | |
|{ud0_}TTT{/ud} | unité documentaire | tei:div | Au dessus du niveau paragraphe, enveloppe un paragraphe | | |{ud0_}TTT{/ud} | unité documentaire | tei:div | Au dessus du niveau paragraphe, enveloppe un paragraphe | | ||
| {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head | A placer toujours au début d'une unité documentaire pour disposer d'un titre | | | {eud}TTT{/eud} | en-tête d'unité documentaire | tei:head | A placer toujours au début d'une unité documentaire pour disposer d'un titre | | ||
| {seg}TTT{/seg} | segment | tei:seg | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | | {seg}TTT{/seg} | segment | tei:seg | Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. | | ||
- | | {co0}TTT{/co} | contentu | tei:seg | | | + | | {co0}TTT{/co} | contenu | tei:seg | Identifie dans le texte une unité de connaissance de type 'contenu' | |
- | | {in0}TTT{/in} | information | tei:seg | | | + | | {in0}TTT{/in} | information | tei:seg | Identifie dans le texte une unité de connaissance de type 'information' | |
| {en0}TTT{/en} | entité nommée | tei:name | | | | {en0}TTT{/en} | entité nommée | tei:name | | | ||
| {ro0}TTT{/ro} | référence à un objet | tei:rs | | | | {ro0}TTT{/ro} | référence à un objet | tei:rs | | | ||
Ligne 47: | Ligne 39: | ||
Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. | Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue. \\ Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. | ||
- | === Types === | + | ==== Types ==== |
On peut également ajouter un sigle sur deux caractères indiquant le type d'objet après le chiffre. | On peut également ajouter un sigle sur deux caractères indiquant le type d'objet après le chiffre. | ||
Ligne 64: | Ligne 56: | ||
Par exemple: {en0cs}mathématicien{/en} | Par exemple: {en0cs}mathématicien{/en} | ||
- | === Dates === | + | ==== Dates ==== |
Nous utilisons pour les dates le [[https://fr.wikipedia.org/wiki/ISO_8601|format ISO 8601]]. \\ | Nous utilisons pour les dates le [[https://fr.wikipedia.org/wiki/ISO_8601|format ISO 8601]]. \\ | ||
Ligne 83: | Ligne 75: | ||
\\ | \\ | ||
+ | |||
+ | ===== Annotation de documents ===== | ||
+ | |||
+ | |||
+ | |||
+ | ==== Annotation manuelle ==== | ||
+ | |||
+ | |||
+ | ==== Fonctionnalité 'Rechercher et remplacer' ==== | ||
+ | |||
+ | Documentation de LibreOffice (traduction en français): | ||
+ | |||
+ | * [[https://help.libreoffice.org/Common/Find_and_Replace/fr|Rechercher & remplacer]] | ||
+ | * [[https://help.libreoffice.org/Common/List_of_Regular_Expressions/fr|Liste des expressions régulières]] | ||
+ | |||
+ | === Recherche de similarités === | ||
+ | |||
+ | * L'exemple de 'Jacob' | ||
+ | * [[https://fr.wikipedia.org/wiki/N-gramme|N-Gram]] | ||
+ | * [[https://books.google.com/ngrams/graph?content=Galileo+Galilei,Cartesio,Descartes,Copernico,Copernicus,Kopernik&year_start=1800&year_end=2000&corpus=22&smoothing=3&share=&direct_url=t1;,Galileo Galilei;,c0;.t1;,Cartesio;,c0;.t1;,Descartes;,c0;.t1;,Copernico;,c0;.t1;,Copernicus;,c0;.t1;,Kopernik;,c0|Google NGram viewer]] – explication : [[https://fr.wikipedia.org/wiki/Ngram_Viewer|Ngram Viewer]] | ||