Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_4

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_4 [2016/01/05 19:31]
Francesco Beretta [Exploration du contenu encodé]
td_histoire_numerique:exercice_4 [2016/01/05 19:39]
Francesco Beretta [Transformation vers un texte en format XML]
Ligne 52: Ligne 52:
 La méthode d'​encodage appliquée est celle présentée dans le [[td_histoire_numerique:​exercice_2#​principes_d_annotation|deuxième exercice]]. Le document encodé est {{:​td_histoire_numerique:​liste_notices_bnf_annote_lieux_professions.odt|accessible ici}}. Le codage a été effectué de manière semiautomatique,​ en partant des formes associées à chaque lemme. De cette manière les variantes ortographiques ont été prises en compte en les associant au même identifiant de la base de données. Afin de compléter le codage, on a également commencé à baliser les enseignements des différentes disciplines,​ car un peut admettre que "​Professeur de mathématiques"​ est équivalent à "​mathématicien"​. Mais cette demarche demande du temps car les formulations sont très variées et un codage manuel s'​avère indispensable. Les mêmes considérations s'​appliquent aux lieux de naissance. Ce codage expériemental,​ présent dans le texte téléchargéable,​ n'a pas été terminé. La méthode d'​encodage appliquée est celle présentée dans le [[td_histoire_numerique:​exercice_2#​principes_d_annotation|deuxième exercice]]. Le document encodé est {{:​td_histoire_numerique:​liste_notices_bnf_annote_lieux_professions.odt|accessible ici}}. Le codage a été effectué de manière semiautomatique,​ en partant des formes associées à chaque lemme. De cette manière les variantes ortographiques ont été prises en compte en les associant au même identifiant de la base de données. Afin de compléter le codage, on a également commencé à baliser les enseignements des différentes disciplines,​ car un peut admettre que "​Professeur de mathématiques"​ est équivalent à "​mathématicien"​. Mais cette demarche demande du temps car les formulations sont très variées et un codage manuel s'​avère indispensable. Les mêmes considérations s'​appliquent aux lieux de naissance. Ce codage expériemental,​ présent dans le texte téléchargéable,​ n'a pas été terminé.
 ===== Exploration du contenu encodé ===== ===== Exploration du contenu encodé =====
 +
 +==== Transformation vers un texte en format XML ====
  
 En appliquant la méthode présentée dans le [[td_histoire_numerique:​exercice_3#​transformation_des_textes_encodes_en_xml|troisième exercice]], nous avons copié le texte encodé qui se trouve dans le document "​liste_notices_BNF_annote_lieux_professions.odt"​ et nous l'​avons collé dans l'​objet 36 de la base de données, un objet de type "objet digital"​ intitulé "​Notices BNF avec annotation sémantique"​. Nous avons ensuite exécuté cette transformation:​ En appliquant la méthode présentée dans le [[td_histoire_numerique:​exercice_3#​transformation_des_textes_encodes_en_xml|troisième exercice]], nous avons copié le texte encodé qui se trouve dans le document "​liste_notices_BNF_annote_lieux_professions.odt"​ et nous l'​avons collé dans l'​objet 36 de la base de données, un objet de type "objet digital"​ intitulé "​Notices BNF avec annotation sémantique"​. Nous avons ensuite exécuté cette transformation:​
 <code html>​SELECT vues.transformation_xml(36)</​code>​ <code html>​SELECT vues.transformation_xml(36)</​code>​
-qui produit le texte xml dans le champs "​texte_xml"​.+qui produit le texte XML dans le champs "​texte_xml"​.
  
-En combinant les requêtes XPath et SQL, on peut désormais explorer les textes encodés. Avec cette requête, par exemple, on peut chercher tous les concepts encodés, un par personne et année:+En combinant les requêtes XPath et SQL, on peut désormais explorer les textes encodés. 
 +Avec cette requête, par exemple, on peut chercher tous les concepts encodés, un par personne et année:
 <code sql> <code sql>
 WITH tw1 AS WITH tw1 AS
Ligne 85: Ligne 88:
 </​code>​ </​code>​
  
-Les requêtes SQL peuvent être intégrées directement dans des scripts du logiciel R grâce à la bibliothèque ​"​RPostgreSQL"​. Dans le projet R ci-joint, on trouvera quelques exemples d'​exploration et de visualisation des données. Il faut d'​abord ajouter ses propres paramètres de connexion (adresse de la base de données, login et mot de passe) dans le document "​connexion_postgresql.R",​ puis exécuter ce script afin d'​ouvrir une connexion avec la base de données qui pourra ensuite être appelée depuis les autres scripts.+Les requêtes SQL peuvent être intégrées directement dans les scripts du logiciel R grâce à la librairie ​"​RPostgreSQL"​. Dans le {{:​td_histoire_numerique:​r_td2015_distribue.zip|projet R ci-joint}}, on trouvera quelques exemples d'​exploration et de visualisation des données. Il faut d'​abord ajouter ses propres paramètres de connexion (adresse de la base de données, login et mot de passe) dans le document "​connexion_postgresql.R",​ puis exécuter ce script afin d'​ouvrir une connexion avec la base de données qui pourra ensuite être appelée depuis les autres scripts. ​Il faut aussi installer préalablement toutes les librairies R appelées par les différents scripts du projet. 
 + 
 + 
 +==== Exploration avec le logiciel R ==== 
  
 Le script "​exploration_notices.R"​ permet d'​afficher un histogramme qui représente les générations de mathématiciens et astronomes avec un pas de 25 ans. Le script "​exploration_notices.R"​ permet d'​afficher un histogramme qui représente les générations de mathématiciens et astronomes avec un pas de 25 ans.
td_histoire_numerique/exercice_4.txt · Dernière modification: 2016/03/03 10:26 par Francesco Beretta