Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_4

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_4 [2016/01/05 11:23]
Francesco Beretta [Annotation de notices biographiques courtes issues de la BNF]
td_histoire_numerique:exercice_4 [2016/01/05 12:06]
Francesco Beretta [Exploration du lexique des notices]
Ligne 11: Ligne 11:
 ====== Annotation de notices biographiques courtes issues de la BNF ====== ====== Annotation de notices biographiques courtes issues de la BNF ======
  
-Dans cet exercice, nous allons annoter les notices biographiques courtes concernant une population de 790 mathématiciens et astronomes extraites des notices d'​autorité de la Bibliothèque nationale de France ​(cf[[td_histoire_numerique:​exercice_2&#​creation_du_deuxieme_document_a_annoter|cette page]] pour le processus d'​extraction des notices)+Dans cet exercice, nous allons annoter les notices biographiques courtes concernant une population de 790 mathématiciens et astronomes extraites des notices d'​autorité de la Bibliothèque nationale de France.
  
 Cette approche correspond à un constat: souvent, les étudiants sont amenés à étudier une population d'​objets (acteurs, institutions,​ images, concepts, édifices, ...) afin d'en mettre en évidence les caractéristiques ou les relations entre leurs propriétés,​ ainsi que leur évolution dans le temps. Cette approche correspond à un constat: souvent, les étudiants sont amenés à étudier une population d'​objets (acteurs, institutions,​ images, concepts, édifices, ...) afin d'en mettre en évidence les caractéristiques ou les relations entre leurs propriétés,​ ainsi que leur évolution dans le temps.
Ligne 17: Ligne 17:
 On peut traiter ce type de questionnement grâce à une collection de textes courts, tirés directement des sources ou rédigés par les étudians selon les cas, qui contiennent un descriptif des caractéristiques de chaque objet. Il s'​agira ensuite d'​encoder dans chaque texte les concepts essentiels, en lien avec leur définition dans la base de donnée, pour classer ensuite les objets, étudier l'​évolution de leur caractéristiques dans le temps ou étudier les relations entre les objets encodés. On peut traiter ce type de questionnement grâce à une collection de textes courts, tirés directement des sources ou rédigés par les étudians selon les cas, qui contiennent un descriptif des caractéristiques de chaque objet. Il s'​agira ensuite d'​encoder dans chaque texte les concepts essentiels, en lien avec leur définition dans la base de donnée, pour classer ensuite les objets, étudier l'​évolution de leur caractéristiques dans le temps ou étudier les relations entre les objets encodés.
  
-Cette méthode est L'​exemple ​des notices BNF. +Les 790 notices biographiques issues ​des notices ​d'​autorité de la BNF permettent d'​illustrer cette méthode
  
 ===== Exploration du lexique des notices ===== ===== Exploration du lexique des notices =====
 +
 +
 +Sur [[td_histoire_numerique:​exercice_2&#​creation_du_deuxieme_document_a_annoter|cette page]] on trouvera les indications concernant le processus d'​extraction des notices du site data.bnf.fr ainsi que la production du {{:​td_histoire_numerique:​liste_notices_bnf.odt|document à explorer}}. Grâce à un codage qui applique la méthode présentée si dessous, les notices ont été découpées et importées dans la base de données. On les trouvera dans la version la plus récente de la base de données qui peut être installée selon les [[installation_de_la_base_de_donnees&#​mise_a_jour_de_la_base_de_donnees
 +|instructions qui se trouvent sur cette page]].
 +
 +A partir de la base de données, les notices ont été recodées en ajoutant l'​année et le siècle de naissance en tant que métadonnées de chaque notice, tout en les recomposant dans un seul document. Nous disposons donc d'un {{:​td_histoire_numerique:​liste_notices_bnf_sans_url_iramuteq.txt.zip|nouveau document}} qui contient le même texte des 790 notices à encoder mais recomposé selon le format d'​importation du logiciel Iramuteq, un logiciel d'​analyse de textes qui utilise les fonction du logiciel statistique R. Les instruction d'​installation se trouvent sur [[td_histoire_numerique:​installation_r|cette page]]. ​
 +\\ N.B. Lors de l'​importation des notices dans Iramuteq, l'​option "​construire des segments de texte" a été décochée. Les **segments de texte** analysés par la suite correspondent donc au 790 notices.
 +
 +
 +Une première analyse de statistique textuelle permet de déceler quelles sont les {{:​td_histoire_numerique:​liste_notices_bnf_formes_actives.csv.zip|formes actives dans les notices, au niveau des lemmes}}. On peut explorer les notices en lien avec les formes les plus fréquentes grâce au concordancier. On peut enfin analyser les similitudes des notices en analysant les cooccurrences des lemmes dans les notices (étant donné que les segments de texte correspondent aux notices, il s'​agira de cooccurences à l'​intérieur des notices):
  
 {{ :​td_histoire_numerique:​graph_simi_9.png?​200 |}} {{ :​td_histoire_numerique:​graph_simi_9.png?​200 |}}
  
 Une autre {{:​td_histoire_numerique:​liste_notices_bnf_cooccurrences_iramuteq.svg.zip|représentation graphique}} plus complète qu'on peut télécharger,​ dézipper et ouvrir dans un navigateur web. Une autre {{:​td_histoire_numerique:​liste_notices_bnf_cooccurrences_iramuteq.svg.zip|représentation graphique}} plus complète qu'on peut télécharger,​ dézipper et ouvrir dans un navigateur web.
 +
 +Grâce à cette exploration du vocabulaire des notices on voit apparaître des '​profils'​ ou des '​domaines d'​activité'​. Les mathématiciens avec toutes les autres professions qui leur sont associées; les enseignants (professeurs) avec les disciplines et institutions associées; le '​monde'​ des libraires et des imprimeurs, dont on dévine à la fréquence des lemmes la proportion inférieure dans la population; le profil des astronomes en lien avec les observatoires et les géographes;​ le monde des académies.
  
 ===== Encodage des notices ===== ===== Encodage des notices =====
td_histoire_numerique/exercice_4.txt · Dernière modification: 2016/03/03 10:26 par Francesco Beretta