Outils pour utilisateurs

Outils du site


td_histoire_numerique:exercice_4

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
td_histoire_numerique:exercice_4 [2016/01/05 17:37]
Francesco Beretta [Annotation de notices biographiques courtes issues de la BNF]
td_histoire_numerique:exercice_4 [2016/01/05 17:50]
Francesco Beretta [Encodage des notices]
Ligne 22: Ligne 22:
  
  
-Sur [[td_histoire_numerique:​exercice_2&#​creation_du_deuxieme_document_a_annoter|cette page]] on trouvera les indications concernant le processus d'​extraction des notices du site data.bnf.fr ainsi que la production du {{:​td_histoire_numerique:​liste_notices_bnf.odt|document à explorer}}. Grâce à un codage qui applique la méthode présentée ​si dessous, les notices ont été découpées et importées dans la base de données. On les trouvera dans la version la plus récente de la base de données qui peut être installée selon les [[installation_de_la_base_de_donnees&#​mise_a_jour_de_la_base_de_donnees+Sur [[td_histoire_numerique:​exercice_2&#​creation_du_deuxieme_document_a_annoter|cette page]] on trouvera les indications concernant le processus d'​extraction des notices du site data.bnf.fr ainsi que la production du {{:​td_histoire_numerique:​liste_notices_bnf.odt|document à explorer}}. Grâce à un codage qui applique la méthode ​qui sera présentée ​ci-dessous, les notices ont été découpées et importées dans la base de données. On les trouvera dans la version la plus récente de la base de données qui peut être installée selon les [[installation_de_la_base_de_donnees&#​mise_a_jour_de_la_base_de_donnees
 |instructions qui se trouvent sur cette page]]. |instructions qui se trouvent sur cette page]].
  
-A partir de la base de données, les notices ont été recodées en ajoutant l'​année et le siècle de naissance en tant que métadonnées de chaque notice, tout en les recomposant ​dans un seul document. Nous disposons ​donc d'un {{:​td_histoire_numerique:​liste_notices_bnf_sans_url_iramuteq.txt.zip|nouveau document}} qui contient le même texte des 790 notices à encoder mais recomposé selon le format d'​importation du logiciel Iramuteq, un logiciel d'​analyse de textes qui utilise les fonction ​du logiciel statistique R. Les instruction d'​installation se trouvent sur [[td_histoire_numerique:​installation_r|cette page]]. ​+A partir de la base de données, les notices ont été recodées en ajoutant l'​année et le siècle de naissance en tant que métadonnées de chaque notice, tout en les recomposant ​en un seul document. Nous disposons ​ainsi d'un {{:​td_histoire_numerique:​liste_notices_bnf_sans_url_iramuteq.txt.zip|nouveau document}} qui contient le même texte des 790 notices à encoder mais recomposé selon le format d'​importation du logiciel Iramuteq, un logiciel d'​analyse de textes qui utilise les fonctions ​du logiciel statistique R. Les instruction d'​installation se trouvent sur [[td_histoire_numerique:​installation_r|cette page]]. ​
 \\ N.B. Lors de l'​importation des notices dans Iramuteq, l'​option "​construire des segments de texte" a été décochée. Les **segments de texte** analysés par la suite correspondent donc au 790 notices. \\ N.B. Lors de l'​importation des notices dans Iramuteq, l'​option "​construire des segments de texte" a été décochée. Les **segments de texte** analysés par la suite correspondent donc au 790 notices.
  
Ligne 33: Ligne 33:
 {{ :​td_histoire_numerique:​graph_simi_9.png?​200 |}} {{ :​td_histoire_numerique:​graph_simi_9.png?​200 |}}
  
-Une autre {{:​td_histoire_numerique:​liste_notices_bnf_cooccurrences_iramuteq.svg.zip|représentation graphique}} plus complète qu'on peut télécharger,​ dézipper et ouvrir dans un navigateur web.+Voici une autre {{:​td_histoire_numerique:​liste_notices_bnf_cooccurrences_iramuteq.svg.zip|représentation graphique}} plus complète qu'on peut télécharger,​ dézipper et ouvrir dans un navigateur web.
  
-Grâce à cette exploration du vocabulaire des notices on voit apparaître des '​profils'​ ou des '​domaines d'​activité'​ dont les effectifs sont proportionnels à la fréquence des lemmes et des cooccurrences dans les noticesce qui est mis en évidence dans le graphique: les mathématiciens avec toutes les autres professions qui leur sont associées; les enseignants (professeurs) avec les disciplines et institutions associées; le '​monde'​ des libraires et des imprimeurs dont on dévine grâce à la représentation visuelle de la fréquence des lemmes la proportion inférieure dans la population; le profil des astronomes en lien avec les observatoires et les géographes;​ le monde des académies.+Grâce à cette exploration du vocabulaire des notices on voit apparaître des '​profils'​ ou des '​domaines d'​activité'​ dont les effectifs sont proportionnels à la fréquence des lemmes et des cooccurrences dans les notices ​(ce qui est mis en évidence dans le graphique ​par la taille des caractères): les mathématiciens avec toutes les autres professions qui leur sont associées; les enseignants (professeurs) avec les disciplines et institutions associées; le '​monde'​ des libraires et des imprimeurs dont on dévine grâce à la représentation visuelle de la fréquence des lemmes la proportion inférieure dans la population; le profil des astronomes en lien avec les observatoires et les géographes;​ le monde des académies.
  
 ===== Encodage des notices ===== ===== Encodage des notices =====
  
-Cette première exploration permet de décider, en fonction de la problématique de recherche, les caractéristiques et propriété ​qu'on souhaitera encoder à fin d'​établir un profil plus précis de la population. A titre d'​exemple,​ ont été encodées les mentions des professions les plus fréquentes (supérieures à 20 mentions) ainsi que toutes les dates. Comme en règle générale la notice contient la date de naissance, du moins approximative,​ on peut dater la génération d'​appartenance des acteurs qui composent la population. ​+Cette première exploration permet de décider, en fonction de la problématique de recherche, les propriétés ​qu'on souhaitera encoder à fin d'​établir un profil plus précis de la population ​et de ses caractéristiques. A titre d'​exemple,​ ont été encodées les mentions des professions les plus fréquentes (supérieures à 20 mentions) ainsi que toutes les dates. Comme en règle générale la notice contient la date de naissance, du moins approximative,​ on peut dater la génération d'​appartenance des acteurs qui composent la population. ​
  
 <​code>​ <​code>​
td_histoire_numerique/exercice_4.txt · Dernière modification: 2016/03/03 10:26 par Francesco Beretta