Outils pour utilisateurs

Outils du site


besson_sylvain:etapes_fusion

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
besson_sylvain:etapes_fusion [2021/07/05 16:49]
Vincent Alamercery Links to projets_individuels:etapes changed to besson_sylvain:etapes
besson_sylvain:etapes_fusion [2021/07/22 19:03] (Version actuelle)
Sylvain Besson [Recordlinkage]
Ligne 1: Ligne 1:
-Allez vers la [[besson_sylvain:​etapes|page précédente - étapes]]+Allez vers la [[etapes|page précédente - étapes]]
  
 ====== Importer les données ====== ====== Importer les données ======
  
-Une fois que l'on a pris connaissance des données que l'on souhaite obtenir des différentes bases de données, il est possible de créer un serveur local afin de stocker les données. Cela permet aussi d'​aligner les bases de données pour avoir un vocabulaire contrôlé. Pour cela, nous avons fait le choix d'​utiliser **[[projets_individuels:​documentation_sparql&#vocabulaire|GraphDB]]** pour sa facilité d'​utilisation et ses fonctionnalités. L'​importation des données se fait en deux étapes, d'​abord nous importons les instances et ensuite leur(s) propriété(s).+Une fois que l'on a pris connaissance des données que l'on souhaite obtenir des différentes bases de données, il est possible de créer un serveur local afin de stocker les données. Cela permet aussi d'​aligner les bases de données pour avoir un vocabulaire contrôlé. Pour cela, nous avons fait le choix d'​utiliser **[[besson_sylvain:​documentation_sparql#​GraphDB|GraphDB]]** pour sa facilité d'​utilisation et ses fonctionnalités. L'​importation des données se fait en deux étapes, d'​abord nous importons les instances et ensuite leur(s) propriété(s).
  
 ====Importation des instances de Wikidata==== ====Importation des instances de Wikidata====
 Nous avons fait le choix d'​importer en premier les données provenant de Wikidata car c'est le plus gros silos avec plus de 130 000 instances. Il est important d'​importer à la fois les économistes et les juristes afin de ne pas avoir des doublons pour les personnes qui serait dans les deux populations. Ensuite, nous donnons à chaque instance un [[https://​fr.wikipedia.org/​wiki/​Uniform_Resource_Name|URN]] unique afin que lorsque l'on ajoute d'​autres bases de données, l'URN correspond à une personne réelle si elle est présente sur plusieurs bases de données. Pour cela il faut utiliser la clause [[https://​www.w3.org/​TR/​sparql11-query/#​func-uuid|UUID]] qui présente un URN sous la forme: "​urn:​uuid:​b9302fb5-642e-4d3b-af19-29a8f6d894c9"​. Nous avons fait le choix d'​importer en premier les données provenant de Wikidata car c'est le plus gros silos avec plus de 130 000 instances. Il est important d'​importer à la fois les économistes et les juristes afin de ne pas avoir des doublons pour les personnes qui serait dans les deux populations. Ensuite, nous donnons à chaque instance un [[https://​fr.wikipedia.org/​wiki/​Uniform_Resource_Name|URN]] unique afin que lorsque l'on ajoute d'​autres bases de données, l'URN correspond à une personne réelle si elle est présente sur plusieurs bases de données. Pour cela il faut utiliser la clause [[https://​www.w3.org/​TR/​sparql11-query/#​func-uuid|UUID]] qui présente un URN sous la forme: "​urn:​uuid:​b9302fb5-642e-4d3b-af19-29a8f6d894c9"​.
  
-Préalablement,​ il est aussi possible dans Wikidata de fusionner des pages (et leur URI) qui correspondent à une même personne (la méthode est sur cette **[[besson_sylvain:​documentation_wikidata|page]]**). ​+Préalablement,​ il est aussi possible dans Wikidata de fusionner des pages (et leur URI) qui correspondent à une même personne (la méthode est sur cette **[[documentation_wikidata|page]]**). ​
  
 La requête se présente de la façon suivante: La requête se présente de la façon suivante:
Ligne 336: Ligne 336:
  
 Toute la méthode réalisée pour lier les instances BnF Data et Wikidata peut être réalisée pour DBpedia. Toute la méthode réalisée pour lier les instances BnF Data et Wikidata peut être réalisée pour DBpedia.
-Nous l'​allons donc pas la détailler ici. Mais vous pouvez ​le retrouver dans notre espace [[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​tree/​main/​Notebooks/​data|Github]]  +Nous l'​allons donc pas la détailler ici. Mais vous pouvez retrouver ​l'​ensemble des requêtes ​dans notre espace ​**[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​main/​Notebooks/​data/​sparql_queries.db|Github]]** en téléchargeant la base de données et en l'​ouvrant avec un logiciel de requêtage de base de données comme [[https://​dbeaver.io/​|DBeaver]] ([[https://​dbeaver.io/​download/​|lien]] vers le téléchargement,​ Mac Os, Windows et Linux). 
- + 
 Enfin la dernière méthode qui permet de connaître si des personnes sont dans plusieurs bases de données, c'est le Recordlinkage. Nous la présentons en détail ci-dessous. Enfin la dernière méthode qui permet de connaître si des personnes sont dans plusieurs bases de données, c'est le Recordlinkage. Nous la présentons en détail ci-dessous.
  
Ligne 416: Ligne 417:
 potential_matches potential_matches
 </​code>​ </​code>​
- 
- 
-L'​ensemble de la méthode est disponible sur un **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​development/​Notebooks/​Merge/​Merge_DBpedia_BnF_Data_Wikidata.ipynb|carnet]]** sur Github. Vous pouvez aussi directement accéder aux requêtes en téléchargeant la **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​tree/​development/​Notebooks/​Merge/​data/​sparql_queries.db|base de données]]** et en l'​ouvrant avec un logiciel de requêtage de base de données comme [[https://​dbeaver.io/​|DBeaver]] ([[https://​dbeaver.io/​download/​|lien]] vers le téléchargement,​ Mac Os, Windows et Linux). 
  
  
besson_sylvain/etapes_fusion.1625496547.txt.gz · Dernière modification: 2021/07/05 16:49 par Vincent Alamercery