Outils pour utilisateurs

Outils du site


besson_sylvain:etapes_fusion

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
besson_sylvain:etapes_fusion [2021/06/14 13:23]
Sylvain Besson
besson_sylvain:etapes_fusion [2021/07/22 19:03] (Version actuelle)
Sylvain Besson [Recordlinkage]
Ligne 3: Ligne 3:
 ====== Importer les données ====== ====== Importer les données ======
  
-Une fois que l'on a pris connaissance des données que l'on souhaite obtenir des différentes bases de données, il est possible de créer un serveur local afin de stocker les données. Cela permet aussi d'​aligner les bases de données pour avoir un vocabulaire contrôlé. Pour cela, nous avons fait le choix d'​utiliser **[[projets_individuels:​documentation_sparql&#vocabulaire|GraphDB]]** pour sa facilité d'​utilisation et ses fonctionnalités. L'​importation des données se fait en deux étapes, d'​abord nous importons les instances et ensuite leur(s) propriété(s).+Une fois que l'on a pris connaissance des données que l'on souhaite obtenir des différentes bases de données, il est possible de créer un serveur local afin de stocker les données. Cela permet aussi d'​aligner les bases de données pour avoir un vocabulaire contrôlé. Pour cela, nous avons fait le choix d'​utiliser **[[besson_sylvain:​documentation_sparql#​GraphDB|GraphDB]]** pour sa facilité d'​utilisation et ses fonctionnalités. L'​importation des données se fait en deux étapes, d'​abord nous importons les instances et ensuite leur(s) propriété(s).
  
 ====Importation des instances de Wikidata==== ====Importation des instances de Wikidata====
 Nous avons fait le choix d'​importer en premier les données provenant de Wikidata car c'est le plus gros silos avec plus de 130 000 instances. Il est important d'​importer à la fois les économistes et les juristes afin de ne pas avoir des doublons pour les personnes qui serait dans les deux populations. Ensuite, nous donnons à chaque instance un [[https://​fr.wikipedia.org/​wiki/​Uniform_Resource_Name|URN]] unique afin que lorsque l'on ajoute d'​autres bases de données, l'URN correspond à une personne réelle si elle est présente sur plusieurs bases de données. Pour cela il faut utiliser la clause [[https://​www.w3.org/​TR/​sparql11-query/#​func-uuid|UUID]] qui présente un URN sous la forme: "​urn:​uuid:​b9302fb5-642e-4d3b-af19-29a8f6d894c9"​. Nous avons fait le choix d'​importer en premier les données provenant de Wikidata car c'est le plus gros silos avec plus de 130 000 instances. Il est important d'​importer à la fois les économistes et les juristes afin de ne pas avoir des doublons pour les personnes qui serait dans les deux populations. Ensuite, nous donnons à chaque instance un [[https://​fr.wikipedia.org/​wiki/​Uniform_Resource_Name|URN]] unique afin que lorsque l'on ajoute d'​autres bases de données, l'URN correspond à une personne réelle si elle est présente sur plusieurs bases de données. Pour cela il faut utiliser la clause [[https://​www.w3.org/​TR/​sparql11-query/#​func-uuid|UUID]] qui présente un URN sous la forme: "​urn:​uuid:​b9302fb5-642e-4d3b-af19-29a8f6d894c9"​.
  
-Préalablement,​ il est aussi possible dans Wikidata de fusionner des pages (et leur URI) qui correspondent à une même personne (la méthode est sur cette **[[projets_individuels:​documentation_wikidata|page]]**). ​+Préalablement,​ il est aussi possible dans Wikidata de fusionner des pages (et leur URI) qui correspondent à une même personne (la méthode est sur cette **[[documentation_wikidata|page]]**). ​
  
 La requête se présente de la façon suivante: La requête se présente de la façon suivante:
Ligne 122: Ligne 122:
 </​code>​ </​code>​
  
-Cette requête est utile mais elle permet seulement d'inserer ​dans la base de données, les URI de Wikidata des lieux de naissance. ​il est plus intéressant de pouvoir insérer aussi d'​autres éléments comme l'​étiquette du lieu ou bien ses coordinnées géographique. Une fois encore la requête est assez similaire, mais demande quelques ​rafinements ​supplémentaires: ​+Cette requête est utilemais elle permet seulement d'insérer ​dans la base de données, les URI de Wikidata des lieux de naissance. ​Il est plus intéressant de pouvoir insérer aussi d'​autres éléments comme l'​étiquette du lieu ou bien ses coordonnées géographiques. Une fois encore la requête est assez similaire, mais demande quelques ​raffinements ​supplémentaires : 
  
 <code sparql> <code sparql>
Ligne 188: Ligne 188:
 </​code>​ </​code>​
  
-Comme on peut le voir Wikidata intègre pas mal de préfixes qui permettent d'​aller assez loin dans les données qui est possible ​d'​étudier ou de récuperer. Ces services sont documentés avec de nombreux exemples qu'il est possible de tester comme cette le cas sur cette [[https://​www.wikidata.org/​wiki/​Wikidata:​SPARQL_query_service/​queries/​examples#​Wikibase_predicates|page]]. Pour ce qui est d'​importer les coordonnées géographiques,​ cette [[https://​en.wikibooks.org/​wiki/​SPARQL/​WIKIDATA_Precision,​_Units_and_Coordinates|ressource]] est très utile. ​+Comme on peut le voirWikidata intègre pas mal de préfixes qui permettent d'​aller assez loin dans les données qui sont possibles ​d'​étudier ou de récupérer. Ces services sont documentés avec de nombreux exemples qu'il est possible de tester comme c'​est ​le cas sur cette [[https://​www.wikidata.org/​wiki/​Wikidata:​SPARQL_query_service/​queries/​examples#​Wikibase_predicates|page]]. Pour ce qui est d'​importer les coordonnées géographiques,​ cette [[https://​en.wikibooks.org/​wiki/​SPARQL/​WIKIDATA_Precision,​_Units_and_Coordinates|ressource]] est très utile. ​
  
-Dans ce type de requête il est aussi très important de bien les structurer afin de limiter le nombre d'erreur ​et des contre-sens dans les résultats obtenues. Un premier ​reflexe ​est de toujours ​realiser ​un CONSTRUCT avant d'​importer les données, puisque qu'il permet vraiment de comprendre comment les données se trouveront dans la base de données. ​+Dans ce type de requêteil est aussi très important de bien les structurer afin de limiter le nombre d'erreurs ​et des contre-sens dans les résultats obtenues. Un premier ​réflexe ​est de toujours ​réaliser ​un CONSTRUCT avant d'​importer les données, puisque qu'il permet vraiment de comprendre comment les données se trouveront dans la base de données.
  
-Il aussi important dans ce type de requête avec beaucoup d'​éléments de bien imbriquer les différentes parties de la requête. Il est nécessaire par exemple de réaliser une sous-requête avec les instances que l'on souhaite ​récuperer plus un requête où l'on cherche à obtenir une propriété. Ensuite, il est aussi très important de structurer la requête en remettant un SELECT lorsque l'on cherche à obtenir autres choses pour bien faire comprendre à la machine les différentes étapes. Ici, par exemple, un premier SELECT cherche les données ​"brutes" ​et dans un second SELECT la clause BIND, qui permet d'​enlever les formats, est utilisé. Cette façon de faire est d'​autant plus nécessaire lorsque l'on souhaite ​inserer ​les données.+Il est aussi important dans ce type de requête avec beaucoup d'​éléments de bien imbriquer les différentes parties de la requête. Il est nécessaire par exemple de réaliser une sous-requête avec les instances que l'on souhaite ​récupérer,​ puis une requête où l'on cherche à obtenir une propriété. Ensuite, il est aussi très important de structurer la requête en remettant un SELECT lorsque l'on cherche à obtenir autres choses pour bien faire comprendre à la machine les différentes étapes. Ici, par exemple, un premier SELECT cherche les données ​brutes” et dans un second SELECT la clause BIND, qui permet d'​enlever les formats, est utilisé. Cette façon de faire est d'​autant plus nécessaire lorsque l'on souhaite ​insérer ​les données.
  
 ==== Importation des instances de BnF Data ==== ==== Importation des instances de BnF Data ====
- +Nous importons ensuite les instances de BnF Data. La méthode est assez similaire à celle de Wikidata, mais elle demande quelques étapes préliminaires. Avant d'​attribuer aux instances un URN, il faut d'​abord aligner les instances de BnF Data avec celle de Wikidata. Pour celaplusieurs méthodes sont disponibles. Tout d'​abord,​ il est possible lier les instances de Wikidata qui renvoient vers une instance ​de BnF Data. Il faut commencer par importer la propriété BnF Data présente dans Wikidata. La requête peut être réalisée ​de la façon suivante :
-Nous importons ensuite les instances de BnF Data. La méthode est assez similaire à celle de Wikidata, mais elle demande quelques étapes préliminaires. Avant d'​attribuer aux instances un URN, il faut d'​abord aligner les instances de BnF Data avec celle de Wikidata. Pour cela plusieurs méthodes sont disponibles. Tout d'​abord,​ il est possible ​le lier les instances de Wikidata qui renvoient vers une instances ​de BnF Data. Il faut commencer par importer la propriété BnF Data présente dans Wikidata. La requête peut être réalisé ​de la façon suivante: ​+
  
 <code sparql> <code sparql>
Ligne 286: Ligne 285:
 # LIMIT 10 # LIMIT 10
 </​code>​ </​code>​
-Enfin une fois que l'on a réalisé ces étapes ​préléminaires ​pour lier les personnes présentes dans les deux bases de données, il est possible d'​importer les personnes qui ne sont pas présentes dans la base de données graphe. Il est nécessaire d'​enlever avec la clause MINUS les personnes qui sont déjà présentes car comme le but est de créer un URI unique, si l'on procède pas ainsi les données seront dupliqués comme l'URI locale sera différent. C'est donc une étape qu'il faut faire avec beaucoup de précaution. Il est préférable de faire un SELECT seul au préalable afin de déterminer si les personnes sont effectivement pas déjà dans la base de données locale. Si les résultats ne correspondent à aucun URI BnF, alors il est possible de faire l'​insertion. Elle se réalise de la façon suivante (la même requête peut être réalisé ​pour le SELECT, il faudra enlever la partie INSERT) : + 
 +Enfin une fois que l'on a réalisé ces étapes ​préliminaires ​pour lier les personnes présentes dans les deux bases de données, il est possible d'​importer les personnes qui ne sont pas présentes dans la base de données graphe. Il est nécessaire d'​enlever avec la clause MINUS les personnes qui sont déjà présentescar comme le but est de créer un URI unique, si l'​on ​ne procède pas ainsi les données seront dupliqués comme l'URI locale sera différent. C'est donc une étape qu'il faut faire avec beaucoup de précautions. Il est préférable de faire un SELECT seul au préalable afin de déterminer si les personnes ​ne sont effectivement pas déjà dans la base de données locale. Si les résultats ne correspondent à aucun URI BnF, alors il est possible de faire l'​insertion. Elle se réalise de la façon suivante (la même requête peut être réalisée ​pour le SELECT, il faudra enlever la partie INSERT) :
  
 <code sparql> <code sparql>
Ligne 336: Ligne 336:
  
 Toute la méthode réalisée pour lier les instances BnF Data et Wikidata peut être réalisée pour DBpedia. Toute la méthode réalisée pour lier les instances BnF Data et Wikidata peut être réalisée pour DBpedia.
-Nous l'​allons donc pas la détailler ici. Mais vous pouvez ​le retrouver dans notre espace [[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​tree/​main/​Notebooks/​data|Github]]  +Nous l'​allons donc pas la détailler ici. Mais vous pouvez retrouver ​l'​ensemble des requêtes ​dans notre espace ​**[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​main/​Notebooks/​data/​sparql_queries.db|Github]]** en téléchargeant la base de données et en l'​ouvrant avec un logiciel de requêtage de base de données comme [[https://​dbeaver.io/​|DBeaver]] ([[https://​dbeaver.io/​download/​|lien]] vers le téléchargement,​ Mac Os, Windows et Linux). 
- + 
 Enfin la dernière méthode qui permet de connaître si des personnes sont dans plusieurs bases de données, c'est le Recordlinkage. Nous la présentons en détail ci-dessous. Enfin la dernière méthode qui permet de connaître si des personnes sont dans plusieurs bases de données, c'est le Recordlinkage. Nous la présentons en détail ci-dessous.
  
Ligne 416: Ligne 417:
 potential_matches potential_matches
 </​code>​ </​code>​
- 
-L'​ensemble de la méthode est disponible sur un **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​development/​Notebooks/​Merge/​Merge_DBpedia_BnF_Data_Wikidata.ipynb|carnet]]** sur Github. Vous pouvez aussi directement accéder aux requêtes en téléchargeant la **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​tree/​development/​Notebooks/​Merge/​data/​sparql_queries.db|base de données]]** et en l'​ouvrant avec un logiciel de requêtage de base de données comme [[https://​dbeaver.io/​|DBeaver]] ([[https://​dbeaver.io/​download/​|lien]] vers le téléchargement,​ Mac Os, Windows et Linux). 
  
  
besson_sylvain/etapes_fusion.1623669838.txt.gz · Dernière modification: 2021/06/14 13:23 par Sylvain Besson