Outils pour utilisateurs

Outils du site


siprojuris:enrichir_les_donnes_avec_lod

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
siprojuris:enrichir_les_donnes_avec_lod [2018/05/28 09:56]
Francesco Beretta [Interroger la BNF]
siprojuris:enrichir_les_donnes_avec_lod [2018/12/28 21:02]
Francesco Beretta [Interroger la BNF]
Ligne 8: Ligne 8:
 ===== Remarque générale ===== ===== Remarque générale =====
  
-L'​alignement des données du projet SIPROJURIS, effectué pour trois quarts des acteurs et en cours pour les autres, permet d'​accéder à plusieurs ressources publiées dans les LOD, dont les catalogues du SUDOC et BNF, Wikipedia et DBPedia, Wikidata, etc. +L'​alignement des données du projet SIPROJURIS, effectué pour trois quarts des acteurs ​(431 sur 567 professeurs) ​et en cours pour les autres, permet d'​accéder à plusieurs ressources publiées dans les LOD, dont les catalogues du SUDOC et BNF, Wikipedia et DBPedia, Wikidata, etc. 
  
 L'​objectif de cette partie du défi est d'​enrichir la population SIPROJURIS tant en l'​élargissant qu'en collectant de nouvelles informations concernant les acteurs de la population et en les transformant en utilisant l'​ontologie symogih.org (ou toute autre ontologie opportune) afin de pouvoir les intérroger et analyser dans leur ensemble. L'​objectif de cette partie du défi est d'​enrichir la population SIPROJURIS tant en l'​élargissant qu'en collectant de nouvelles informations concernant les acteurs de la population et en les transformant en utilisant l'​ontologie symogih.org (ou toute autre ontologie opportune) afin de pouvoir les intérroger et analyser dans leur ensemble.
  
-Les nouvelles données ainsi transformées peuvent être envoyées aux organisateurs du défi (respectivement à Francesco Beretta) au format XML ou ttl et elles seront mises dans un graphe supplémentaire du point d'​accès SPARQL)+Si souhaité, les nouvelles données ainsi transformées peuvent être envoyées aux organisateurs du défi (respectivement à Francesco Beretta) au format XML ou ttl, tout en les assortissant de métadonnées ​et d'une indication de licence explicite. Elles pourront alors être publiées ​dans un graphe supplémentaire du point d'​accès SPARQL.
  
 ===== Un exemple : Gaston,​Louis,​ Henry May (1849 - 1940) ===== ===== Un exemple : Gaston,​Louis,​ Henry May (1849 - 1940) =====
Ligne 62: Ligne 62:
 ==== Pour trouver la biblio, inverser le triplet ==== ==== Pour trouver la biblio, inverser le triplet ====
  
 +Une question intéressante en termes de TALN et d'​analyse de données: typologie des publications en fonctions de l'​évolution de la carrière.
  
 <code sparql> <code sparql>
-SELECT ?idRef ?s ?p 
-WHERE  
  
-{SERVICE <​https://​data.idref.fr/​sparql>​ +SELECT ​?s ?o 
- +WHERE   
-?s ?p ?idRef. +{ 
- +{GRAPH <​http://​symogih.org/​graph/​siprojuris-sym> ​
-        {GRAPH <​http://​symogih.org/​graph/​siprojuris-sym> ​+
             {syr:​Actr56241 owl:sameAs ?idRef.             {syr:​Actr56241 owl:sameAs ?idRef.
             }             }
 +         }
 +SERVICE <​https://​data.idref.fr/​sparql>​
 +   { ?s ?p ?idRef;
 +     <​http://​purl.org/​dc/​terms/​bibliographicCitation>​ ?o}
 +}
  
-        } 
-} 
-} 
 </​code>​ </​code>​
  
Ligne 105: Ligne 104:
  
 ==== Trouver les URIs des ressources liées à travers les IdRef ==== ==== Trouver les URIs des ressources liées à travers les IdRef ====
 +A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL des IdRef]]//
  
 <code sparql> <code sparql>
Ligne 129: Ligne 129:
  
 === Effectif des notices d'​autorité disponibles ​ === === Effectif des notices d'​autorité disponibles ​ ===
 +
 +A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL des IdRef]]//
  
  
Ligne 154: Ligne 156:
  
 === Les informations qu'​elles contiennent === === Les informations qu'​elles contiennent ===
 +
 +A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL des IdRef]]//
 +
 +Le résultat de cette requête apporte toute une série d'​informations biographiques (date et lieu de naissance, éléments biographiques) se trouvant dans les notices d'​autorité de la BNF.
 +
 +En particulier la propriété <​http://​rdvocab.info/​ElementsGr2/​biographicalInformation>​ contient des court textes biographiques qu'il s'​agirait d'​analyser avec les méthodes de TALN pour en extraire les informations disponibles et les comparer avec celles de la base de données (données RDF de SIPROJURIS). Les personnes, lieux, matières d'​enseignement sont présentes dans les données RDF et peuvent être utilisées pour faciliter la reconnaissance d'​entités nommées et leur annotation avec les URI du projet //​symogih.org//,​ par ex. les codes AbOb12345 identifiant les matières enseignées sous forme de URI.
 +
 +Il y a un certain nombre de ces informations qui manquent dans les données SIPROJURIS: si elles sont extraites sous forme de données semi-structurées au cours du défi, elles pourront être intégrées par les soins du projet //​symogih.org//​ aux données de la base de donnée SIPROJURIS afin d'​enrichir les données existantes.
 +
  
 <code sparql> <code sparql>
Ligne 190: Ligne 201:
  
 ==== Retenir uniquement les notices biographiques de la BNF ==== ==== Retenir uniquement les notices biographiques de la BNF ====
 +
 +
 +A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL des IdRef]]//
  
 <code sparql> <code sparql>
Ligne 221: Ligne 235:
  
 ==== Obtenir les données concernant des acteurs similaires ==== ==== Obtenir les données concernant des acteurs similaires ====
 +
 +ATTENTION: le requêtes suivantes sont à exécuter sur le //​[[http://​data.bnf.fr/​sparq|point d'​accès SPARQL de la BNF]]//.
 +
  
 Chercher les acteurs dont le vocabulaire des notices est proche de celui de la population de départ Chercher les acteurs dont le vocabulaire des notices est proche de celui de la population de départ
siprojuris/enrichir_les_donnes_avec_lod.txt · Dernière modification: 2024/01/10 19:15 par Vincent Alamercery