Outils pour utilisateurs

Outils du site


siprojuris:enrichir_les_donnes_avec_lod

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
siprojuris:enrichir_les_donnes_avec_lod [2018/12/28 23:00]
Francesco Beretta [Lister les URI DBPedia]
siprojuris:enrichir_les_donnes_avec_lod [2024/01/10 19:15] (Version actuelle)
Vincent Alamercery Mise à jour liens
Ligne 12: Ligne 12:
 L'​objectif de cette partie du défi est d'​enrichir la population SIPROJURIS tant en l'​élargissant qu'en collectant de nouvelles informations concernant les acteurs de la population et en les transformant en utilisant l'​ontologie symogih.org (ou toute autre ontologie opportune) afin de pouvoir les intérroger et analyser dans leur ensemble. L'​objectif de cette partie du défi est d'​enrichir la population SIPROJURIS tant en l'​élargissant qu'en collectant de nouvelles informations concernant les acteurs de la population et en les transformant en utilisant l'​ontologie symogih.org (ou toute autre ontologie opportune) afin de pouvoir les intérroger et analyser dans leur ensemble.
  
-Quelques ​**suggestions pour le défi** sont indiquées avant chaque requête.+Quelques ​<​html><​span style="​color:​blue;​font-weight:​bold;">​suggestions pour le défi</​span></​html> ​sont indiquées avant chaque requête.
  
-Si souhaité, les nouvelles données ainsi transformées peuvent être envoyées aux organisateurs du défi (respectivement à Francesco Beretta) ​au format XML ou ttl, tout en les assortissant de métadonnées et d'une indication de licence explicite. Elles pourront alors être publiées dans un graphe supplémentaire du point d'​accès SPARQL.+Si souhaité, les nouvelles données ainsi transformées peuvent être envoyées aux organisateurs du défi au format XML ou ttl, tout en les assortissant de métadonnées et d'une indication de licence explicite. Elles pourront alors être publiées dans un graphe supplémentaire du point d'​accès SPARQL.
  
 ===== Un exemple : Gaston,​Louis,​ Henry May (1849 - 1940) ===== ===== Un exemple : Gaston,​Louis,​ Henry May (1849 - 1940) =====
  
-ATTENTION : requêtes à exécuter sur le [[http://bhp-publi.ish-lyon.cnrs.fr:8888/​sparql|point d'​accès SPARQL du projet //symogih.org//]]+ATTENTION : requêtes à exécuter sur le [[https://dataforhumanities.abes.fr/​sparql|point d'​accès SPARQL]] du projet ​[[https://dataforhumanities.org|Data For Humanities]]
  
 ==== Son parcours biographique ​ ==== ==== Son parcours biographique ​ ====
Ligne 26: Ligne 26:
 WHERE  WHERE 
  
-    {GRAPH <http://symogih.org/graph/​symogih-kute>​+    {GRAPH <https://dataforhumanities.org/sparql-endpoint/​symogih-kute>​
         {         {
         ?tyro rdfs:label ?TyRoLabel.         ?tyro rdfs:label ?TyRoLabel.
         ?tyin rdfs:label ?TyInLabel.         ?tyin rdfs:label ?TyInLabel.
  
-        {GRAPH <http://symogih.org/graph/​siprojuris-sym> ​+        {GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym> ​
             {?s ?p syr:​Actr56241;​             {?s ?p syr:​Actr56241;​
             sym:​isComponentOf ?info;             sym:​isComponentOf ?info;
Ligne 52: Ligne 52:
  
 { {
-GRAPH <http://symogih.org/graph/​siprojuris-sym> ​+GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym> ​
             {syr:​Actr56241 owl:sameAs ?idRef.             {syr:​Actr56241 owl:sameAs ?idRef.
             }             }
Ligne 64: Ligne 64:
 ==== Pour trouver la biblio, inverser le triplet ==== ==== Pour trouver la biblio, inverser le triplet ====
  
-//Suggestion pour le défi//: une question intéressante en termes de TALN et d'​analyse de données -> extraire la typologie des publications avec les outils TALN et la comparer avec l'​évolution de la carrière (données SIPROJURIS en RDF) et ce pour l'​ensemble de la population.+<​html><​span style="​color:​red;​font-weight:​bold;">​Suggestion pour le défi</span><​/html>: une question intéressante en termes de TALN et d'​analyse de données -> extraire la typologie des publications avec les outils TALN et la comparer avec l'​évolution de la carrière (données SIPROJURIS en RDF) et ce pour l'​ensemble de la population.
  
 <code sparql> <code sparql>
Ligne 71: Ligne 71:
 WHERE  ​ WHERE  ​
 { {
-{GRAPH <http://symogih.org/graph/​siprojuris-sym> ​+{GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym> ​
             {syr:​Actr56241 owl:sameAs ?idRef.             {syr:​Actr56241 owl:sameAs ?idRef.
             }             }
Ligne 95: Ligne 95:
 SELECT *  SELECT * 
 WHERE { WHERE {
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/sparql>+SERVICE <https://dataforhumanities.abes.fr/​sparql>​
  
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​+GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​
 { {
 ?s owl:sameAs ?o. ?s owl:sameAs ?o.
Ligne 112: Ligne 112:
 WHERE { WHERE {
 { {
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/sparql>+SERVICE <https://dataforhumanities.abes.fr/​sparql>​
 {SELECT *  {SELECT * 
 WHERE {  WHERE { 
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​+GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​
 { {
 ?s owl:sameAs ?idref. ?s owl:sameAs ?idref.
Ligne 124: Ligne 124:
 } }
 } }
 +</​code>​
 +
 +
 +=== Restreindre aux URI de la BNF ===
 +A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL des IdRef]]//
 +
 +<code sparql>
 +SELECT * 
 +WHERE {
 +{
 +SERVICE <​https://​dataforhumanities.abes.fr/​sparql>​
 +{SELECT * 
 +WHERE { 
 +GRAPH <​https://​dataforhumanities.org/​sparql-endpoint/​siprojuris-sym>​
 +{
 +?s owl:sameAs ?idref.
 +}
 +}
 +}
 +?idref owl:sameAs ?url.
 +FILTER CONTAINS(STR(?​url),​ '​bnf'​)}
 +}
 +
 </​code>​ </​code>​
  
Ligne 141: Ligne 164:
 WHERE { WHERE {
 { {
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/sparql>+SERVICE <https://dataforhumanities.abes.fr/​sparql>​
 {SELECT *  {SELECT * 
 WHERE {  WHERE { 
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​+GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​
 { {
 ?s owl:sameAs ?idref. ?s owl:sameAs ?idref.
Ligne 161: Ligne 184:
  
  
-=== Les informations qu'​elles contiennent ​===+=== La population cherchée ​===
  
-A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL ​des IdRef]]//+A exécuter sur le //​[[https://​data.bnf.fr/sparql/|point d'​accès SPARQL ​de la BNF]]//
  
-//Suggestion pour le défi:// Le résultat de cette requête apporte toute une série d'​informations biographiques (date et lieu de naissance, éléments biographiques) se trouvant dans les notices d'​autorité de la BNF.+<​html><​span style="​color:​red;​font-weight:​bold;">​Suggestion pour le défi</span><​/html> ​Le résultat de cette requête apporte toute une série d'​informations biographiques (date et lieu de naissance, éléments biographiques) se trouvant dans les notices d'​autorité de la BNF. Les extraire et comparer avec les données publiées au format RDF.
  
  
 <code sparql> <code sparql>
-SELECT ​ +PREFIX rdfs: <​http://​www.w3.org/​2000/​01/​rdf-schema#>​ 
 +PREFIX owl: <​http://​www.w3.org/​2002/​07/​owl#>​ 
 +  
 +SELECT ​?s ?label ?s_bnf ?uri 
 + 
 WHERE { WHERE {
-+  
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/​sparql>​ +    ​
-{SELECT *  +    SERVICE <https://dataforhumanities.abes.fr/​sparql>​ 
-WHERE {  +    {SELECT *  
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​ +    WHERE {  
-+    GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​ 
-?s owl:sameAs ?idref. +    
-} +    ?s owl:sameAs ?idref
-+       <​http://​symogih.org/​ontology/​objectStandardName>​ ?label 
-+  
-+    
-?idref owl:sameAs ?uri. +       # FILTER(CONTAINS(?label, 'Bras')) 
-BIND (uri(replace(str(?uri), 'foaf:​Person',​ 'about'​)) ​as ?new_uri)+    }
  
-+  ​}
-SERVICE <​http://​data.bnf.fr/​sparql>​ +
-+
-SELECT * +
-WHERE { +
-?new_uri ?pb ?ob +
-+
-}+
 } }
 + 
 +?s_bnf owl:sameAs ?idref.
 + 
 +?s_bnf owl:sameAs ?uri.
 + 
 + 
 } }
 +ORDER BY ?s_bnf
 </​code>​ </​code>​
  
  
  
 +<​html><​span style="​color:​red;​font-weight:​bold;">​Suggestion pour le défi</​span></​html>​ En particulier la propriété <​http://​rdvocab.info/​ElementsGr2/​biographicalInformation>​ contient des court textes biographiques qu'il s'​agirait d'​analyser avec les méthodes de TALN pour en extraire les informations disponibles et les comparer avec celles de la base de données (données RDF de SIPROJURIS). Les personnes, lieux, matières d'​enseignement sont présentes dans les données RDF et peuvent être utilisées pour faciliter la reconnaissance d'​entités nommées et leur annotation avec les URI du projet //​symogih.org//,​ par ex. les codes AbOb12345 identifiant les matières enseignées sous forme de URI.
  
-=== Retenir uniquement ​les notices biographiques ​de la BNF ===+Il y a un certain nombre de ces informations qui manquent dans les données SIPROJURIS: si elles sont extraites sous forme de données semi-structurées au cours du défi, elles pourront être intégrées par les soins du projet //​symogih.org//​ aux données ​de la base de donnée SIPROJURIS afin d'​enrichir les données existantes.
  
  
-A exécuter sur le //​[[https://​data.idref.fr/​sparql|point d'​accès SPARQL des IdRef]]// 
  
-//​Suggestion pour le défi:// En particulier la propriété <​http://​rdvocab.info/​ElementsGr2/​biographicalInformation>​ contient des court textes biographiques qu'il s'​agirait d'​analyser avec les méthodes de TALN pour en extraire les informations disponibles et les comparer avec celles de la base de données (données RDF de SIPROJURIS). Les personnes, lieux, matières d'​enseignement sont présentes dans les données RDF et peuvent être utilisées pour faciliter la reconnaissance d'​entités nommées et leur annotation avec les URI du projet //​symogih.org//,​ par ex. les codes AbOb12345 identifiant les matières enseignées sous forme de URI. 
  
-Il y a un certain nombre de ces informations ​qui manquent dans les données SIPROJURIS: si elles sont extraites sous forme de données semi-structurées au cours du défi, elles pourront être intégrées par les soins du projet //​symogih.org//​ aux données de la base de donnée SIPROJURIS afin d'​enrichir les données existantes.+=== Toutes les informations ​concernant une ou plusieurs personnes===
  
 <code sparql> <code sparql>
-SELECT ​+PREFIX rdfs: <​http://​www.w3.org/​2000/​01/​rdf-schema#>​ 
 +PREFIX owl: <​http://​www.w3.org/​2002/​07/​owl#>​ 
 +  
 +SELECT ​?s ?label ?s_bnf ?p ?entity 
 + 
 WHERE { WHERE {
-+  
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/​sparql>​ +    ​
-{SELECT *  +    SERVICE <https://dataforhumanities.abes.fr/​sparql>​ 
-WHERE {  +    {SELECT *  
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​ +    WHERE {  
-+    GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​ 
-?s owl:sameAs ?idref. +    
-} +    ?s owl:sameAs ?idref
-+       <​http://​symogih.org/​ontology/​objectStandardName>​ ?label 
-+           
-+    
-?idref owl:sameAs ?uri. +       # FILTER(CONTAINS(?label, 'Bras')) 
-BIND (uri(replace(str(?uri), 'foaf:​Person',​ 'about')) as ?new_uri+    } 
-{ +    LIMIT 20 
-SERVICE <​http://​data.bnf.fr/​sparql>​ +  }
-+
-SELECT * +
-WHERE { +
-?new_uri <​http://​rdvocab.info/​ElementsGr2/​biographicalInformation>​ ?ob +
-} +
-}+
 } }
 + 
 +?s_bnf owl:sameAs ?idref.
 + 
 +# ?s_bnf ?p ?entity.
 +
 +?s_bnf <​http://​rdvocab.info/​ElementsGr2/​biographicalInformation>​ ?entity.
 +
 +# ?entity ?p ?​s_bnf.  ​
 + 
 } }
 +ORDER BY ?s_bnf ?p
 </​code>​ </​code>​
- 
- 
 ==== Obtenir les données concernant des acteurs similaires ==== ==== Obtenir les données concernant des acteurs similaires ====
  
Ligne 246: Ligne 277:
 Chercher les acteurs dont le vocabulaire des notices est proche de celui de la population de départ Chercher les acteurs dont le vocabulaire des notices est proche de celui de la population de départ
  
-//Suggestion pour le défi// +<​html><​span style="​color:​red;​font-weight:​bold;">​Suggestion pour le défi</span><​/html> ​Chercher les professeur de droit français parmi les 2258 acteurs [28 décembre 2018] de la population des notices BNF, puis vérifier si parmis eux tous sont déjà présents dans les données SIPROJURIS: la recherche s'​effectuera sur les noms mais aussi les autres informations disponibles. Lister les éventuels acteurs manquants dans la base de données d'​origine et présents dans les notices d'​autorité de la BNF.
-Chercher les professeur de droit français parmi les 2258 acteurs [28 décembre 2018] de la population des notices BNF, puis vérifier si parmis eux tous sont déjà présents dans les données SIPROJURIS: la recherche s'​effectuera sur les noms mais aussi les autres informations disponibles. Lister les éventuels acteurs manquants dans la base de données d'​origine et présents dans les notices d'​autorité de la BNF.+
  
 <code sparql> <code sparql>
Ligne 289: Ligne 319:
 ==== Lister les URI DBPedia ==== ==== Lister les URI DBPedia ====
  
-Seulement ​68 disponibles [28 décenbre 2018].+Seulement ​101 disponibles [9 décembre 2021].
  
 <code SPARQL> <code SPARQL>
 +PREFIX owl: <​http://​www.w3.org/​2002/​07/​owl#>​
 +
 SELECT *  SELECT * 
    
 WHERE { WHERE {
 +  ​
 { {
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/sparql>+SERVICE <https://dataforhumanities.abes.fr/​sparql>​
 {SELECT *  {SELECT * 
 WHERE {  WHERE { 
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​+GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​
 { {
 ?s owl:sameAs ?idref. ?s owl:sameAs ?idref.
Ligne 306: Ligne 339:
 } }
 } }
-?idref owl:sameAs ?URI+ 
-BIND (URI(REPLACE(STR(?URI), 'foaf:​Person',​ 'about')) AS ?new_uri)+?s_bnf owl:​sameAs ​?idref
 + 
 +?​s_bnf ​owl:sameAs ?dbpedia
 +FILTER(CONTAINS(STR(?dbpedia), 'dbpedia'))
    
-{ 
-SERVICE <​http://​data.bnf.fr/​sparql>​ 
-{ 
-SELECT * 
-WHERE { 
-?new_uri owl:sameAs ?dbpedia. 
-FILTER(CONTAINS(STR(?​dbpedia),​ '​dbpedia'​)) 
-} 
- 
-} 
-} 
 } }
 </​code>​ </​code>​
Ligne 325: Ligne 350:
  
 ==== Données disponibles dans DBPedia ==== ==== Données disponibles dans DBPedia ====
 +
 +!!! Attention : cette requête ne marche plus à cause du changement des réglages de sécurité du côté BNF. Il faut donc prévoir un stockage intermédiaire des URI.
  
 <code SPARQL> <code SPARQL>
-SELECT *+PREFIX owl: <​http://​www.w3.org/​2002/​07/​owl#>​ 
 +  
 +SELECT * 
    
 WHERE { WHERE {
 + 
 { {
-SERVICE <http://bhp-publi.ish-lyon.cnrs.fr:8888/sparql>+SERVICE <https://dataforhumanities.abes.fr/​sparql>​
 {SELECT *  {SELECT * 
 WHERE {  WHERE { 
-GRAPH <http://symogih.org/graph/​siprojuris-sym>​+GRAPH <https://dataforhumanities.org/sparql-endpoint/​siprojuris-sym>​
 { {
 ?s owl:sameAs ?idref. ?s owl:sameAs ?idref.
Ligne 341: Ligne 371:
 } }
 } }
-?idref owl:sameAs ?URI. +  ​ 
-BIND (URI(REPLACE(STR(?​URI),​ '​foaf:​Person',​ '​about'​)) AS ?new_uri)+  
    
-+?s_bnf owl:sameAs ?idref
-SERVICE <http://data.bnf.fr/​sparql>​ +  
-+?s_bnf owl:sameAs ?dbpedia.
-SELECT * +
-WHERE { +
-?new_uri ​owl:sameAs ?dbpedia.+
 FILTER(CONTAINS(STR(?​dbpedia),​ '​dbpedia'​)) FILTER(CONTAINS(STR(?​dbpedia),​ '​dbpedia'​))
-} 
-} 
-} 
  
 { {
-SERVICE <​https://​dbpedia.org/​sparql>​+SERVICE <​https://​fr.dbpedia.org/​sparql>​
 { {
 SELECT * SELECT *
Ligne 364: Ligne 388:
 } }
 } }
 +    ​
 } }
 </​code>​ </​code>​
  
siprojuris/enrichir_les_donnes_avec_lod.1546034439.txt.gz · Dernière modification: 2018/12/28 23:00 par Francesco Beretta