Outils pour utilisateurs

Outils du site


besson_sylvain:economist_jurist

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
besson_sylvain:economist_jurist [2021/03/31 12:56]
Vincent Alamercery
besson_sylvain:economist_jurist [2021/07/19 19:26]
Sylvain Besson [Étapes du projet]
Ligne 1: Ligne 1:
-Allez vers la [[besson_sylvain|page précédente]]+Allez vers la [[http://​phn-wiki.ish-lyon.cnrs.fr/​doku.php?​id=cours_formations|page précédente ​- formations]]
  
 ====== Économiste et juriste ====== ====== Économiste et juriste ======
 \\ \\
-"Économiste et juriste" ​est un projet visant à étudier les économistes et les juristes depuis 1800 jusqu'​à nos joursPour cela, nous allons prendre les données qui sont présentes sur [[https://www.dbpedia.org/|DBpedia]] et [[https://data.bnf.fr/|BnF Data]] et les lier entre elles. Le but final étant d'​avoir une base de données fonctionnelle sur ces populationsDe cette base de données créénous pourrons réaliser plusieurs traitements statistiquesd'​analyses descriptives ​et d'​analyses ​de réseaux.+<​html>​ 
 +<​table><​tr><​td style="vertical-align:​ middle;"><a rel="​license"​ href="​http://​creativecommons.org/​licenses/​by-nc-sa/​4.0/"><​img alt="​Licence Creative Commons"​ style="​border-width:​0;​ font-size:​smaller"​ src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" ​/></​a>​ 
 +</​td>​ 
 +<​td>​ 
 +<span xmlns:​dct="​http://​purl.org/​dc/​terms/"​ property="​dct:​title">​Le projet "​Économiste et juriste"</​span> ​de <span xmlns:​cc="​http://​creativecommons.org/​ns#"​ property="​cc:​attributionName">​Sylvain Besson</​span>​avec toute la documentationles fichiers ​et scripts associés, est mis à disposition selon les termes de la <a rel="​license"​ href="​http://​creativecommons.org/​licenses/​by-nc-sa/​4.0/">​licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International</​a>​. Cette autorité subsiste sous réserve ​de toutes les citations, extraits de documents, textes, images, etcdont les droits reviennent à leurs auteurs respectifs, mentionnés explicitement ou non. </​td></​tr></​table>​ 
 +</​html>​
  
-**Sur cette pagevous retrouvez l'​ensemble des éléments pour comprendre notre projet:** +\\ 
- +"​Économiste et juriste"​ est un projet visant à réaliser une étude prosoprographique des économistes et des juristes du XIXe siècle jusqu'​à nos jours. Pour celanous allons prendre les données qui sont présentes sur **[[documentation_dbpedia|DBpedia]]**, **[[documentation_bnf_data|BnF Data]]** et **[[documentation_wikidata|Wikidata]]** puis les lier entre elles. Le but final étant d'​avoir une base de données fonctionnelle sur ces populations. De cette base de données créée, nous pourrons réaliser plusieurs traitements statistiques,​ d'​analyses descriptives et d'​analyses de réseaux.
-  * Une **[[projets_individuels:​economiste_juriste_documentation|documentation]]** expliquant les différents langages utilisésle fonctionnement des bases de données utilisées, etc. +
- +
-  * La **[[projets_individuels:​economiste_juriste_delimitation|délimitation du sujet]]**  sur la définition des termes "​économistes" ​et "​juristes"​ ainsi que les bornes chronologiques et géographiques choisies. +
- +
-  ​La **feuille de route** retraçant ​les différentes étapes ​de notre projet.+
  
-  * Le **détail** des étapes réalisés. 
  
 ---- ----
  
 =====Documentation===== =====Documentation=====
-Vous retrouverez la **[[Economiste_Juriste_Documentation|documentation]]** qui peut être utile pour comprendre le projet avec les langages employés, les bases de données utilisés, etc+Vous retrouverez la **[[economiste_juriste_documentation|documentation]]** qui peut être utile pour comprendre le projet avec les langages employés, les bases de données utilisés, etc.
- +
- +
-Accès à notre **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Lawyers|dépôt Github]]** sur lequel nous mettons nos différents carnets [[https://​www.python.org/​|Python]].+
  
 ---- ----
Ligne 30: Ligne 26:
  
 Dans cette section, vous retrouverez la **[[economiste_juriste_delimitation|délimitation du sujet]]** qui est le point de départ de notre recherche. Dans cette section, vous retrouverez la **[[economiste_juriste_delimitation|délimitation du sujet]]** qui est le point de départ de notre recherche.
- 
  
----- 
- 
-=====Sondage des données===== 
- 
-La première étape est de connaître l'​état des jeux de données de [[https://​www.dbpedia.org/​|DBpedia]] et [[https://​data.bnf.fr/​|BnF Data]] afin de voir le nombre de personnes dont on peut considérer qu'​elles font parties de la "​population"​ des Économistes et des juristes. 
- 
-Pour cela il faut réaliser des Requêtes [[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]] afin de connaître indépendamment sur les deux bases de données le nombre de personnes qui répondre à ce critère. Pour cela, il ne faut faire les requêtes avec le moins grande nombre de critère de sélection afin de ne réduire la population si une personne ne correspond pas à une des critères. Les seuls critères qui sont conservés sont l'URI de la personne, sans quoi on ne peut pas l'​identifier et l'​année de naissance. ​ 
- 
-Il est ensuite possible de rajouter des critères optionnels comme le nom (toutes les personnes n'ont pas systématiquement un nom inscrit), la nationalité,​ etc.  
- 
-Il est aussi parfois essentiel de conserver le résumé/la biographie de la personne, car c'est cet élément qui l'​identifie en tant qu'​économiste ou juriste. Il est possible dans le langage [[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]] d'​aller chercher des chaînes de caractères avec la clause [[https://​www.w3.org/​TR/​rdf-sparql-query/#​funcex-regex|REGEX]]. C'est avec cette dernière que nous pouvons aller chercher dans les biographies et les résumées les mentions d'​économistes,​ professeur d'​économie,​ //jurist//, etc. 
-Pour [[https://​data.bnf.fr/​|BnF Data]], il y n'a besoin de chercher ces chaînes de caractère qu'en français, car toutes les biographies sont écrites en français. Par contre, pour [[https://​www.dbpedia.org/​|DBpedia]],​ il faut avant tout les faire en anglais, car c'est la langue qui est privilégiée. 
- 
-Voici un exemple d'​interrogation possible pour obtenir les économistes sur le [[https://​data.bnf.fr/​sparql/​|point de terminaison SPARQL]] BnF Data: 
- 
-<code sparql> 
-PREFIX ​ egr:  <​http://​rdvocab.info/​ElementsGr2/>​ 
-PREFIX ​ owl:  <​http://​www.w3.org/​2002/​07/​owl#>​ 
-PREFIX ​ dbr:  <​http://​dbpedia.org/​resource/>​ 
-PREFIX ​ xsd:  <​http://​www.w3.org/​2001/​XMLSchema#>​ 
-PREFIX ​ skos: <​http://​www.w3.org/​2004/​02/​skos/​core#>​ 
-PREFIX ​ foaf: <​http://​xmlns.com/​foaf/​0.1/>​ 
- 
-SELECT DISTINCT ​ ?s ?name ?sName ?uri ?year ?bio 
-WHERE 
-  {   { ?s  egr:​biographicalInformation ​ ?bio ;  
-            egr:​dateOfBirth ​      ?bd 
-        BIND(strbefore(strafter(str(?​bd),​ "​http://​data.bnf.fr/​date/"​),​ "/"​) AS ?​year) ​ 
-        # La clause "​BIND"​ est utilisé afin de ne garder dans l'URL que la date. 
-        FILTER ( ( regex(?bio, "​juriste",​ "​i"​) || regex(?bio, "​professeur de droit",​ "​i"​) ) || regex(?bio, "​docteur en droit",​ "​i"​) ) 
-        # Ce filtre est nécessaire pour obtenir la population que nous avons défini. 
-        OPTIONAL 
-          { ?s  foaf:​name ​ ?name } 
-        OPTIONAL 
-          { ?s  skos:​prefLabel ​ ?sName } 
-        OPTIONAL 
-          { ?s  owl:​sameAs ​ ?uri 
-            FILTER regex(?uri, "​viaf.org",​ "​i"​) 
-            # Ce filtre est utilisé pour fusionner les données issues de  
-            # BnF Data et de DBpedia by l'URI VIAF. 
-          } 
-      } 
-    UNION 
-      { ?s  egr:​biographicalInformation ​ ?bio ; 
-            egr:​dateOfBirth ​      ?bd 
-        BIND(strbefore(strafter(str(?​bd),​ "​http://​data.bnf.fr/​date/"​),​ "/"​) AS ?year) 
-        FILTER ( ?year > "​1800"​ ) 
-        FILTER ( ( ( regex(?bio, "​économiste"​) || regex(?bio, "​Economiste"​) ) || regex(?bio, "​professeur d'​économie",​ "​i"​) ) || regex(?bio, "​docteur en économie",​ "​i"​) ) 
-        OPTIONAL 
-          { ?s  foaf:​name ​ ?name } 
-        OPTIONAL 
-          { ?s  skos:​prefLabel ​ ?sName } 
-        OPTIONAL 
-          { ?s  owl:​sameAs ​ ?uri 
-            FILTER regex(?uri, "​viaf.org",​ "​i"​) 
-          } 
-      } 
-  } 
-ORDER BY DESC(?uri) 
-</​code>​ 
- 
-Cette requête est exécuté sur [[https://​www.python.org/​|Python]] est permet d'​aller chercher à la fois les économistes et à la fois les juristes [[https://​data.bnf.fr/​|BnF data]]. ​ (cf. **[[projets_individuels:​economiste_juriste_documentation|documentation SPARQL]]** pour comprendre davantage comment se construit la requête). ​ 
- 
-Nous ajoutons de façon optionnelle les personnes qui aurait un URI [[http://​viaf.org/​|VIAF]]. Il est important, car il nous permet de faire une jointure entre les données [[https://​data.bnf.fr/​|BnF Data]] et [[https://​www.dbpedia.org/​|DBpedia]] pour les personnes qui ont le même URI [[http://​viaf.org/​|VIAF]] sur les bases de données. ​ 
- 
-Il est possible de retrouver sur ce **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​development/​Notebooks/​Issues/​DBpedia_BnF_Data_URI.ipynb|carnet]]** la requête pour [[https://​data.bnf.fr/​|BnF Data]] et [[https://​www.dbpedia.org/​|DBpedia]],​ ainsi que les démarches pour aligner les deux bases de données. 
 ---- ----
  
Ligne 104: Ligne 33:
 Nous devons dans ce projet réaliser différentes étapes: Nous devons dans ce projet réaliser différentes étapes:
  
-  - Récolter le maximum de personnes sur [[https://​www.dbpedia.org/​|DBpedia]] et [[https://​data.bnf.fr/​|BnF Data]] ​via des requêtes [[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]] +  - Récolter le maximum de personnes sur les différentes bases de données ​via des requêtes ​**[[documentation_sparql|SPARQL]]**  - Aligner les trois jeux de données avec le langage [[python:accueil|Python]]
-  - Aligner les deux jeux de données avec le langage [[https://​www.python.org/|Python]]+
   - Voir s'il y a des propriétés qui sont présentes sur une majorité de personnes   - Voir s'il y a des propriétés qui sont présentes sur une majorité de personnes
-    * en extrayant les propriétés par des requêtes [[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]] ​+    * en extrayant les propriétés par des requêtes ​**[[documentation_sparql|SPARQL]]**
   - Créer une ontologie particulière ​   - Créer une ontologie particulière ​
     * Basé sur des ontologies de haut niveau comme le [[http://​www.cidoc-crm.org/​|Cidoc CRM]]     * Basé sur des ontologies de haut niveau comme le [[http://​www.cidoc-crm.org/​|Cidoc CRM]]
     * En utilisant [[https://​ontome.dataforhistory.org/​|OntoMe]]     * En utilisant [[https://​ontome.dataforhistory.org/​|OntoMe]]
   - Créer un point de terminaison SPARQL   - Créer un point de terminaison SPARQL
-  -  Comparer le jeux de données créé avec [[http://​siprojuris.symogih.org/​|Siprojuris]] ​ 
-    * [[https://​data.bnf.fr/​|BnF Data]] et [[http://​siprojuris.symogih.org/​|Siprojuris]] ont tous les deux des [[https://​www.idref.fr/​|IDRef]] communs qui permettront de faire un alignement 
   -  Réaliser des différentes analyses statistiques   -  Réaliser des différentes analyses statistiques
  
 +----
 +
 +=====Étapes du projet=====
 +
 +Vous retrouver ici les différentes **[[etapes|étapes]]** du projet "​Économiste et juriste"​.
 +
 +----------------
 +
 +=====Point d'​accès SPARQL public=====
 +
 +Vous pouvez accéder au [[https://​hub-fne.idref.fr/​sparql|point d'​accès SPARQL Virtuoso]] du projet où se trouve les données récoltées. Il est préférable pour débuter de consulter la documentation **[[documentation_sparql|SPARQL]]**.
 +----------------
 +
 +=====Espace Github=====
  
 +Accès à notre **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Lawyers|dépôt Github]]** sur lequel nous mettons nos différents carnets [[python:​accueil|Jupyter]].
besson_sylvain/economist_jurist.txt · Dernière modification: 2021/07/22 19:05 par Sylvain Besson