Outils pour utilisateurs

Outils du site


besson_sylvain:economist_jurist

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
besson_sylvain:economist_jurist [2021/03/31 19:12]
Sylvain Besson [Documentation]
besson_sylvain:economist_jurist [2021/04/01 11:35]
Sylvain Besson
Ligne 3: Ligne 3:
 ====== Économiste et juriste ====== ====== Économiste et juriste ======
 \\ \\
-"​Économiste et juriste"​ est un projet visant à étudier les économistes et les juristes depuis 1800 jusqu'​à nos jours. Pour cela, nous allons prendre les données qui sont présentes sur [[https://​www.dbpedia.org/​|DBpedia]] et [[https://​data.bnf.fr/​|BnF Data]] et les lier entre elles. Le but final étant d'​avoir une base de données fonctionnelle sur ces populations. De cette base de données créé, nous pourrons réaliser plusieurs traitements statistiques,​ d'​analyses descriptives et d'​analyses de réseaux.+"​Économiste et juriste"​ est un projet visant à étudier les économistes et les juristes depuis 1800 jusqu'​à nos jours. Pour cela, nous allons prendre les données qui sont présentes sur **[[documentation_DBpedia|DBpedia]]** et **[[documentation_BnF_Data|BnF Data]]** et les lier entre elles. Le but final étant d'​avoir une base de données fonctionnelle sur ces populations. De cette base de données créé, nous pourrons réaliser plusieurs traitements statistiques,​ d'​analyses descriptives et d'​analyses de réseaux.
  
 **Sur cette page, vous retrouvez l'​ensemble des éléments pour comprendre notre projet:** **Sur cette page, vous retrouvez l'​ensemble des éléments pour comprendre notre projet:**
Ligne 28: Ligne 28:
 Dans cette section, vous retrouverez la **[[economiste_juriste_delimitation|délimitation du sujet]]** qui est le point de départ de notre recherche. Dans cette section, vous retrouverez la **[[economiste_juriste_delimitation|délimitation du sujet]]** qui est le point de départ de notre recherche.
  
 +----
 +
 +=====Feuille de route=====
 +
 +Nous devons dans ce projet réaliser différentes étapes:
 +
 +  - Récolter le maximum de personnes sur **[[documentation_DBpedia|DBpedia]]** et **[[documentation_BnF_Data|BnF Data]]** via des requêtes **[[documentation_SPARQL|SPARQL]]** ​ - Aligner les deux jeux de données avec le langage [[python:​accueil|Python]]
 +  - Voir s'il y a des propriétés qui sont présentes sur une majorité de personnes
 +    * en extrayant les propriétés par des requêtes **[[documentation_SPARQL|SPARQL]]**
 +  - Créer une ontologie particulière ​
 +    * Basé sur des ontologies de haut niveau comme le [[http://​www.cidoc-crm.org/​|Cidoc CRM]]
 +    * En utilisant [[https://​ontome.dataforhistory.org/​|OntoMe]]
 +  - Créer un point de terminaison SPARQL
 +  -  Comparer le jeux de données créé avec [[http://​siprojuris.symogih.org/​|Siprojuris]] ​
 +    * **[[documentation_BnF_Data|BnF Data]]** et [[http://​siprojuris.symogih.org/​|Siprojuris]] ont tous les deux des [[https://​www.idref.fr/​|IDRef]] communs qui permettront de faire un alignement
 +  -  Réaliser des différentes analyses statistiques
  
 ---- ----
Ligne 33: Ligne 49:
 =====Sondage des données===== =====Sondage des données=====
  
-La première étape est de connaître l'​état des jeux de données de [[https://​www.dbpedia.org/​|DBpedia]] et [[https://​data.bnf.fr/​|BnF Data]] afin de voir le nombre de personnes dont on peut considérer qu'​elles font parties de la "​population"​ des Économistes et des juristes.+La première étape est de connaître l'​état des jeux de données de **[[documentation_DBpedia|DBpedia]]** et **[[documentation_BnF_Data|BnF Data]]** afin de voir le nombre de personnes dont on peut considérer qu'​elles font parties de la "​population"​ des Économistes et des juristes.
  
-Pour cela il faut réaliser des Requêtes ​[[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]] afin de connaître indépendamment sur les deux bases de données le nombre de personnes qui répondre à ce critère. Pour cela, il ne faut faire les requêtes avec le moins grande nombre de critère de sélection afin de ne réduire la population si une personne ne correspond pas à une des critères. Les seuls critères qui sont conservés sont l'URI de la personne, sans quoi on ne peut pas l'​identifier et l'​année de naissance. ​+Pour cela il faut réaliser des requêtes **[[documentation_SPARQL|SPARQL]]** afin de connaître indépendamment sur les deux bases de données le nombre de personnes qui répondre à ce critère. Pour cela, il ne faut faire les requêtes avec le moins grande nombre de critère de sélection afin de ne réduire la population si une personne ne correspond pas à une des critères. Les seuls critères qui sont conservés sont l'URI de la personne, sans quoi on ne peut pas l'​identifier et l'​année de naissance. ​
  
 Il est ensuite possible de rajouter des critères optionnels comme le nom (toutes les personnes n'ont pas systématiquement un nom inscrit), la nationalité,​ etc.  Il est ensuite possible de rajouter des critères optionnels comme le nom (toutes les personnes n'ont pas systématiquement un nom inscrit), la nationalité,​ etc. 
  
-Il est aussi parfois essentiel de conserver le résumé/la biographie de la personne, car c'est cet élément qui l'​identifie en tant qu'​économiste ou juriste. Il est possible dans le langage [[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]] d'​aller chercher des chaînes de caractères avec la clause [[https://​www.w3.org/​TR/​rdf-sparql-query/#​funcex-regex|REGEX]]. C'est avec cette dernière que nous pouvons aller chercher dans les biographies et les résumées les mentions d'​économistes,​ professeur d'​économie,​ //jurist//, etc. +Il est aussi parfois essentiel de conserver le résumé/la biographie de la personne, car c'est cet élément qui l'​identifie en tant qu'​économiste ou juriste. Il est possible dans le langage ​**[[documentation_SPARQL|SPARQL]]** d'​aller chercher des chaînes de caractères avec la clause [[https://​www.w3.org/​TR/​rdf-sparql-query/#​funcex-regex|REGEX]]. C'est avec cette dernière que nous pouvons aller chercher dans les biographies et les résumées les mentions d'​économistes,​ professeur d'​économie,​ //jurist//, etc. 
-Pour [[https://​data.bnf.fr/​|BnF Data]], il y n'a besoin de chercher ces chaînes de caractère qu'en français, car toutes les biographies sont écrites en français. Par contre, pour [[https://​www.dbpedia.org/​|DBpedia]], il faut avant tout les faire en anglais, car c'est la langue qui est privilégiée.+Pour **[[documentation_BnF_Data|BnF Data]]**, il y n'a besoin de chercher ces chaînes de caractère qu'en français, car toutes les biographies sont écrites en français. Par contre, pour **[[documentation_DBpedia|DBpedia]]**, il faut avant tout les faire en anglais, car c'est la langue qui est privilégiée.
  
 Voici un exemple d'​interrogation possible pour obtenir les économistes sur le [[https://​data.bnf.fr/​sparql/​|point de terminaison SPARQL]] BnF Data: Voici un exemple d'​interrogation possible pour obtenir les économistes sur le [[https://​data.bnf.fr/​sparql/​|point de terminaison SPARQL]] BnF Data:
Ligne 90: Ligne 106:
 </​code>​ </​code>​
  
-Cette requête est exécuté sur [[https://​www.python.org/|Python]] est permet d'​aller chercher à la fois les économistes et à la fois les juristes [[https://​data.bnf.fr/​|BnF data]].  (cf. **[[projets_individuels:​economiste_juriste_documentation|documentation SPARQL]]** pour comprendre davantage comment se construit la requête). ​+Cette requête est exécuté sur [[python:accueil|Python]] est permet d'​aller chercher à la fois les économistes et à la fois les juristes ​**[[documentation_BnF_Data|BnF Data]]**.  (cf. **[[projets_individuels:​economiste_juriste_documentation|documentation SPARQL]]** pour comprendre davantage comment se construit la requête). ​
  
-Nous ajoutons de façon optionnelle les personnes qui aurait un URI [[http://​viaf.org/​|VIAF]]. Il est important, car il nous permet de faire une jointure entre les données [[https://​data.bnf.fr/​|BnF Data]] et [[https://​www.dbpedia.org/​|DBpedia]] pour les personnes qui ont le même URI [[http://​viaf.org/​|VIAF]] sur les bases de données. ​+Nous ajoutons de façon optionnelle les personnes qui aurait un URI [[http://​viaf.org/​|VIAF]]. Il est important, car il nous permet de faire une jointure entre les données ​**[[documentation_BnF_Data|BnF Data]]** et **[[documentation_DBpedia|DBpedia]]** pour les personnes qui ont le même URI [[http://​viaf.org/​|VIAF]] sur les bases de données. ​
  
-Il est possible de retrouver sur ce **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​development/​Notebooks/​Issues/​DBpedia_BnF_Data_URI.ipynb|carnet]]** la requête pour [[https://​data.bnf.fr/​|BnF Data]] et [[https://​www.dbpedia.org/​|DBpedia]], ainsi que les démarches pour aligner les deux bases de données.+Il est possible de retrouver sur ce **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​development/​Notebooks/​Issues/​DBpedia_BnF_Data_URI.ipynb|carnet]]** la requête pour **[[documentation_BnF_Data|BnF Data]]** et **[[documentation_DBpedia|DBpedia]]**, ainsi que les démarches pour aligner les deux bases de données.
 ---- ----
  
-=====Feuille de route===== +Accès à notre **[[https://github.com/Semantic-Data-for-Humanities/Economists_Lawyers|dépôt Github]]** sur lequel nous mettons nos différents carnets ​[[python:accueil|Python]].
- +
-Nous devons dans ce projet réaliser différentes étapes: +
- +
-  - Récolter le maximum de personnes sur [[https://www.dbpedia.org/|DBpedia]] et [[https://​data.bnf.fr/​|BnF ​Data]] via des requêtes [[https://​www.w3.org/​TR/​rdf-sparql-query/|SPARQL]] +
-  - Aligner les deux jeux de données avec le langage [[https://​www.python.org/​|Python]] +
-  - Voir s'il y a des propriétés qui sont présentes sur une majorité de personnes +
-    ​en extrayant les propriétés par des requêtes [[https://​www.w3.org/​TR/​rdf-sparql-query/​|SPARQL]]  +
-  - Créer une ontologie particulière  +
-    ​Basé sur des ontologies de haut niveau comme le [[http://​www.cidoc-crm.org/​|Cidoc CRM]] +
-    * En utilisant [[https://​ontome.dataforhistory.org/​|OntoMe]] +
-  - Créer un point de terminaison SPARQL +
-  -  Comparer le jeux de données créé avec [[http://​siprojuris.symogih.org/​|Siprojuris]]  +
-    * [[https://​data.bnf.fr/​|BnF Data]] et [[http://​siprojuris.symogih.org/​|Siprojuris]] ont tous les deux des [[https://​www.idref.fr/​|IDRef]] communs qui permettront de faire un alignement +
-  -  Réaliser des différentes analyses statistiques+
  
  
besson_sylvain/economist_jurist.txt · Dernière modification: 2021/07/22 19:05 par Sylvain Besson