Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
besson_sylvain:etapes_sondage [2021/04/12 20:23] Sylvain Besson |
besson_sylvain:etapes_sondage [2021/07/05 16:49] Vincent Alamercery Links to projets_individuels:etapes changed to besson_sylvain:etapes |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | Allez vers la [[etapes|page précédente - étapes]] | + | Allez vers la [[besson_sylvain:etapes|page précédente - étapes]] |
\\ | \\ | ||
======Sondage des données====== | ======Sondage des données====== | ||
- | La première étape est de connaître l'état des jeux de données de **[[documentation_DBpedia|DBpedia]]**, **[[documentation_BnF_Data|BnF Data]]** et **[[documentation_Wikidata|Wikidata]]** afin de voir le nombre de personnes dont on peut considérer qu'elles font parties de la "population" des Économistes et des juristes. | + | La première étape est de connaître l'état des jeux de données de **[[besson_sylvain:documentation_dbpedia|DBpedia]]**, **[[besson_sylvain:documentation_bnf_data|BnF Data]]** et **[[besson_sylvain:documentation_wikidata|Wikidata]]** afin de voir le nombre de personnes dont on peut considérer qu'elles font parties de la "population" des Économistes et des juristes. |
- | Pour cela il faut réaliser des requêtes **[[documentation_SPARQL|SPARQL]]** afin de connaître indépendamment sur les bases de données le nombre de personnes qui répondre à ce critère. Pour cela, il ne faut faire les requêtes avec le moins grande nombre de critère de sélection afin de ne réduire la population si une personne ne correspond pas à une des critères. Les seuls critères qui sont conservés sont l'URI de la personne, sans quoi on ne peut pas l'identifier et la date de naissance. | + | Pour cela il faut réaliser des requêtes **[[besson_sylvain:documentation_sparql|SPARQL]]** afin de connaître indépendamment sur les bases de données le nombre de personnes qui répondre à ce critère. Pour cela, il ne faut faire les requêtes avec le moins grande nombre de critère de sélection afin de ne réduire la population si une personne ne correspond pas à une des critères. Les seuls critères qui sont conservés sont l'URI de la personne, sans quoi on ne peut pas l'identifier et la date de naissance. |
Il est ensuite possible de rajouter des critères optionnels comme le nom (toutes les personnes n'ont pas systématiquement un nom inscrit), la nationalité, etc. | Il est ensuite possible de rajouter des critères optionnels comme le nom (toutes les personnes n'ont pas systématiquement un nom inscrit), la nationalité, etc. | ||
- | Il est aussi parfois essentiel de conserver le résumé/la biographie de la personne, car c'est cet élément qui l'identifie en tant qu'économiste ou juriste. Il est possible dans le langage **[[documentation_SPARQL|SPARQL]]** d'aller chercher des chaînes de caractères avec la clause [[https://www.w3.org/TR/rdf-sparql-query/#funcex-regex|REGEX]]. C'est avec cette dernière que nous pouvons aller chercher dans les biographies et les résumées les mentions d'économistes, professeur d'économie, //jurist//, etc. | + | Il est aussi parfois essentiel de conserver le résumé/la biographie de la personne, car c'est cet élément qui l'identifie en tant qu'économiste ou juriste. Il est possible dans le langage **[[besson_sylvain:documentation_sparql|SPARQL]]** d'aller chercher des chaînes de caractères avec la clause [[https://www.w3.org/TR/rdf-sparql-query/#funcex-regex|REGEX]]. C'est avec cette dernière que nous pouvons aller chercher dans les biographies et les résumées les mentions d'économistes, professeur d'économie, //jurist//, etc. |
- | Pour **[[documentation_BnF_Data|BnF Data]]**, il y n'a besoin de chercher ces chaînes de caractère qu'en français, car toutes les biographies sont écrites en français. Par contre, pour **[[documentation_DBpedia|DBpedia]]** et **[[documentation_Wikidata|Wikidata]]**, il faut avant tout les faire en anglais, car c'est la langue qui est privilégiée. | + | Pour **[[besson_sylvain:documentation_bnf_data|BnF Data]]**, il y n'a besoin de chercher ces chaînes de caractère qu'en français, car toutes les biographies sont écrites en français. Par contre, pour **[[besson_sylvain:documentation_dbpedia|DBpedia]]** et **[[besson_sylvain:documentation_wikidata|Wikidata]]**, il faut avant tout les faire en anglais, car c'est la langue qui est privilégiée. |
Voici un exemple d'interrogation possible pour obtenir les économistes sur le [[https://data.bnf.fr/sparql/|point de terminaison SPARQL]] BnF Data: | Voici un exemple d'interrogation possible pour obtenir les économistes sur le [[https://data.bnf.fr/sparql/|point de terminaison SPARQL]] BnF Data: | ||
Ligne 61: | Ligne 61: | ||
</code> | </code> | ||
- | Cette requête est exécuté sur [[python:accueil|Python]] est permet d'aller chercher à la fois les économistes et à la fois les juristes **[[documentation_BnF_Data|BnF Data]]**. (cf. **[[projets_individuels:economiste_juriste_documentation|documentation SPARQL]]** pour comprendre davantage comment se construit la requête). | + | Cette requête est exécuté sur [[python:accueil|Python]] est permet d'aller chercher à la fois les économistes et à la fois les juristes **[[besson_sylvain:documentation_bnf_data|BnF Data]]**. (cf. **[[besson_sylvain:documentation_sparql|documentation SPARQL]]** pour comprendre davantage comment se construit la requête). |
Nous ajoutons de façon optionnelle les personnes qui aurait un URI **[[documentation_VIAF|VIAF]]**. Il est important, car il nous permet de faire une jointure entre les bases de données pour les personnes qui ont le même URI **[[documentation_VIAF|VIAF]]** sur les bases de données. | Nous ajoutons de façon optionnelle les personnes qui aurait un URI **[[documentation_VIAF|VIAF]]**. Il est important, car il nous permet de faire une jointure entre les bases de données pour les personnes qui ont le même URI **[[documentation_VIAF|VIAF]]** sur les bases de données. | ||
- | Il est possible de retrouver sur ce **[[https://github.com/Semantic-Data-for-Humanities/Economists_Jurists/blob/development/Notebooks/Issues/DBpedia_BnF_Data_URI.ipynb|carnet]]** l'intégralité des requêtes pour les différentes bases de données, ainsi que les démarches pour aligner les deux bases de données. | + | Il est possible de retrouver sur ce **[[https://github.com/Semantic-Data-for-Humanities/Economists_Jurists/blob/development/Notebooks/Merge/Merge_DBpedia_BnF_Data_Wikidata.ipynb|carnet]]** l'intégralité des requêtes pour les différentes bases de données. |