Ceci est une ancienne révision du document !

Table des matières

Économiste et juriste

Économiste et juriste

Économiste et juriste est un projet visant à étudier les économistes et les juristes depuis 1800 jusqu'à nos jours. Pour cela, nous allons prendre les données qui sont présentes sur DBpedia et BnF Data et les lier entre elles. Le but final étant d'avoir une base de données fonctionnelle sur ces populations. De cette base de données nous pourront réaliser plusieurs traitements statistiques, d'analyses descriptives et d'analyses de réseaux.

DBpedia

DBpedia est une projet participatif d'extraction de données structurées à partir de différents projets Wikimedia (c'est avant tout pour extraire les données de Wikipedia), débuté en 2007 par l'université libre de Berlin et l'université de Leipzig. Ce projet s'inscrit dans la démarche du linked data imaginé par Tim Berners-Lee. Le but étant de permettre que les données soient visibles aussi bien par des êtres humains que par des machines. Les données sont encodées au format RDF. Cette base de données peut ensuite être interrogée au moyen d'un langage SQL tel que SPARQL.

Au prémisse du projet, l'objectif de DBpedia était de récupérer toutes les données qui sont contenues dans les infoboxes (c'est une table de données résumant les informations essentiels dans une fiche Wikipedia) de Wikipedia. Ensuite, ils ont aussi récupérer diverses données comme le résumé ou bien tous les liens présents sur la pages. Ils ont pu aussi rajouter d'autres liens vers des fiches d'autres sites ou bases de données. Cette extraction (via l'extracteur MARVIN) se faisait au début du projet tous les ans, mais aujourd'hui ils arrivent à extraire l'ensemble des données de Wikipedia chaque mois. De plus actuellement, à chaque étape de l'extraction jusqu'à la publication, il y a une validation sur la plateforme Databus afin de corriger la syntaxe RDF, etc.

De plus, il y a une version qui est mise à jour à chaque modification sur Wikipedia. Cette dernière ne se base que sur le Wikipedia anglais.

Parallèlement à ça, ils ont créé une ontologie afin de structurer hiérarchiquement l'ensemble des données. Cette ontologie se fait suite à l'extraction des données à partir de cette dernière, mais ils gardent accessible l'extraction initiale des ressources. L'ontologie s'appuie aussi ce que qui a été fait par schema.org (vocabulaire pour lier les données du web, créés par Google, Microsoft, Yahoo et Yandex) pour améliorer leur ontologie. DBpedia s'est aussi très récemment associé à Diffbot qui permet d'extraire des données structurées à partir de données non-structurées (TAL - Traitement automatique des langues) (lien vers la source).

Il est possible de voir la structure de l'ontologie, ainsi que les instancesici avec des graphs dynamiques.

Nous avons donc dans DBpedia des classes (exemple) et des propriétés (exemple). Mais aussi, nous avons des ressources simples (exemple) qui peuvent jouer le rôle d'instance.

Pour aller plus loin dans la compréhension de DBpedia, il est possible de lire de lire cette article sur la dernière mise à jour parue: Hofer M., Hellmann S., Dojchinovski M., Frey J., The New DBpedia Release Cycle: Increasing Agility and Efficiency in Knowledge Extraction Workflows, dans: Blomqvist E. et al. (eds) Semantic Systems. In the Era of Knowledge Graphs. SEMANTICS 2020. Lecture Notes in Computer Science, Springer, Cham, 27 octobre 2020. (DOI:10.1007/978-3-030-59833-4_1)

Vous retrouver ici la liste des espaces de noms (wikipedia fr) utilisés par DBpedia.

L'accès direct au terminal SPARQL de DBpedia, ainsi que de la version live.

BnF Data

BnF Data est une base de données permettant de rendre accessible les données de la Bibliothèque nationale de France, issues de Gallica (portail des numérisations de la BnF), du catalogue général de la bibliothèque, ainsi que d'Archives et manuscrits (catalogue dédié aux archives et au manuscrits des différents fonds de la BnF). Le projet a pour but de fournir des données structurés interprétables par des machines mais aussi lisibles par des humains, afin là aussi d'être dans les principes du linked open data. Les données sont encodées dans le format standard RDF. Cela implique qu'à chaque ressource un URI lui est associé, c'est le mécanisme ARK.

De plus, une partie des données est alignée sur d'autres référentiels et jeux de données comme DBpedia (à noter que c'est le DBpedia français et non le DBpedia global) et VIAF.

Modèle utilisé par BnF Data

BnF Data utilise aussi une modèle pour son fonctionnement. Ce modèle s'intitule FRBR (Functional Requirements for Bibliographic Records). Il a été développé par l'IFLA en 1998 afin de répondre aux besoins de bibliothèques en matière de modélisation mais il a évolué ensuite en deux modèles distincts le FRBRer et le FRBRoo. le FRBRer est le FRBR initial mais dont le nom a été modifié par commodité afin de la distinguer du FRBRoo. Il intègre aussi par le suite le FRANAR (Functional Requirements and Numbering of Authority Records) en 1999 et le FRSAD (Functional Requirements for Subject Authority Data model) en 2005 permettant d'intégrer des autorités. Le FRBRoo, quand a lui est issu d'un groupe de travail entre l'IFLA et le Cidoc CRM.

Les distinctions entre les deux modèles sont les suivantes:

Tout d'abord, le FRBRer est qualifié d'Entité Relation tandis que le FRBRoo est qualifié d'Orienté Objet afin de le placer dans le cadre du Cidoc CRM.

Ensuite dans le FRBRoo les entités deviennent des classes, les attributs et les attributs deviennent des propriétés. De plus, chaque classe ou propriété a un URI.

Enfin on ne parle d'ontologie que pour le FRBRoo.

Ce billet de blog d'Etienne Cavalié résume très bien la distinction qui est faite entre les deux modèles (l'échange de commentaires entre Etienne Cavalié et Patrick Le Boeuf en fin de blog est aussi intéressant).

Vous pouvez avoir ici les différentes version du FRBRoo.

Il faut ajouter à cela un autre modèle, le IFLA LRM (Library Reference Model), initié en 2017 qui a pour but de corriger certaines incohérences du FRBRer en créant un modèle commun au FRBRer, FRANAR et FRSAD. La présentation du modèle est disponible sur cette page. L’intégralité du modèle est disponible ici.

Le FRBR (dans ses deux modèles) a pour but de modéliser les données bibliographiques. Pour cela, il y a quatre niveaux pour délimiter les œuvres:

L'œuvre : C'est le niveau de la création, ex: Le seigneur des anneaux de Tolkien.

L'expression: Cela rassemble les différentes versions du même œuvre, un abrégé, une traduction. ex: la traduction française du seigneur des anneaux.

La manifestation: C'est la matérialisation d'une expression, comme une édition. ex: le Le Hobbit « Édition Deluxe illustrée par J.R.R. Tolkien, Christian Bourgois Édition».

L'item: C'est l'exemplaire. ex: Le seigneur des anneaux de Tolkien dans la bibliothèque de ma grand-mère ou bien le manuscrit Français 1158 conservé à la BnF au Département des Manuscrits.

Ces différents niveaux sont mis en relation à des personnes ou des collectivités. Auxquels, on peut ajouter des lieux, des événements, des concepts et des objets.

Liens utiles

Vous pourrez retrouver sur cette page l'ensemble du fonctionnement de BnF Data, c'est à dire le modèle employé, les alignements réalisés, ainsi que les espaces de noms utilisés.

La mission de BnF Data est résumée sur cette page.

L'accès au terminal SPARQL de BnF Data.

VIAF

VIAF (Virtual International Authority File) est un fichier des autorités internationales qui a pour but d'identifier les personnes ou les organisations qui se trouve dans d'autres fiches d'autorités. Cela permet aussi de les mettre en relation par un identifiant URI VIAF. Il est au cœur de la démarche du web sémantique et du linked data.

Le VIAF a été initié en avril 1998 par la Library of Congres, la Deutsche Nationalbibliothek et le OCLC. La Bibliothèque nationale de France a rejoins le contortium en 2007. Ces dernières sont les principales décisionnaire du projet. Le projet est aujourd'hui porté par de nombreuses institutions (61 en 2017) mais il est mis en œuvre et hébergé par le OCLC (Online Computer Library Center).

La page wikipedia (fr) du VIAF notamment pour connaître les bibliothèques partenaires.

Le VIAF est utile dans notre projet, Les URI qu'ils utilisent sont employées à la fois par DBpedia et par BnF data. Donc il est utile pour faire le lien entre les deux.

Cette page donne accès à l'API de VIAF.

En 2014, différents changements dans le vocabulaire et des ajouts. Ils ont notamment changer certains espaces de noms pour prendre ceux de schema.org.

En 2016, des changements ont été opérés dans l'API de VIAF.

Ex: Notice au format json de John Maynard Keynes

Cette page explique comment le VIAF fonctionne ( Attention: Elle n'a pas été mise à jour depuis 2010).

Ils semblent qu'ils aient réalisé une ontologie mais qu'elle est, à ce jour plus exploitée, ou bien qu'elle ne soit publique (mais depuis 2011, il y a aucune documentation sur elle).

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190

Outils pour utilisateurs

Outils du site