Allez vers la page précédente - Documentation

DBpedia


DBpedia est un projet participatif d'extraction de données structurées à partir de différents projets Wikimedia (c'est avant tout pour extraire les données de Wikipédia), débuté en 2007 par l'université libre de Berlin et l'université de Leipzig. Ce projet s'inscrit dans la démarche du linked data imaginé par Tim Berners-Lee. Le but étant de permettre que les données soient visibles aussi bien par des êtres humains que par des machines. Les données sont encodées au format RDF. Cette base de données peut ensuite être interrogée au moyen d'un langage SQL tel que SPARQL.

Aux prémisses du projet, l'objectif de DBpedia était de récupérer toutes les données qui sont contenues dans les infoboxes (c'est une table de données résumant les informations essentielles dans une fiche Wikipédia) de Wikipédia. Ensuite, ils ont aussi récupéré diverses données comme le résumé ou bien tous les liens présents sur la pages. Ils ont pu aussi rajouter d'autres liens vers des fiches d'autres sites ou bases de données. Cette extraction (via l'extracteur MARVIN) se faisait au début du projet tous les ans, mais aujourd'hui, ils arrivent à extraire l'ensemble des données de Wikipédia chaque mois. De plus, actuellement, à chaque étape de l'extraction jusqu'à la publication, il y a une validation sur la plateforme Databus afin de corriger la syntaxe RDF, etc.

Voici le schéma complet du cycle de mis à jour de DBpedia:


schéma du cycle de mis à jour de DBpedia Source: Hofer M., Hellmann S., Dojchinovski M., Frey J., The New DBpedia Release Cycle: Increasing Agility and Efficiency in Knowledge Extraction Workflows, dans: Blomqvist E. et al. (eds) Semantic Systems. In the Era of Knowledge Graphs. SEMANTICS 2020. Lecture Notes in Computer Science, Springer, Cham, 27 octobre 2020. (DOI:10.1007/978-3-030-59833-4_1)


Il faut ajouter à cela que DBpedia a en plus une version par langue, appelées chapitres afin d'internationaliser au mieux DBpedia. C'est le cas du français.

De plus, il y a une version qui est mise à jour à chaque modification sur Wikipédia. Cette dernière ne se base que sur le Wikipédia anglais.

Parallèlement à ça, ils ont créé une ontologie afin de structurer hiérarchiquement l'ensemble des données. Cette ontologie se fait suite à l'extraction des données à partir de cette dernière, mais ils gardent accessible l'extraction initiale des ressources. L'ontologie s'appuie aussi ce qui a été fait par schema.org (vocabulaire pour lier les données du web, créé par Google, Microsoft, Yahoo et Yandex) pour améliorer leur ontologie. DBpedia s'est aussi très récemment associé à Diffbot qui permet d'extraire des données structurées à partir de données non-structurées (TAL - Traitement automatique des langues) (lien vers la source).

Il est possible de voir la structure de l'ontologie, ainsi que les instances ici avec des graphes dynamiques.

Nous avons donc dans DBpedia des classes (exemple) et des propriétés (exemple). Mais aussi, nous avons des ressources simples (exemple) qui peuvent jouer le rôle d'instance.

Pour aller plus loin dans la compréhension de DBpedia, il est possible de lire cet article sur la dernière mise à jour parue : Hofer M., Hellmann S., Dojchinovski M., Frey J., The New DBpedia Release Cycle: Increasing Agility and Efficiency in Knowledge Extraction Workflows, dans : Blomqvist E. et al. (eds) Semantic Systems. In the Era of Knowledge Graphs. SEMANTICS 2020. Lecture Notes in Computer Science, Springer, Cham, 27 octobre 2020. (DOI:10.1007/978-3-030-59833-4_1)

Vous retrouvez ici la liste des espaces de noms (Wikipédia fr) utilisés par DBpedia.

L'accès direct au point d'accès SPARQL de DBpedia, ainsi que de la version live et la version française.