Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision Les deux révisions suivantes | |||
besson_sylvain:documentation_dbpedia [2021/03/31 14:17] Sylvain Besson créée |
besson_sylvain:documentation_dbpedia [2021/03/31 18:57] Sylvain Besson |
||
---|---|---|---|
Ligne 3: | Ligne 3: | ||
======DBpedia====== | ======DBpedia====== | ||
\\ | \\ | ||
- | [[https://wiki.dbpedia.org/about|DBpedia]] est une projet participatif d'extraction de données structurées à partir de différents projets Wikimedia (c'est avant tout pour extraire les données de Wikipedia), débuté en 2007 par l'université libre de Berlin et l'université de Leipzig. Ce projet s'inscrit dans la démarche du //[[https://en.wikipedia.org/wiki/Linked_data|linked data]]// imaginé par Tim Berners-Lee. Le but étant de permettre que les données soient visibles aussi bien par des êtres humains que par des machines. Les données sont encodées au format [[https://fr.wikipedia.org/wiki/Resource_Description_Framework|RDF]]. Cette base de données peut ensuite être interrogée au moyen d'un langage SQL tel que [[https://fr.wikipedia.org/wiki/SPARQL|SPARQL]]. | + | [[https://wiki.dbpedia.org/about|DBpedia]] est un projet participatif d'extraction de données structurées à partir de différents projets Wikimedia (c'est avant tout pour extraire les données de Wikipédia), débuté en 2007 par l'université libre de Berlin et l'université de Leipzig. Ce projet s'inscrit dans la démarche du //[[https://en.wikipedia.org/wiki/Linked_data|linked data]]// imaginé par Tim Berners-Lee. Le but étant de permettre que les données soient visibles aussi bien par des êtres humains que par des machines. Les données sont encodées au format [[https://fr.wikipedia.org/wiki/Resource_Description_Framework|RDF]]. Cette base de données peut ensuite être interrogée au moyen d'un langage SQL tel que [[https://fr.wikipedia.org/wiki/SPARQL|SPARQL]]. |
- | Au prémisse du projet, l'objectif de DBpedia était de récupérer toutes les données qui sont contenues dans les //infoboxes// (c'est une table de données résumant les informations essentiels dans une fiche Wikipedia) de Wikipedia. Ensuite, ils ont aussi récupérer diverses données comme le résumé ou bien tous les liens présents sur la pages. Ils ont pu aussi rajouter d'autres liens vers des fiches d'autres sites ou bases de données. Cette extraction (via l'extracteur MARVIN) se faisait au début du projet tous les ans, mais aujourd'hui ils arrivent à extraire l'ensemble des données de Wikipedia chaque mois. De plus actuellement, à chaque étape de l'extraction jusqu'à la publication, il y a une validation sur la plateforme [[https://databus.dbpedia.org/|Databus]] afin de corriger la syntaxe RDF, etc. | + | Aux prémisses du projet, l'objectif de DBpedia était de récupérer toutes les données qui sont contenues dans les //infoboxes// (c'est une table de données résumant les informations essentielles dans une fiche Wikipédia) de Wikipédia. Ensuite, ils ont aussi récupéré diverses données comme le résumé ou bien tous les liens présents sur la pages. Ils ont pu aussi rajouter d'autres liens vers des fiches d'autres sites ou bases de données. Cette extraction (via l'extracteur MARVIN) se faisait au début du projet tous les ans, mais aujourd'hui, ils arrivent à extraire l'ensemble des données de Wikipédia chaque mois. De plus, actuellement, à chaque étape de l'extraction jusqu'à la publication, il y a une validation sur la plateforme [[https://databus.dbpedia.org/|Databus]] afin de corriger la syntaxe RDF, etc. |
Voici le schéma complet du cycle de mis à jour de DBpedia: | Voici le schéma complet du cycle de mis à jour de DBpedia: |