Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
fairdata:feuille_route_2020 [2020/04/03 13:38] Francesco Beretta [Feuille de route] |
fairdata:feuille_route_2020 [2020/06/22 11:18] (Version actuelle) Vincent Alamercery |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | Retour à [[atelier:2019-2020|atelier 2019-2020]] | + | [[accueil|Retour]] |
- | + | ||
- | + | ||
- | ===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR ===== | + | |
+ | ===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs et CSV) en données FAIR ===== | ||
==== Descriptif sommaire du projet ==== | ==== Descriptif sommaire du projet ==== | ||
Ligne 15: | Ligne 12: | ||
\\ | \\ | ||
Le défi relevé dans cet atelier vise à réfléchir, collectivement, aux réquis des principes | Le défi relevé dans cet atelier vise à réfléchir, collectivement, aux réquis des principes | ||
- | FAIR appliqué à histoire. Quelles sont les conditions pour rendre les données de la recherche (dans ce cas des données semistructurées) accessibles dans le sens d'un processus de repliquabilité de la production de connaissances et de réutilisation pour de nouvelles recherches ? | + | FAIR appliqué à histoire. Quelles sont les conditions pour rendre les données de la recherche (dans ce cas des données semistructurées) accessibles dans le sens d'un processus de repliquabilité de la production des connaissances et de réutilisation pour de nouvelles recherches ? |
Les réponses à ces questions n'existent pas toutes faites, l'objectif de l'atelier est de construire ensemble des bonnes pratiques à ce sujet, tout en partant de l'expérience du projet [[http://symogih.org/|symogih.org]] et autour des applications [[https://ontome.dataforhistory.org/|OntoME]] de modélisation des connaissances et [[https://www.mom.fr/ressources-numeriques/opentheso|Opentheso]] de gestion de vocabulaires contrôlés. | Les réponses à ces questions n'existent pas toutes faites, l'objectif de l'atelier est de construire ensemble des bonnes pratiques à ce sujet, tout en partant de l'expérience du projet [[http://symogih.org/|symogih.org]] et autour des applications [[https://ontome.dataforhistory.org/|OntoME]] de modélisation des connaissances et [[https://www.mom.fr/ressources-numeriques/opentheso|Opentheso]] de gestion de vocabulaires contrôlés. | ||
Ligne 24: | Ligne 21: | ||
- je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables | - je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables | ||
- je définis quelles sont les conditions de publication (licence) | - je définis quelles sont les conditions de publication (licence) | ||
- | - je créer une page de documentation de mon projet sur le [[fairdata:accueil|wiki dédié à ce défi]] | + | - je créer une page de documentation de mon projet sur le [[accueil|wiki dédié à ce défi]] – licence de la documentation du projet CC 4.0 BY SA donc mention explicite de l'auteur (?) |
- je documente mon choix et les données de base sur la page dédiée à mon projet du wiki | - je documente mon choix et les données de base sur la page dédiée à mon projet du wiki | ||
- je l'inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus, mentions d'individus, etc.), à quels individus du monde réel (physique ou imaginaire) ils correspondent, et ce que sont les colonnes en tant que propriétés de ces individus. | - je l'inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus, mentions d'individus, etc.), à quels individus du monde réel (physique ou imaginaire) ils correspondent, et ce que sont les colonnes en tant que propriétés de ces individus. | ||
- | - je modélise le fichier comme tel, puis ses colonnes dans un projet OntoME | + | - je modélise le fichier comme tel en définissant à quelle classe appartiennent les individus (c'est-à-dire les lignes du ficher : personnes, mentions de personnes, d'activités, etc.) |
+ | - ensuite je modélise ses colonnes (c'est-à-dire les propriétés des individus) et je vérifie la présence des classes et propriétés correspondantes dans un [[https://ontome.dataforhistory.org/namespace/3|espace de noms OntoME]] | ||
+ | - je complète éventuellement le modèle dans un espace de noms de OntoME | ||
+ | - je créer un profil correspondant à mon fichier ou mon projet, ou j'utilise un profil existant | ||
+ | - je vérifier la présence des classes de mes termes et instances dans [[https://ontomeopentheso.mom.fr/ontomeopentheso/index.xhtml|Opentheso]] | ||
- j'importe le fichier dans Pandas (Python) ou sqlite je nettoye et crée un vocabulaire avec un seul terme par entrée | - j'importe le fichier dans Pandas (Python) ou sqlite je nettoye et crée un vocabulaire avec un seul terme par entrée | ||
- je l'importe dans Opentheso | - je l'importe dans Opentheso | ||
Ligne 36: | Ligne 37: | ||
- je nettoye automatiquement ou à la main les données | - je nettoye automatiquement ou à la main les données | ||
- avec un librairie Python RDF j'écris dans le SPARQL ENDPOINT de l'ABES dans un graphe dédié à mon projet | - avec un librairie Python RDF j'écris dans le SPARQL ENDPOINT de l'ABES dans un graphe dédié à mon projet | ||
- | - je document tout le processus sur le wiki ou dans mes carnets jupyter publiés sur GitHub | + | - je documente tout le processus sur le wiki ou dans mes carnets jupyter publiés sur GitHub |
- j'explore les données avec des librairies Python et document dans un carnet public ma démarche | - j'explore les données avec des librairies Python et document dans un carnet public ma démarche | ||
- je me concerte avec d'autres collèques et je fais une proposition de site web PyProjects afin de publier mes données et des analyses, éventuellement interactives sous forme lisible par l'humain. | - je me concerte avec d'autres collèques et je fais une proposition de site web PyProjects afin de publier mes données et des analyses, éventuellement interactives sous forme lisible par l'humain. |