Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
fairdata:feuille_route_2020 [2020/04/03 12:37] Francesco Beretta [Descriptif sommaire du projet] |
fairdata:feuille_route_2020 [2020/04/03 15:05] Francesco Beretta [Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR] |
||
---|---|---|---|
Ligne 2: | Ligne 2: | ||
- | ===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR ===== | + | ===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs et CSV) en données FAIR ===== |
Ligne 22: | Ligne 22: | ||
==== Feuille de route ==== | ==== Feuille de route ==== | ||
+ | - je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables | ||
+ | - je définis quelles sont les conditions de publication (licence) | ||
+ | - je créer une page de documentation de mon projet sur le [[fairdata:accueil|wiki dédié à ce défi]] – licence de la documentation du projet CC 4.0 BY SA donc mention explicite de l'auteur (?) | ||
+ | - je documente mon choix et les données de base sur la page dédiée à mon projet du wiki | ||
+ | - je l'inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus, mentions d'individus, etc.), à quels individus du monde réel (physique ou imaginaire) ils correspondent, et ce que sont les colonnes en tant que propriétés de ces individus. | ||
+ | - je modélise le fichier comme tel, puis ses colonnes dans un projet OntoME | ||
+ | - j'importe le fichier dans Pandas (Python) ou sqlite je nettoye et crée un vocabulaire avec un seul terme par entrée | ||
+ | - je l'importe dans Opentheso | ||
+ | - je reçois des identifiants ark pour chaque terme et discute des définitions avec la communauté | ||
+ | - j'aligne les termes avec les IdRef ou d'autres référentiels | ||
+ | - j'inspecte mes données après le mapping avec l'ontologie dans OntoME et l'alignement avec Opentheso | ||
+ | - je récupère dans mon fichier les identifiants correspondants (en utilisant Python) | ||
+ | - je nettoye automatiquement ou à la main les données | ||
+ | - avec un librairie Python RDF j'écris dans le SPARQL ENDPOINT de l'ABES dans un graphe dédié à mon projet | ||
+ | - je document tout le processus sur le wiki ou dans mes carnets jupyter publiés sur GitHub | ||
+ | - j'explore les données avec des librairies Python et document dans un carnet public ma démarche | ||
+ | - je me concerte avec d'autres collèques et je fais une proposition de site web PyProjects afin de publier mes données et des analyses, éventuellement interactives sous forme lisible par l'humain. | ||
+ | |||
+ | |||
+ | \\ | ||
- | 1. j'importe le fichier dans Pandas (Python) ou sqlite | ||
- | 2. je l'inspecte, modélise, décide ce que sont les lignes (individus) et les colonnes: leur propriétés | ||
- | des mentions de personnes ou des personnes (ou des sites archéologiques, etc.) | ||
- | les propriétés: ici lieux de naissance, dates, enseignements, etc. | ||
- | 3. je crée ou utilise un profil dans OntoME et je fais un mapping ontologique: qu'est-ce qu'un personne, un enseignement, un titre académique: licencié en droit | ||
- | 4. je nettoye et crée un vocabulaire avec un seul terme par entrée | ||
- | 5. je l'importe dans Opentheso | ||
- | 6. je reçois des ark et discute des définitions avec la communauté | ||
- | 7. j'aligne avec les IdRef | ||
- | 8. je mouline un peu le tout avec Python | ||
- | 9. avec un librairie Python RDF j'écris dans le SPARQL ENDPOINT de l'ABES | ||
- | 10. on peut réutiliser les données | ||
- | 11. on demande à Alexandre de faire un site web Py Projects pour publier des visualisations |