Outils pour utilisateurs

Outils du site


fairdata:feuille_route_2020

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
fairdata:feuille_route_2020 [2020/04/03 12:37]
Francesco Beretta [Descriptif sommaire du projet]
fairdata:feuille_route_2020 [2020/06/22 11:18] (Version actuelle)
Vincent Alamercery
Ligne 1: Ligne 1:
-Retour à [[atelier:​2019-2020|atelier 2019-2020]] +[[accueil|Retour]]
- +
- +
-===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR  ===== +
  
 +===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs et CSV) en données FAIR  =====
  
 ==== Descriptif sommaire du projet ==== ==== Descriptif sommaire du projet ====
Ligne 15: Ligne 12:
 \\ \\
 Le défi relevé dans cet atelier vise à réfléchir,​ collectivement,​ aux réquis des principes ​ Le défi relevé dans cet atelier vise à réfléchir,​ collectivement,​ aux réquis des principes ​
-FAIR appliqué à histoire. Quelles sont les conditions pour rendre les données de la recherche (dans ce cas des données semistructurées) accessibles dans le sens d'un processus de repliquabilité de la production ​de connaissances et de réutilisation pour de nouvelles recherches ?+FAIR appliqué à histoire. Quelles sont les conditions pour rendre les données de la recherche (dans ce cas des données semistructurées) accessibles dans le sens d'un processus de repliquabilité de la production ​des connaissances et de réutilisation pour de nouvelles recherches ?
  
 Les réponses à ces questions n'​existent pas toutes faites, l'​objectif de l'​atelier est de construire ensemble des bonnes pratiques à ce sujet, tout en partant de l'​expérience du projet [[http://​symogih.org/​|symogih.org]] et autour des applications [[https://​ontome.dataforhistory.org/​|OntoME]] de modélisation des connaissances et [[https://​www.mom.fr/​ressources-numeriques/​opentheso|Opentheso]] de gestion de vocabulaires contrôlés. Les réponses à ces questions n'​existent pas toutes faites, l'​objectif de l'​atelier est de construire ensemble des bonnes pratiques à ce sujet, tout en partant de l'​expérience du projet [[http://​symogih.org/​|symogih.org]] et autour des applications [[https://​ontome.dataforhistory.org/​|OntoME]] de modélisation des connaissances et [[https://​www.mom.fr/​ressources-numeriques/​opentheso|Opentheso]] de gestion de vocabulaires contrôlés.
  
 +\\
 ==== Feuille de route ==== ==== Feuille de route ====
  
 +  - je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables
 +  - je définis quelles sont les conditions de publication (licence)
 +  - je créer une page de documentation de mon projet sur le [[accueil|wiki dédié à ce défi]] – licence de la documentation du projet CC 4.0 BY SA donc mention explicite de l'​auteur (?)
 +  - je documente mon choix et les données de base sur la page dédiée à mon projet du wiki
 +  - je l'​inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus, mentions d'​individus,​ etc.), à quels individus du monde réel (physique ou imaginaire) ils correspondent,​ et ce que sont les colonnes en tant que propriétés de ces individus.
 +  - je modélise le fichier comme tel en définissant à quelle classe appartiennent les individus (c'​est-à-dire les lignes du ficher : personnes, mentions de personnes, d'​activités,​ etc.)
 +  - ensuite je modélise ses colonnes (c'​est-à-dire les propriétés des individus) et je vérifie la présence des classes et propriétés correspondantes dans un [[https://​ontome.dataforhistory.org/​namespace/​3|espace de noms OntoME]]
 +  - je complète éventuellement le modèle dans un espace de noms de OntoME
 +  - je créer un profil correspondant à mon fichier ou mon projet, ou j'​utilise un profil existant
 +  - je vérifier la présence des classes de mes termes et instances dans [[https://​ontomeopentheso.mom.fr/​ontomeopentheso/​index.xhtml|Opentheso]]
 +  - j'​importe le fichier dans Pandas (Python) ou sqlite je nettoye et crée un vocabulaire avec un seul terme par entrée ​
 +  - je l'​importe dans Opentheso ​
 +  - je reçois des identifiants ark pour chaque terme et discute des définitions avec la communauté ​
 +  - j'​aligne les termes avec les IdRef ou d'​autres référentiels
 +  - j'​inspecte mes données après le mapping avec l'​ontologie dans OntoME et l'​alignement avec Opentheso
 +  - je récupère dans mon fichier les identifiants correspondants (en utilisant Python)
 +  - je nettoye automatiquement ou à la main les données
 +  - avec un librairie Python RDF j'​écris dans le SPARQL ENDPOINT ​ de l'ABES dans un graphe dédié à mon projet
 +  - je documente tout le processus sur le wiki ou dans mes carnets jupyter publiés sur GitHub
 +  - j'​explore les données avec des librairies Python et document dans un carnet public ma démarche
 +  - je me concerte avec d'​autres collèques et je fais une proposition de site web PyProjects afin de publier mes données et des analyses, éventuellement interactives sous forme lisible par l'​humain.
 +
 +
 +\\
  
-1. j'​importe le fichier dans Pandas (Python) ou sqlite ​ 
-2. je l'​inspecte,​ modélise, décide ce que sont les lignes (individus) et les colonnes: leur propriétés ​ 
-des mentions de personnes ou des personnes (ou des sites archéologiques,​ etc.)  
-les propriétés:​ ici lieux de naissance, dates, enseignements,​ etc.  
-3. je crée ou utilise un profil dans OntoME et je fais un mapping ontologique:​ qu'​est-ce qu'un personne, un enseignement,​ un titre académique:​  licencié en droit  
-4. je nettoye et crée un vocabulaire avec un seul terme par entrée ​ 
-5. je l'​importe dans Opentheso ​ 
-6. je reçois des ark et discute des définitions avec la communauté ​ 
-7. j'​aligne avec les IdRef  
-8. je mouline un peu le tout avec Python ​ 
-9. avec un librairie Python RDF j'​écris dans le SPARQL ENDPOINT  de l'​ABES ​ 
-10. on peut réutiliser les données ​ 
-11. on demande à Alexandre de faire un site web Py Projects pour publier des visualisations ​ 
fairdata/feuille_route_2020.1585910233.txt.gz · Dernière modification: 2020/04/03 12:37 par Francesco Beretta