Outils pour utilisateurs

Outils du site


fairdata:feuille_route_2020

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
fairdata:feuille_route_2020 [2020/04/03 12:42]
Francesco Beretta [Feuille de route]
fairdata:feuille_route_2020 [2020/05/26 11:50]
Francesco Beretta [Feuille de route]
Ligne 1: Ligne 1:
-Retour à [[atelier:​2019-2020|atelier 2019-2020]] +[[accueil|Retour]]
- +
- +
-===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR  ===== +
  
 +===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs et CSV) en données FAIR  =====
  
 ==== Descriptif sommaire du projet ==== ==== Descriptif sommaire du projet ====
Ligne 15: Ligne 12:
 \\ \\
 Le défi relevé dans cet atelier vise à réfléchir,​ collectivement,​ aux réquis des principes ​ Le défi relevé dans cet atelier vise à réfléchir,​ collectivement,​ aux réquis des principes ​
-FAIR appliqué à histoire. Quelles sont les conditions pour rendre les données de la recherche (dans ce cas des données semistructurées) accessibles dans le sens d'un processus de repliquabilité de la production ​de connaissances et de réutilisation pour de nouvelles recherches ?+FAIR appliqué à histoire. Quelles sont les conditions pour rendre les données de la recherche (dans ce cas des données semistructurées) accessibles dans le sens d'un processus de repliquabilité de la production ​des connaissances et de réutilisation pour de nouvelles recherches ?
  
 Les réponses à ces questions n'​existent pas toutes faites, l'​objectif de l'​atelier est de construire ensemble des bonnes pratiques à ce sujet, tout en partant de l'​expérience du projet [[http://​symogih.org/​|symogih.org]] et autour des applications [[https://​ontome.dataforhistory.org/​|OntoME]] de modélisation des connaissances et [[https://​www.mom.fr/​ressources-numeriques/​opentheso|Opentheso]] de gestion de vocabulaires contrôlés. Les réponses à ces questions n'​existent pas toutes faites, l'​objectif de l'​atelier est de construire ensemble des bonnes pratiques à ce sujet, tout en partant de l'​expérience du projet [[http://​symogih.org/​|symogih.org]] et autour des applications [[https://​ontome.dataforhistory.org/​|OntoME]] de modélisation des connaissances et [[https://​www.mom.fr/​ressources-numeriques/​opentheso|Opentheso]] de gestion de vocabulaires contrôlés.
Ligne 24: Ligne 21:
   - je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables   - je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables
   - je définis quelles sont les conditions de publication (licence)   - je définis quelles sont les conditions de publication (licence)
-  - je créer une page de documentation de mon projet sur le [[fairdata:accueil|wiki dédié à ce défi]]+  - je créer une page de documentation de mon projet sur le [[accueil|wiki dédié à ce défi]] ​– licence de la documentation du projet CC 4.0 BY SA donc mention explicite de l'​auteur (?)
   - je documente mon choix et les données de base sur la page dédiée à mon projet du wiki   - je documente mon choix et les données de base sur la page dédiée à mon projet du wiki
-  - je l'​inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus),​ à quels individus du monde réel (physique ou imaginaire) ils correspondent,​ et ce que sont les colonnes en tant que propriétés de ces individus. +  - je l'​inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus, mentions d'​individus,​ etc.), à quels individus du monde réel (physique ou imaginaire) ils correspondent,​ et ce que sont les colonnes en tant que propriétés de ces individus. 
-  - je modélise le fichier comme tel et les colonnes dans un projet OntoME +  - je modélise le fichier comme tel en définissant à quelle classe appartiennent ​les individus (c'​est-à-dire les lignes du ficher : personnes, mentions de personnes, d'​activités,​ etc.) 
 +  - ensuite je modélise ses colonnes ​(c'​est-à-dire les propriétés des individus) et je vérifier la présence des classes et propriétés correspondantes ​dans un [[https://​ontome.dataforhistory.org/​namespace/​3|espace de noms OntoME]] 
 +  - je complète éventuellement le modèle dans un espace de noms de OntoME 
 +  - je créer un profil correspondant à mon fichier ou mon projet, ou j'​utilise un profil existant 
 +  - je vérifier la présence des classes de mes termes et instances dans [[https://​ontomeopentheso.mom.fr/​ontomeopentheso/​index.xhtml|Opentheso]] 
 +  - j'​importe le fichier dans Pandas (Python) ou sqlite je nettoye et crée un vocabulaire avec un seul terme par entrée  
 +  - je l'​importe dans Opentheso  
 +  - je reçois des identifiants ark pour chaque terme et discute des définitions avec la communauté  
 +  - j'​aligne les termes avec les IdRef ou d'​autres référentiels 
 +  - j'​inspecte mes données après le mapping avec l'​ontologie dans OntoME ​et l'​alignement avec Opentheso 
 +  - je récupère dans mon fichier les identifiants correspondants (en utilisant Python) 
 +  - je nettoye automatiquement ou à la main les données 
 +  - avec un librairie Python RDF j'​écris dans le SPARQL ENDPOINT ​ de l'ABES dans un graphe dédié à mon projet 
 +  - je documente tout le processus sur le wiki ou dans mes carnets jupyter publiés sur GitHub 
 +  - j'​explore les données avec des librairies Python et document dans un carnet public ma démarche 
 +  - je me concerte avec d'​autres collèques et je fais une proposition de site web PyProjects afin de publier mes données et des analyses, éventuellement interactives sous forme lisible par l'​humain.
  
  
 \\ \\
  
- 
-1. j'​importe le fichier dans Pandas (Python) ou sqlite ​ 
-2. je l'​inspecte,​ modélise, décide ce que sont les lignes (individus) et les colonnes: leur propriétés ​ 
-des mentions de personnes ou des personnes (ou des sites archéologiques,​ etc.)  
-les propriétés:​ ici lieux de naissance, dates, enseignements,​ etc.  
-3. je crée ou utilise un profil dans OntoME et je fais un mapping ontologique:​ qu'​est-ce qu'un personne, un enseignement,​ un titre académique:​  licencié en droit  
-4. je nettoye et crée un vocabulaire avec un seul terme par entrée ​ 
-5. je l'​importe dans Opentheso ​ 
-6. je reçois des ark et discute des définitions avec la communauté ​ 
-7. j'​aligne avec les IdRef  
-8. je mouline un peu le tout avec Python ​ 
-9. avec un librairie Python RDF j'​écris dans le SPARQL ENDPOINT  de l'​ABES ​ 
-10. on peut réutiliser les données ​ 
-11. on demande à Alexandre de faire un site web Py Projects pour publier des visualisations ​ 
fairdata/feuille_route_2020.txt · Dernière modification: 2020/06/22 11:18 par Vincent Alamercery