Différences

Ci-dessous, les différences entre deux révisions de la page.

--- fairdata:feuille_route_2020 [2020/04/03 12:37]
Francesco Beretta [Descriptif sommaire du projet]
+++ fairdata:feuille_route_2020 [2020/04/03 15:05]
Francesco Beretta [Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR]
@@ Ligne 2: / Ligne 2: @@
-===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs CSV) en données FAIR  =====
+===== Comment transformer les données hétérogènes semi-structurées (notamment issues de tableurs et CSV) en données FAIR  =====
@@ Ligne 22: / Ligne 22: @@
 ==== Feuille de route ====
+  - je répère un fichier Excel ou CSV contenant des données que je veux publier et rendre réutilisables
+  - je définis quelles sont les conditions de publication (licence)
+  - je créer une page de documentation de mon projet sur le [[fairdata:accueil|wiki dédié à ce défi]] – licence de la documentation du projet CC 4.0 BY SA donc mention explicite de l'auteur (?)
+  - je documente mon choix et les données de base sur la page dédiée à mon projet du wiki
+  - je l'inspecte et analyse le contenu du fichier. En particulier je définis ce que sont les lignes (individus, mentions d'individus, etc.), à quels individus du monde réel (physique ou imaginaire) ils correspondent, et ce que sont les colonnes en tant que propriétés de ces individus.
+  - je modélise le fichier comme tel, puis ses colonnes dans un projet OntoME
+  - j'importe le fichier dans Pandas (Python) ou sqlite je nettoye et crée un vocabulaire avec un seul terme par entrée
+  - je l'importe dans Opentheso
+  - je reçois des identifiants ark pour chaque terme et discute des définitions avec la communauté
+  - j'aligne les termes avec les IdRef ou d'autres référentiels
+  - j'inspecte mes données après le mapping avec l'ontologie dans OntoME et l'alignement avec Opentheso
+  - je récupère dans mon fichier les identifiants correspondants (en utilisant Python)
+  - je nettoye automatiquement ou à la main les données
+  - avec un librairie Python RDF j'écris dans le SPARQL ENDPOINT  de l'ABES dans un graphe dédié à mon projet
+  - je document tout le processus sur le wiki ou dans mes carnets jupyter publiés sur GitHub
+  - j'explore les données avec des librairies Python et document dans un carnet public ma démarche
+  - je me concerte avec d'autres collèques et je fais une proposition de site web PyProjects afin de publier mes données et des analyses, éventuellement interactives sous forme lisible par l'humain.
+\\
-. j'importe le fichier dans Pandas (Python) ou sqlite
-. je l'inspecte, modélise, décide ce que sont les lignes (individus) et les colonnes: leur propriétés
-des mentions de personnes ou des personnes (ou des sites archéologiques, etc.)
-les propriétés: ici lieux de naissance, dates, enseignements, etc.
-. je crée ou utilise un profil dans OntoME et je fais un mapping ontologique: qu'est-ce qu'un personne, un enseignement, un titre académique:  licencié en droit
-. je nettoye et crée un vocabulaire avec un seul terme par entrée
-. je l'importe dans Opentheso
-. je reçois des ark et discute des définitions avec la communauté
-. j'aligne avec les IdRef
-. je mouline un peu le tout avec Python
-. avec un librairie Python RDF j'écris dans le SPARQL ENDPOINT  de l'ABES
-. on peut réutiliser les données
-. on demande à Alexandre de faire un site web Py Projects pour publier des visualisations

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190

Outils pour utilisateurs

Outils du site

Différences

Outils de la page

Wiki de l'ARHN

Axe de recherche en histoire numérique
LARHRA UMR5190