Différences

Ci-dessous, les différences entre deux révisions de la page.

--- fairdata:good_practices [2020/05/14 12:08]
Pierre Vernus
+++ fairdata:good_practices [2020/05/14 15:55]
Pierre Vernus
@@ Ligne 6: / Ligne 6: @@
 ===== Prendre connaissance des données =====
-Un petit script Python qui permet de prendre connaissance du contenu des données contenu dans un ou des tableurs excel. Le fichier à télécharger ici est zippé, il doit donc être décompressé.
+La première étape consiste à prendre connaissance du contenu des données que l'on veut restructurer pour les transformer en données FAIR.
+Voici un petit script Python qui facilite les choses lorsqu'on doit traiter des données stockées sous forme de tableau dans un tableur. Il permet de prendre connaissance contenu des données contenu dans un ou des tableurs excel (si on dispose d'un fichier .ods ou .csv il suffit de le convertir avec LibreOffice). Le fichier à télécharger  {{:fairdata:exploration_donnees.zip|ici}} est zippé, il doit donc être décompressé.
 Le script permet d'obtenir :
@@ Ligne 12: / Ligne 14: @@
   * à partir d'un tableur avec plusieurs feuilles, autant de fichiers qu'il y a de feuilles dans le fichier en entrée. Chaque fichier contient lui-même autant de feuille que de colonne dans le tableau qu'il résume.
-Le dossier *exploration_donnees* contient trois sous-dossiers :
+N.B. : les tableaux doivent être bien structurés. Notamment éviter :
+  * les cellules fusionnées,
+  * les tableaux dont les titres de colonnes comportent des accents et des espaces,
+  * les tableaux avec des lignes vides avant le tableau
+Il est aussi préférable d'avoir un encodage en UTF-8.
+Le dossier //exploration_donnees// contient trois sous-dossiers :
-  * le dossier *data* dans lequel il faut placer le ou les fichiers des tableurs excel que l'on veut explorer ;
+  * le dossier //data// dans lequel il faut placer le ou les fichiers des tableurs excel que l'on veut explorer ;
-  * le dossier *out* dans lequel on récupère le ou les fichiers produits contenant les distribution des des modalités des colonnes des tableaux traités.
+  * le dossier //out// dans lequel on récupère le ou les fichiers produits contenant les distribution des des modalités des colonnes des tableaux traités.
-  * le dossier *scripts* contenant le script python.
+  * le dossier //scripts// contenant le script python.
 Les opérations à effectuer sont les suivantes :
-  * placer le ou les fichiers à explorer dans le dosseir *data*
+  * placer le ou les fichiers à explorer dans le dossier //data//
   * ouvrir Spyder (ou un autre IDE)
-  * lancer le script (flèche verte dans Spyder). Selon le nombre de fichiers, le nombre de feuillles dans chacun d'eux et le volume des données, il peut être plus ou moins long.
+  * lancer le script (flèche verte dans Spyder). Selon le nombre de fichiers, le nombre de feuilles dans chacun d'eux et le volume des données, il peut être plus ou moins long.
-  * récupérer les fichiers avec les distributions dans le dossier *out*
+  * récupérer les fichiers avec les distributions dans le dossier //out//

Wiki de l'ARHNAxe de recherche en histoire numériqueLARHRA UMR5190

Outils pour utilisateurs

Outils du site

Différences

Outils de la page

Wiki de l'ARHN

Axe de recherche en histoire numérique
LARHRA UMR5190