Outils pour utilisateurs

Outils du site


fairdata:good_practices

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
fairdata:good_practices [2020/05/14 12:10]
Pierre Vernus [Prendre connaissance des données]
fairdata:good_practices [2020/05/14 15:55] (Version actuelle)
Pierre Vernus
Ligne 6: Ligne 6:
 ===== Prendre connaissance des données ===== ===== Prendre connaissance des données =====
  
-Un petit script Python qui permet de prendre connaissance ​du contenu des données contenu dans un ou des tableurs excel. Le fichier à télécharger ici est zippé, il doit donc être décompressé.+La première étape consiste à prendre connaissance du contenu des données que l'on veut restructurer pour les transformer en données FAIR. 
 + 
 +Voici un petit script Python qui facilite les choses lorsqu'​on doit traiter des données stockées sous forme de tableau dans un tableur. Il permet de prendre connaissance contenu des données contenu dans un ou des tableurs excel (si on dispose d'un fichier .ods ou .csv il suffit de le convertir avec LibreOffice). Le fichier à télécharger ​ ​{{:​fairdata:​exploration_donnees.zip|ici}} est zippé, il doit donc être décompressé.
  
 Le script permet d'​obtenir :  Le script permet d'​obtenir : 
   * à partir d'un tableur avec une seule feuille un autre tableur dont chaque feuille contient la distribution des modalités contenu dans cette colonne. Ainsi, si le tableur de départ contenait un tableau avec 6 colonnes, le fichier de sortie contiendra 6 feuilles et dans chacune d'elle la liste des modalités apparaissant dans la colonne et le nombre d'​occurrence de chacune de ces modalités.   * à partir d'un tableur avec une seule feuille un autre tableur dont chaque feuille contient la distribution des modalités contenu dans cette colonne. Ainsi, si le tableur de départ contenait un tableau avec 6 colonnes, le fichier de sortie contiendra 6 feuilles et dans chacune d'elle la liste des modalités apparaissant dans la colonne et le nombre d'​occurrence de chacune de ces modalités.
   * à partir d'un tableur avec plusieurs feuilles, autant de fichiers qu'il y a de feuilles dans le fichier en entrée. Chaque fichier contient lui-même autant de feuille que de colonne dans le tableau qu'il résume.   * à partir d'un tableur avec plusieurs feuilles, autant de fichiers qu'il y a de feuilles dans le fichier en entrée. Chaque fichier contient lui-même autant de feuille que de colonne dans le tableau qu'il résume.
 +
 +N.B. : les tableaux doivent être bien structurés. Notamment éviter :
 +
 +  * les cellules fusionnées, ​
 +  * les tableaux dont les titres de colonnes comportent des accents et des espaces, ​
 +  * les tableaux avec des lignes vides avant le tableau
 +
 +Il est aussi préférable d'​avoir un encodage en UTF-8.
  
 Le dossier //​exploration_donnees//​ contient trois sous-dossiers :  Le dossier //​exploration_donnees//​ contient trois sous-dossiers : 
fairdata/good_practices.1589451007.txt.gz · Dernière modification: 2020/05/14 12:10 par Pierre Vernus