Outils pour utilisateurs

Outils du site


besson_sylvain:traitements_statistiques

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
besson_sylvain:traitements_statistiques [2021/07/23 13:59]
Sylvain Besson [Étude des propriétés]
besson_sylvain:traitements_statistiques [2021/07/23 18:33] (Version actuelle)
Sylvain Besson [Analyse des correspondances multiples]
Ligne 3: Ligne 3:
 ====== traitements statistiques ====== ====== traitements statistiques ======
  
-Nous allons dorénavant réaliser différents traitements statistiques et étudier notre population d'​économiste et de juriste. Nous allons concentrer notre étude sur les données présentes sur Wikidata, car cette base de données fournie suffisamment d'​individu (env. 130 000) pour réaliser une étude complète. Mais bien sûr, il faudrait aussi ajouter les données présentes sur BnF Data et DBpedia pour avoir une étude plus large. ​+Nous allons dorénavant réaliser différents traitements statistiques et étudier notre population d'​économiste et de juriste. Nous allons concentrer notre étude sur les données présentes sur Wikidata, car cette base de données fournie suffisamment d'​individu (env. 130 000) pour réaliser une étude complète. Mais bien sûr, il faudrait aussi ajouter les données présentes sur BnF Data et DBpedia pour avoir une étude plus large. La totalité des analyses statistiques est réalisée sur des carnets jupyterlab.
  
  
Ligne 432: Ligne 432:
  
 {{ :​projets_individuels:​properties_combination_occupation_educatedat_nationality_gender_.png?​direct&​700 | Distribution avec les propriétés combinées: "​profession",​ "lieu d'​étude",​ "​nationalité et "​genre"​}} {{ :​projets_individuels:​properties_combination_occupation_educatedat_nationality_gender_.png?​direct&​700 | Distribution avec les propriétés combinées: "​profession",​ "lieu d'​étude",​ "​nationalité et "​genre"​}}
- 
- 
-Allez vers la [[etapes|page précédente - étapes du projet]] 
  
 ====== traitements statistiques ====== ====== traitements statistiques ======
Ligne 725: Ligne 722:
 Une fois que le graphe est totalement créé, il est possible de le visualiser. Cela se présente de la façon suivante: ​ Une fois que le graphe est totalement créé, il est possible de le visualiser. Cela se présente de la façon suivante: ​
  
-{{ :projets_individuels:weigth_graph_properties_without_doctorate_bis.png?direct&​900 ​|Graphe des propriétés}}+{{ :besson_sylvain:weigth_graph_properties.png?direct | Graphe des propriétés}}
  
  
Ligne 732: Ligne 729:
 Tout d'​abord,​ il faut choisir les propriétés que l'on souhaite observer plus précisément. Pour cela, les précédentes analyses peuvent être d'une grande aide.  Tout d'​abord,​ il faut choisir les propriétés que l'on souhaite observer plus précisément. Pour cela, les précédentes analyses peuvent être d'une grande aide. 
  
-Dans notre casn nous avons retenu le "lieu de naissance, le "​genre",​ la "​nationalité", ​la le "lieu d'​étude",​ la "​profession",​ l'"​employeur"​ et le "​poste"​.+Dans notre cas, nous avons retenu le "lieu de naissance, le "​genre",​ la "​nationalité",​ le "lieu d'​étude",​ la "​profession",​ l'"​employeur"​ et le "​poste"​.
  
 On commence par les mettre sous forme de série : On commence par les mettre sous forme de série :
Ligne 817: Ligne 814:
 Dans ces représentations,​ il y a quelques éléments qui faut faire attention pour bien les comprendre. Tous d'​abord,​ chaque propriété est représentée dans sa visualisation. Et étant donné qu'​elle est comparée à elle-même, elle a nécessairement le maximum d'​effectif. Ensuite, dans toutes les visualisations l'​échelle n'est pas la même, car cela dépend de l'​effectif de la propriété (ex: la propriété "​genre"​ a quasiment 140 000 individus alors que "​employer"​ n'en a que 25 000). C'est un biais visuel qui faut prendre en compte lors d'une analyse. Dans ces représentations,​ il y a quelques éléments qui faut faire attention pour bien les comprendre. Tous d'​abord,​ chaque propriété est représentée dans sa visualisation. Et étant donné qu'​elle est comparée à elle-même, elle a nécessairement le maximum d'​effectif. Ensuite, dans toutes les visualisations l'​échelle n'est pas la même, car cela dépend de l'​effectif de la propriété (ex: la propriété "​genre"​ a quasiment 140 000 individus alors que "​employer"​ n'en a que 25 000). C'est un biais visuel qui faut prendre en compte lors d'une analyse.
  
-Une autre façon de faire qui permet d'​être plus précis dans l'​analyse de filtrer avec les différentes variables que l'on souhaite. Par exemple, il est possible de filtrer les propriétés "​profession",​ "lieu d'​étude"​ et "​nationalité"​ et de vérifier le nombre de fois où ces trois propriétés apparaissaient ensembles. La fonction se présente de la façon suivante :+Une autre façon de faire qui permet d'​être plus précis dans l'​analyse ​est de filtrer avec les différentes variables que l'on souhaite. Par exemple, il est possible de filtrer les propriétés "​profession",​ "lieu d'​étude"​ et "​nationalité"​ et de vérifier le nombre de fois où ces trois propriétés apparaissaient ensembles. La fonction se présente de la façon suivante :
  
 <code python> <code python>
Ligne 918: Ligne 915:
 =====Analyse des correspondances multiples===== =====Analyse des correspondances multiples=====
  
-L'​analyse des correspondances multiples est une méthode permettant d'​étudier plusieurs variables qualitatives en même temps. Cela consiste à encoder les variables de façon à ce qu'​elles soient interprétées comme des variables quantitatives. C'​est-à-dire que chaque ​modalités ​d'une variable est replacé par des 0 et des 1. Il est ensuite possible de voir les proximités qu'il peut avoir entre les modalités et les proximités entre les individus. Pour réaliser l'ACM sur Python, vous pouvez consulter ce **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​main/​Notebooks/​Analysis_MCA.ipynb|carnet]]**.+L'​analyse des correspondances multiples est une méthode permettant d'​étudier plusieurs variables qualitatives en même temps. Cela consiste à encoder les variables de façon à ce qu'​elles soient interprétées comme des variables quantitatives. C'​est-à-dire que chaque ​modalité ​d'une variable est replacé par des 0 et des 1. Il est ensuite possible de voir les proximités qu'il peut avoir entre les modalités et les proximités entre les individus. Pour réaliser l'ACM sur Python, vous pouvez consulter ce **[[https://​github.com/​Semantic-Data-for-Humanities/​Economists_Jurists/​blob/​main/​Notebooks/​Analysis_MCA.ipynb|carnet]]**.
  
 ---------------------------------------- ----------------------------------------
besson_sylvain/traitements_statistiques.1627041584.txt.gz · Dernière modification: 2021/07/23 13:59 par Sylvain Besson