SlideShare a Scribd company logo
1 of 60
FABRIKAM
MODÈLE DE PRÉDICTION DE REVENUS
A c q u i s i t i o n d e n o u v e a u x c l i e n t s
E q u i t a b l e B a n k
Michael Fumery – Service Data – V01-01
FABRIKAM
SOMMAIRE
Le groupe souhaite cibler de nouveaux clients potentiels, plus
particulièrement les jeunes en âge d'ouvrir leur tout premier compte
bancaire. Cependant, il est nécessaire de cibler les prospects les plus
susceptibles d'avoir, plus tard dans leur vie, de hauts revenus.
Notre équipe Datas a donc reçu pour mission de créer un modèle
permettant de déterminer le revenu potentiel d'une personne.
2
1. Présentation des sources de données,
2. Construction & description du dataset
étendu pour l’analyse,
3. Analyse de la diversité des pays
sélectionnés par Clustering,
4. Traitement des coefficients d’élasticité et
distribution conditionnelle des revenus,
5. Création des modèles ANOVA et
régressions linéaires,
6. Tests sur le modèle sélectionné.
FABRIKAM
LES SOURCES
DE DONNÉES
UTILISÉES …
W o r l d I n c o m e D i s t r i b u t i o n
3
FABRIKAM
FABRIKAM
DONNÉES DE LA
WORLD INCOME
4
• Ce fichier CSV contient les données de la
distribution des revenus d’un bon
nombre de pays pour 2008.
• Ces revenus sont traités en centiles de la
population pour la donnée Income
(revenu moyen de la classe).
• On remarque que certaines données pour
la variable « gdpppp » sont manquantes.
FABRIKAM
FABRIKAM 5
Nous avons donc traité les données
manquantes :
• 2 Pays concernés :
• Le Kosovo (XKX)
• West Bank and Gaza (PSE)
• Les données ont été récupérées
sur le site de la World Bank et
appliqués à tous les quantiles
pour chacun des pays.
• Nous avons donc à présent 11 599
individus également dans la
variable « gdpppp ».
FABRIKAM
FABRIKAM 6
Description du dataset :
• Le jeu de données compte donc
116 pays,
• Plusieurs années sont présentes,
s’étalant de 2004 à 2011,
• 1 quantile est donc absent : 116
pays x 100 quantiles = 11600.
Nous avons vérifié la liste des pays
ayant des données autres que 2008,
et pour cette liste, aucune autre
donnée n’est disponible en 2008.
Nous les conservons donc pour ne
pas se priver de ces pays.
FABRIKAM
FABRIKAM
1
5
15
76
12
6
1
0
10
20
30
40
50
60
70
80
2004 2006 2007 2008 2009 2010 2011
Répartition des pays présents par années
Les 116 pays du jeu de données de la World
Income Distribution sont donc répartis sur
7 années de 2004 à 2011.
Chacun de ces pays n’est présent que pour
1 seule année (pas de doublons)
Après de nombreuses recherches de datas, les répartitions
en centiles des données de la world income pour ces pays
en 2008 sont introuvables. Nous avons donc travaillé avec
ces différentes années.
7
FABRIKAM
FABRIKAM 8
Recherche du quantile manquant :
Après analyse avec Python et Pandas,
nous avons déterminé que le quantile
manquant est le 41ème centile de la
Lituanie (LTU)
Grâce à la fonction Regplot de Seaborn,
nous avons pu extrapoler la valeur de ce
quantile manquant et lui affecter dans le
dataset sa valeur 4870
A ce stade, toutes les données
manquantes de ce dataset ont été
complétées. Nous avons inséré la table
dans une base MySQL.
Projection des quantiles 20 à 60 de la Lituanie
FABRIKAM
FABRIKAM
DONNÉES DE LA
POPULATION
9
• Les datas population ont été téléchargées
sur le site de la World Bank.
• Population.csv, converti en dataframe
Pandas nous donne la population de
chaque pays depuis 1960.
• Metadata_Country.csv contient des
données de classification comme la
région ou le groupe de revenus.
Nous avons créé un dataframe étendu avec
ces données combinées pour les années de
2004 à 2011.
FABRIKAM
FABRIKAM
6.408911
6.56992
6.651302
6.733924
6.816505
6.898733
6.97968
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
7
7.1
2004 2006 2007 2008 2009 2010 2011
Population du dataset 2004 – 2011
en Milliard d’habitants.
Nettoyage et vérification des données de
population :
• Nettoyages effectués :
• Suppression des agglomérats
• Suppression des non-classifiés
• Nous avons ensuite vérifié la population
mondiale par année du jeu de données.
Ces données semblent cohérentes pour
les données mondiales.
Les données ont ensuite été passées en
ligne puis insérées dans la base MySQL.
10
FABRIKAM
FABRIKAM
LES INDICES DE
GINI
11
• Les datas sur l’indice de Gini des pays ont
été téléchargées sur le site de la World
Bank.
• Après plusieurs manipulations avec
Python, on remarque que de nombreux
indices sont manquants.
• Nous stockons donc ces données dans la
base MySQL. Les données manquantes
seront recalculées ensuite.
Nous avons à présent stocké les données
nettoyées de la World Income, de
population et les indices de Gini. Un
dataframe étendu doit être créé pour la
suite des manipulations.
FABRIKAM
CRÉATION DU
DATSET FINAL
C a l c u l d e s d o n n é e s m a n q u a n t e s
12
FABRIKAM 13
JOINTURE DES TABLES MYSQL
FABRIKAM
FABRIKAM 14
Mise à jour des données de
Taïwan :
On remarque dans la fonction
info() que les données de
population, région et income
group sont manquantes pour
ce pays.
Nous les avons complétées
avec les données croisées de
plusieurs sources.
FABRIKAM
FABRIKAM 15
Calcul des indices de Gini manquants :
Nous avons utilisé les calculs de la
courbe de Lorenz et son AUC pour
compléter les indices de Gini.
Pour chaque pays, l’indice de Gini
manquant a donc été recalculé et
complété dans le Dataframe final.
FABRIKAM
RÉSUMÉ DES
DONNÉES
UTILISÉES …
M i s s i o n 1
16
FABRIKAM
FABRIKAM 17
L’analyse couvre donc 116 pays
et les données sont réparties sur
7 années de 2004 à 2011.
Nous pouvons considérer que
92% de la moyenne de la
population mondiale de cette
tranche sera couverte.
La distribution des revenus sera
traitée en centiles, ce qui
revient à discrétiser notre jeu de
données pour analyser des
classes de revenus.
Les modèles mathématiques et
probabilistes seront donc plus
performants.
FABRIKAM
REPRÉSENTATION
DE LA DIVERSITÉ
DES PAYS
M i s s i o n 2
18
FABRIKAM
FABRIKAM
KMEANS ITÉRATIF
• Afin d’évaluer la meilleure classification, nous
avons réalisé un clustering Kmeans itératif
projeté sur le premier plan factoriel de l’ACP.
• Grâce à la méthode des silhouettes et à la
visualisation de ces projections, nous avons
défini que le meilleur clustering est celui en 4
groupes.
• Certains pays étant très éloignés de la
moyenne, nous les avons écartés du Kmeans
et ils seront analysés ensuite avec les pays
sélectionnés (Inde, Chine, Fidji, USA)
P o u r s é l e c t i o n d e s
p a y s r e p r é s e n t a t i f s
19
FABRIKAM
FABRIKAM 20
Voici donc la projection des 112 pays
restants en 4 Clusters.
Les centroïdes ont été placés et la
contribution à l’inertie de chaque individu
calculée pour sélectionner les pays les plus
représentatifs de chaque groupe.
Le dataframe a été étendu du numéro de
Cluster pour conduire les analyses de
distribution des variables.
FABRIKAM
FABRIKAM
AN ALYS E DES DIST RIBUT IONS
• On remarque que la distribution de la
variable Income présente de nombreux
outliers.
• Pour la variable GDP,PPP la variance semble
constante mais les médianes sont
relativement différentes.
• Enfin, pour l’indice de Gini, les variances sont
différentes pour certains clusters et les
médianes sont également d’ordres différents.
B o x p l o t d e s v a r i a b l e s
d e n o s c l u t e r s
21
FABRIKAM
FABRIKAM 22
Sélection finale des pays à analyser
Pour chaque groupe, nous avons isolé les
pays ayant la meilleure inertie et
sélectionné les plus représentatifs (en terme
de volume de données notamment).
La liste finale des pays pour l’analyse
suivante est donc :
• Brésil
• Indonésie
• Luxembourg
• Norvège
• Slovaquie
• Afrique du sud
• Chine
• USA
• France
FABRIKAM 23
On remarque que la distribution des revenus suit pour
chaque pays représenté la même dynamique à des
échelles différentes.
Pour vérifier l'égalité des répartitions de revenus
moyens, nous allons tracer les courbes de Lorenz de ces
pays.
FABRIKAM
FABRIKAM
COURBES DE LORENZ
• Plus la courbe s’éloigne de la première
bissectrice, plus la répartition est inégalitaire
et donc plus l’indice de Gini augmente.
• On remarque donc que les inégalités de
répartition des revenus sont très variables en
fonction des pays.
• On peut voir notamment que des pays
comme le Brésil ou l’Afrique du Sud ont des
répartition très inégalitaires des richesses.
A n a l y s e d e l a
r é p a r t i t i o n d e s r e v e n u
24
FABRIKAM
FABRIKAM 25
Evolution de l’indice de Gini sur la période
analysée (2004 – 2011)
Notre base de données des indices de Gini
présentait beaucoup de manquants. Nous
avons complété cette dernière avec une
nouvelle source wider.unu.edu
Les dernières données manquantes ont
ensuite été interpolées en Python.
On peut constater que ce graphique final
nous montre des indices relativement
stables sur la période analysée.
FABRIKAM
FABRIKAM 26
Classements des pays par indices de Gini
Comme demandé, nous avons donc édité la
liste des 5 pays ayant le Gini le plus faible et
les 5 pays ayant le Gini le plus fort.
La moyenne de cet indice au niveau
mondiale est de 37,82.
La France quant à elle, avec un indice de
Gini à 33 se situe à la 35ème position du
classement ascendant.
FABRIKAM
DISTRIBUTIONS
CONDITIONNELLES
M i s s i o n 3
27
FABRIKAM
CONTEXTE
Pour la mise en production des régressions linéaires
et ANOVA, nous avions besoins de 3 variables :
L’indice de Gini du Pays, le revenu moyen du pays et
la classe de revenu des parents.
28
A ce stade, nous avons à disposition deux des
trois variables explicatives souhaitées :
𝑚𝑗 : le revenu moyen du pays j
𝐺𝑗 : l'indice de Gini du pays j
Il nous manque donc, pour un individu i , la classe
de revenu Ci,parents de ses parents, quelque soit le
nombre de parents de i.
Nous allons donc simuler cette information grâce
à un coefficient (propre à chaque pays j)
mesurant une corrélation entre le revenu de
l'individu i et le revenu de ses parents.
Ce coefficient sera ici appelé coefficient
d'élasticité, il mesure la mobilité
intergénérationnelle du revenu.
FABRIKAM
FABRIKAM
S OURCES DE DON N É ES DES
COE FFICIE N TS D’É LAST ICIT É
Nous avons utilisé ici 2 fichiers de données pour
intégrer ces coefficient d’élasticité :
• elasticity.txt,
• GDIM Dataset de la World Bank
Les données, dans les 2 cas, sont partielles et
datées. Il est nécessaire de réaliser un mix des 2
pour obtenir des données complètes.
Après manipulation des données, les 11600
individus du dataset sont complétés de leur
coefficient d’élasticité.
M i x d e p l u s i e u r s
f i c h i e r s d e d o n n é e s
29
elasticity.txt
GDIM Dataset
FABRIKAM
FABRIKAM 30
Calcul de 𝒀𝒄𝒉𝒊𝒍𝒅 pour une valeur donnée de 𝒑𝒋
La formule de calcul de cette variable est la
suivante :
Ychild = e(α + pjln(yparents) + ε)
Nous avons dans un premier temps généré un
grand nombre de réalisations d'une variable
𝒍𝒏 𝒀𝒑𝒂𝒓𝒆𝒏𝒕𝒔 selon une loi normale (1000 fois le
nombre de quantile)
Conjointement, nous avons généré le même
nombre de réalisation du terme d’erreur ε
selon une loi normale de moyenne 0 et d’écart-
type 1. (standardisation par centrage /
réduction)
FABRIKAM
FABRIKAM 31
Calcul des classes de revenus enfants et
parents
Une fois 𝑌𝑐ℎ𝑖𝑙𝑑 et 𝑌𝑝𝑎𝑟𝑒𝑛𝑡𝑠 calculés, nous leur
attribuons leurs classes de revenus respectives
𝑪𝒊, 𝒄𝒉𝒊𝒍𝒅 et 𝑪𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕𝒔 (leurs quantiles).
Les résultats sont stockés dans un DataFrame
Pandas sample qui nous servira de matrice pour
le calcul des distributions conditionnelles
FABRIKAM
FABRIKAM 32
Impact de 𝒑𝒋 sur les distributions
conditionnelles de 𝑪𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕𝒔 :
Nous avons donc calculé des distributions
conditionnelles 𝑃(𝑐𝑖, 𝑝𝑎𝑟𝑒𝑛𝑡 |𝑐𝑖, 𝑐ℎ𝑖𝑙𝑑, 𝑝𝑗) et vérifié
l’impact de 𝑝𝑗 sur un stack bars avec Matplotlib.
On remarque aisément ainsi qu’un 𝑝𝑗 traduisant
une forte mobilité (0,1) facilite la mobilité
intergénérationnelle de la classe de revenus. Les
probabilités des quantiles enfants sont mieux
réparties.
FABRIKAM
FABRIKAM 33
Pour retrouver la probabilité de
𝑷 𝒄𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕 = 𝟔 𝒄𝒊, 𝒄𝒉𝒊𝒍𝒅 = 𝟐 , 𝒑𝒋 = 𝟎, 𝟓)
par exemple, nous pouvons utiliser une
fonction matricielle proba_cond ou tout
simplement utiliser le dataframe obtenu
des probabilité conditionnelles calculées.
FABRIKAM
EN RÉSUMÉ …
A n a l y s e d e s d i s t r i b u t i o n s c o n d i t i o n n e l l e s
Nous avons pu mettre en place nos calculs de probabilité
conditionnelles sur la base des grands nombres aléatoires, tout en
vérifiant l’impact du coefficient d’élasticité sur les résultats.
Afin de créer notre modélisation, nous devons appliquer ces calculs de
classes conditionnelles de revenus des parents sur notre jeu de
données World Income Distribution.
Nous créons donc 499 clones de nos individus initiaux afin d’obtenir
pour chaque classe de revenus enfants de chaque pays : 500 individus.
Puis nous leur affectons la classe de revenu des parents en fonction
de leur 𝑪𝒊, 𝒄𝒉𝒊𝒍𝒅 et de leur 𝒑𝒋 , conformément aux distributions
conditionnelles calculées précédemment.
34
FABRIKAM
FABRIKAM 35
Après avoir réalisé cette affectation, nous
avons toutes les variables nécessaires à la
mise en place de nos régressions linéaires et
ANOVA :
• 𝑚𝑗 : Revenu moyen du pays
• 𝐺𝑗 : Coefficient de Gini du pays
• 𝐶𝑖, 𝑝𝑎𝑟𝑒𝑛𝑡𝑠 : Classe de revenus des parents
La taille 𝒏 de l’échantillon WID est à présent
de 5 800 000 individus.
FABRIKAM
MODÉLISATION
DES DONNÉES
M i s s i o n 4
36
FABRIKAM
MÉTHODOLOGIE
37
Nous cherchons à expliquer le revenu d’un
individu en fonction de plusieurs variables
explicatives (Pays, Gini et classe de revenu des
parents, …).
Dans un premier temps, nous allons utiliser
comme variable explicative uniquement le pays
de l’individu.
Il s’agit donc d’étudier l’impact d’une variable
qualitative sur une variable quantitative. Nous
réaliserons donc une ANOVA.
Les variables explicatives suivantes seront traitées
par régression linéaire afin de trouver le meilleur
modèle.
Enfin, nous vérifierons la performance du modèle
sélectionné ainsi que les hypothèses posées.
FABRIKAM
FABRIKAM
ANOVA
REVENUS ~ PAYS
Ce boxplot de la distribution de l’income sur les
pays sélectionnés dans les missions précédentes
nous montre clairement que les variances ne
sembles pas être égales.
Notre modèle ANOVA risque donc de ne pas être
très performant. Nous tenterons par la suite
cette même modélisation mais avec le
logarithme de l’income.
V é r i f i c a t i o n d e l a
v a r i a n c e d e l ’ i n c o m e
38
FABRIKAM
FABRIKAM 39
On remarque donc qu'il existe, selon le test de
Fischer, un impact statistiquement significatif du
pays sur le revenu de l’individu
• F-statistic = 4.97∗104
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,496
• % variance expliquée du modèle : 49,6 %
Les Pvalue des variables du modèle sont
• globalement significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
REVENUS ~ PAYS
FABRIKAM
FABRIKAM
ANOVA
LN(REVENUS) ~ PAYS
Ce boxplot de la distribution du logarithme de
l’income sur les pays sélectionnés dans les
missions précédentes présente des variances
plus égalitaires que le premier modèle.
Notre modèle ANOVA sera donc potentiellement
plus performant.
A v e c l e l o g a r i t h m e …
40
FABRIKAM
FABRIKAM 41
Selon le test de Fischer il existe un impact
statistiquement significatif du pays sur le revenu de
l’individu
• F-statistic = 1.35∗105
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,729
• % variance expliquée du modèle : 72,9 %
Les Pvalue des variables du modèle sont
• globalement significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
LN(REVENUS) ~ PAYS
FABRIKAM
RÉGRESSIONS
LINÉAIRES
V a r i a b l e s e x p l i c a t i v e s :
R e v e n u m o y e n e t i n d i c e d e G i n i
42
FABRIKAM
FABRIKAM 43
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 1.90∗106
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,496
• % variance expliquée du modèle : 49,6 %
Les Pvalue des variables du modèle sont
• non significatives au niveau de test 5%
• Pvalues > 5% sauf pour le revenu moyen mj
RÉSULTATS
REVENUS ~ GJ*MJ
FABRIKAM
FABRIKAM 44
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 5.18∗106
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,728
• % variance expliquée du modèle : 72,8 %
Les Pvalue des variables du modèle sont
• Significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
LN(REVENUS) ~ GJ*LN(MJ)
FABRIKAM
FABRIKAM
DÉCOMPOSITION DE
LA VARIANCE
Variance expliquée du modèle : 72,82 %
Variance expliquée par le pays : 70,05 %
Variance expliquée par les autres facteurs : 2,77 %
V a r i a n c e e x p l i q u é e
p a r l e p a y s
45
Table d'analyse de variances avec Statsmodels
FABRIKAM
AMÉLIORATION
DU MODÈLE
A j o u t d e l a c l a s s e d e
r e v e n u d e s p a r e n t s
46
FABRIKAM
FABRIKAM 47
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 9.86∗105
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,543
• % variance expliquée du modèle : 54,3 %
Les Pvalue des variables du modèle sont
• Significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
REVENUS ~ GJ*MJ*CI,PARENTS
FABRIKAM
FABRIKAM 48
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 3.00∗106 (meilleur résultat)
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,784 (meilleur modèle)
• % variance expliquée du modèle : 78,4 %
Les Pvalue des variables du modèle sont
• Toutes significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
FABRIKAM
FABRIKAM
DÉCOMPOSITION DE
LA VARIANCE
Variance expliquée du modèle : 78,4 %
Variance expliquée par le pays et la classe de
revenu des parents : 76,16 %
Variance expliquée par les autres facteurs : 2,23 %
Ce modèle est donc le meilleur des modèles
testés. Nous réaliserons donc les tests sur ce
dernier.
V a r i a n c e e x p l i q u é e
p a r l e p a y s
49
Table d'analyse de variances avec Statsmodels
FABRIKAM
PERFORMANCE
DU MODÈLE
A n a l y s e d e s i n d i c a t e u r s
50
FABRIKAM
FABRIKAM 51
Les points de leviers sont un type de valeur
aberrante.
Définissons :
• p (nombre de variables) = 4
• n = (nombre d’individus) = 5 800 000
Le seuil leviers est fixé par la formule :
𝑆𝑒𝑢𝑖𝑙 = 2 ∗
𝑝
𝑛
Influences est un objet Statsmodels défini par le
module get_influence()
Les leviers par influences.hat_matrix_diag
ANALYSE DES LEVIERS
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
FABRIKAM
FABRIKAM 52
Les résidus sont dit studentisés lorsqu’ils sont
divisés par leur écart-type empirique.
Le seuil des résidus studentisés est fixé par une loi de
Student à 𝑛 − 𝑝 − 1 degrés
Pour les grands échantillons il est compris entre -2 et 2
Les résidus studentisés sont calculés via la fonction
influences.resid_studentized_internal
LES RÉSIDUS STUDENTISÉS
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
FABRIKAM
FABRIKAM 53
Estimation utilisée pour l' influence d'un point lors
d'une analyse de régression par les moindres carrés.
Le seuil des distances de Cook est fixé par :
𝑆𝑒𝑢𝑖𝑙 =
4
𝑛 − 𝑝
Les distances de Cook sont calculées via la fonction
influences.cooks_distance[0]
LES DISTANCES DE COOK
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
FABRIKAM
FABRIKAM
COLINÉARITÉ DES
VARIABLES
La colinéarité va nous indiqué en terme non
statistique que plusieurs variables représentent la
même chose.
Les FIV estiment de combien la variance d’un
coefficient est augmentée en raison d’une relation
linéaire avec d’autres variables.
Nous avons eu des warnings lors de la
modélisation, il est donc impératif de vérifier.
On remarque ici de fortes colinéarités ce qui peut
effectivement impacter la performance de notre
modèle.
f a c t e u r s d ’ i n f l a t i o n
d e l a v a r i a n c e
54
FABRIKAM
FABRIKAM
HOMOSCÉDASTICITÉ
C'est un test basé sur un test du χ² : si la statistique
du test de Breusch-Pagan est supérieure à celle
obtenue par le test du Chi2, c'est-à-dire si la p-
value est inférieure au seuil fixé de 5%, alors on
rejette l'hypothèse nulle d'homoscédasticité.
La p-value est ici inférieure à 5 %, on rejette donc
l'hypothèse selon laquelle les variances sont
constantes.
T e s t d e B r e u s c h - P a g a n
55
FABRIKAM
FABRIKAM
NORMALITÉ DES
RÉSIDUS
Selon le test de Shapiro-Wilk, l'hypothèse de
normalité est rejetée au niveau de test 5%, mais
nous avons un warning dû au grand nombre
d'individus.
Nous vérifions donc la distribution des résidus
avec Seaborn.
La p-value est ici inférieure à 5 %, mais la
distribution projetée avec Seaborn semble suivre
une distribution normale.
T e s t d e S h a p i r o - W i l k
56
FABRIKAM
FABRIKAM
NORMALITÉ DES
RÉSIDUS
Nous avons édité le diagramme quantile-quantile
pour vérifier cette hypothèse de normalité.
En comparant les quantiles théoriques et les
quantiles observés, on remarque que la courbe est
proche de la première bissectrice ce qui nous
permet de confirmer l’hypothèse de normalité
des résidus.
Q Q P l o t
57
FABRIKAM
EN OBSERVANT LE COEFFICIENT DE RÉGRESSION ASSOCIÉ À L’INDICE DE GINI, PEUT-ON
AFFIRMER QUE LE FAIT DE VIVRE DANS UN PAYS PLUS INÉGALITAIRE FAVORISE PLUS DE
PERSONNES QU’IL N’EN DÉFAVORISE ?
Plus l'indice de Gini est élevé, plus la répartition du pays est inégalitaire. De ce fait, une petite proportion de la
population détient la plus grosse part des richesses. Les écarts dans les salaires sont très élevés avec des revenus par
individus massivements faibles.
Le coefficient de régression de l'indice de Gini, certes faible mais positif, ne nous permet pas d'affirmer que le fait de
vivre dans un pays plus inégalitaire favorise plus de personnes qu'il n'en défavorise.
FABRIKAM
CONCLUSION
59
Notre dernier modèle basé sur les logarithmes du
revenu moyen du pays, de l’indice de Gini et de la
classe de revenu des parents est relativement
performant dans ses prédictions (variance
expliquée de 78% environ).
Cependant, les fortes colinéarités et
l’hétéroscédasticité remarquées nous portent à
croire que ce modèle peut encore être amélioré
en ajoutant par exemple d’autres variables
sociétales ou en tenant compte des facteurs
géographiques.
Tout dépendra du niveau de confiance que nous
souhaitons atteindre avec notre modèle de
prédiction de revenus.
FABRIKAM
MERCI
W W W . E Q U I T A B L E B A N K . C O M
M I C H A E L F U M E R Y
0 6 . 5 9 . 2 0 . 6 5 . 3 9
m f u m e r y @ e q u i ta b l e b a n k . c o m

More Related Content

What's hot

Time Series Forecasting Using TBATS Model.pptx
Time Series Forecasting Using TBATS Model.pptxTime Series Forecasting Using TBATS Model.pptx
Time Series Forecasting Using TBATS Model.pptxGowthamKumar470818
 
머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear Model머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear ModelJungkyu Lee
 
Lesson 4 ar-ma
Lesson 4 ar-maLesson 4 ar-ma
Lesson 4 ar-maankit_ppt
 
Time Series Analysis - Modeling and Forecasting
Time Series Analysis - Modeling and ForecastingTime Series Analysis - Modeling and Forecasting
Time Series Analysis - Modeling and ForecastingMaruthi Nataraj K
 
Lesson 5 arima
Lesson 5 arimaLesson 5 arima
Lesson 5 arimaankit_ppt
 
[AIoTLab]attention mechanism.pptx
[AIoTLab]attention mechanism.pptx[AIoTLab]attention mechanism.pptx
[AIoTLab]attention mechanism.pptxTuCaoMinh2
 
Lesson 2 stationary_time_series
Lesson 2 stationary_time_seriesLesson 2 stationary_time_series
Lesson 2 stationary_time_seriesankit_ppt
 
Arima model (time series)
Arima model (time series)Arima model (time series)
Arima model (time series)Kumar P
 
Orange3 widget basic
Orange3 widget basicOrange3 widget basic
Orange3 widget basicYOONSEOK JANG
 
Interpretable ML
Interpretable MLInterpretable ML
Interpretable MLMayur Sand
 
십분딥러닝_17_DIM(Deep InfoMax)
십분딥러닝_17_DIM(Deep InfoMax)십분딥러닝_17_DIM(Deep InfoMax)
십분딥러닝_17_DIM(Deep InfoMax)HyunKyu Jeon
 
Genetic algorithm
Genetic algorithmGenetic algorithm
Genetic algorithmgarima931
 
Automatic time series forecasting
Automatic time series forecastingAutomatic time series forecasting
Automatic time series forecastingRob Hyndman
 
Mba 532 2011_part_3_time_series_analysis
Mba 532 2011_part_3_time_series_analysisMba 532 2011_part_3_time_series_analysis
Mba 532 2011_part_3_time_series_analysisChandra Kodituwakku
 
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?Smarten Augmented Analytics
 
Learning Disentangled Representation for Robust Person Re-identification
Learning Disentangled Representation for Robust Person Re-identificationLearning Disentangled Representation for Robust Person Re-identification
Learning Disentangled Representation for Robust Person Re-identificationNAVER Engineering
 
Variational Autoencoder
Variational AutoencoderVariational Autoencoder
Variational AutoencoderMark Chang
 

What's hot (20)

Time Series Forecasting Using TBATS Model.pptx
Time Series Forecasting Using TBATS Model.pptxTime Series Forecasting Using TBATS Model.pptx
Time Series Forecasting Using TBATS Model.pptx
 
머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear Model머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear Model
 
Lesson 4 ar-ma
Lesson 4 ar-maLesson 4 ar-ma
Lesson 4 ar-ma
 
Time Series Analysis - Modeling and Forecasting
Time Series Analysis - Modeling and ForecastingTime Series Analysis - Modeling and Forecasting
Time Series Analysis - Modeling and Forecasting
 
Lesson 5 arima
Lesson 5 arimaLesson 5 arima
Lesson 5 arima
 
[AIoTLab]attention mechanism.pptx
[AIoTLab]attention mechanism.pptx[AIoTLab]attention mechanism.pptx
[AIoTLab]attention mechanism.pptx
 
Deep ar presentation
Deep ar presentationDeep ar presentation
Deep ar presentation
 
Lesson 2 stationary_time_series
Lesson 2 stationary_time_seriesLesson 2 stationary_time_series
Lesson 2 stationary_time_series
 
Arima model (time series)
Arima model (time series)Arima model (time series)
Arima model (time series)
 
Orange3 widget basic
Orange3 widget basicOrange3 widget basic
Orange3 widget basic
 
Interpretable ML
Interpretable MLInterpretable ML
Interpretable ML
 
십분딥러닝_17_DIM(Deep InfoMax)
십분딥러닝_17_DIM(Deep InfoMax)십분딥러닝_17_DIM(Deep InfoMax)
십분딥러닝_17_DIM(Deep InfoMax)
 
Genetic algorithm
Genetic algorithmGenetic algorithm
Genetic algorithm
 
Diagnostic in poisson regression models
Diagnostic in poisson regression modelsDiagnostic in poisson regression models
Diagnostic in poisson regression models
 
Automatic time series forecasting
Automatic time series forecastingAutomatic time series forecasting
Automatic time series forecasting
 
Mba 532 2011_part_3_time_series_analysis
Mba 532 2011_part_3_time_series_analysisMba 532 2011_part_3_time_series_analysis
Mba 532 2011_part_3_time_series_analysis
 
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
 
Learning Disentangled Representation for Robust Person Re-identification
Learning Disentangled Representation for Robust Person Re-identificationLearning Disentangled Representation for Robust Person Re-identification
Learning Disentangled Representation for Robust Person Re-identification
 
Panel data analysis
Panel data analysisPanel data analysis
Panel data analysis
 
Variational Autoencoder
Variational AutoencoderVariational Autoencoder
Variational Autoencoder
 

More from FUMERY Michael

Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...FUMERY Michael
 
NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowFUMERY Michael
 
Segmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningSegmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningFUMERY Michael
 
La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.FUMERY Michael
 
Prédisez la demande en électricité
Prédisez la demande en électricitéPrédisez la demande en électricité
Prédisez la demande en électricitéFUMERY Michael
 
Détectez des faux billets
Détectez des faux billetsDétectez des faux billets
Détectez des faux billetsFUMERY Michael
 
Produisez une étude de marché
Produisez une étude de marchéProduisez une étude de marché
Produisez une étude de marchéFUMERY Michael
 
Analysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseAnalysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseFUMERY Michael
 
Réalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystRéalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystFUMERY Michael
 

More from FUMERY Michael (9)

Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...
 
NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions Stackoverflow
 
Segmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningSegmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine Learning
 
La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.
 
Prédisez la demande en électricité
Prédisez la demande en électricitéPrédisez la demande en électricité
Prédisez la demande en électricité
 
Détectez des faux billets
Détectez des faux billetsDétectez des faux billets
Détectez des faux billets
 
Produisez une étude de marché
Produisez une étude de marchéProduisez une étude de marché
Produisez une étude de marché
 
Analysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseAnalysez les ventes de votre entreprise
Analysez les ventes de votre entreprise
 
Réalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystRéalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data Analyst
 

Recently uploaded

“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...Marc Dusseiller Dusjagr
 
Final demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptxFinal demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptxAvyJaneVismanos
 
Crayon Activity Handout For the Crayon A
Crayon Activity Handout For the Crayon ACrayon Activity Handout For the Crayon A
Crayon Activity Handout For the Crayon AUnboundStockton
 
Computed Fields and api Depends in the Odoo 17
Computed Fields and api Depends in the Odoo 17Computed Fields and api Depends in the Odoo 17
Computed Fields and api Depends in the Odoo 17Celine George
 
Types of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptxTypes of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptxEyham Joco
 
Hierarchy of management that covers different levels of management
Hierarchy of management that covers different levels of managementHierarchy of management that covers different levels of management
Hierarchy of management that covers different levels of managementmkooblal
 
Meghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media ComponentMeghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media ComponentInMediaRes1
 
Biting mechanism of poisonous snakes.pdf
Biting mechanism of poisonous snakes.pdfBiting mechanism of poisonous snakes.pdf
Biting mechanism of poisonous snakes.pdfadityarao40181
 
Incoming and Outgoing Shipments in 1 STEP Using Odoo 17
Incoming and Outgoing Shipments in 1 STEP Using Odoo 17Incoming and Outgoing Shipments in 1 STEP Using Odoo 17
Incoming and Outgoing Shipments in 1 STEP Using Odoo 17Celine George
 
Organic Name Reactions for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions  for the students and aspirants of Chemistry12th.pptxOrganic Name Reactions  for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions for the students and aspirants of Chemistry12th.pptxVS Mahajan Coaching Centre
 
Full Stack Web Development Course for Beginners
Full Stack Web Development Course  for BeginnersFull Stack Web Development Course  for Beginners
Full Stack Web Development Course for BeginnersSabitha Banu
 
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPTECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPTiammrhaywood
 
Alper Gobel In Media Res Media Component
Alper Gobel In Media Res Media ComponentAlper Gobel In Media Res Media Component
Alper Gobel In Media Res Media ComponentInMediaRes1
 
Introduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher EducationIntroduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher Educationpboyjonauth
 
How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17Celine George
 
Employee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptxEmployee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptxNirmalaLoungPoorunde1
 
Painted Grey Ware.pptx, PGW Culture of India
Painted Grey Ware.pptx, PGW Culture of IndiaPainted Grey Ware.pptx, PGW Culture of India
Painted Grey Ware.pptx, PGW Culture of IndiaVirag Sontakke
 
Earth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice greatEarth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice greatYousafMalik24
 
CELL CYCLE Division Science 8 quarter IV.pptx
CELL CYCLE Division Science 8 quarter IV.pptxCELL CYCLE Division Science 8 quarter IV.pptx
CELL CYCLE Division Science 8 quarter IV.pptxJiesonDelaCerna
 

Recently uploaded (20)

“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
 
Final demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptxFinal demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptx
 
Crayon Activity Handout For the Crayon A
Crayon Activity Handout For the Crayon ACrayon Activity Handout For the Crayon A
Crayon Activity Handout For the Crayon A
 
Computed Fields and api Depends in the Odoo 17
Computed Fields and api Depends in the Odoo 17Computed Fields and api Depends in the Odoo 17
Computed Fields and api Depends in the Odoo 17
 
Types of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptxTypes of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptx
 
Hierarchy of management that covers different levels of management
Hierarchy of management that covers different levels of managementHierarchy of management that covers different levels of management
Hierarchy of management that covers different levels of management
 
Meghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media ComponentMeghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media Component
 
Biting mechanism of poisonous snakes.pdf
Biting mechanism of poisonous snakes.pdfBiting mechanism of poisonous snakes.pdf
Biting mechanism of poisonous snakes.pdf
 
Incoming and Outgoing Shipments in 1 STEP Using Odoo 17
Incoming and Outgoing Shipments in 1 STEP Using Odoo 17Incoming and Outgoing Shipments in 1 STEP Using Odoo 17
Incoming and Outgoing Shipments in 1 STEP Using Odoo 17
 
Organic Name Reactions for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions  for the students and aspirants of Chemistry12th.pptxOrganic Name Reactions  for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions for the students and aspirants of Chemistry12th.pptx
 
Full Stack Web Development Course for Beginners
Full Stack Web Development Course  for BeginnersFull Stack Web Development Course  for Beginners
Full Stack Web Development Course for Beginners
 
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPTECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
 
Alper Gobel In Media Res Media Component
Alper Gobel In Media Res Media ComponentAlper Gobel In Media Res Media Component
Alper Gobel In Media Res Media Component
 
Introduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher EducationIntroduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher Education
 
ESSENTIAL of (CS/IT/IS) class 06 (database)
ESSENTIAL of (CS/IT/IS) class 06 (database)ESSENTIAL of (CS/IT/IS) class 06 (database)
ESSENTIAL of (CS/IT/IS) class 06 (database)
 
How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17
 
Employee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptxEmployee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptx
 
Painted Grey Ware.pptx, PGW Culture of India
Painted Grey Ware.pptx, PGW Culture of IndiaPainted Grey Ware.pptx, PGW Culture of India
Painted Grey Ware.pptx, PGW Culture of India
 
Earth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice greatEarth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice great
 
CELL CYCLE Division Science 8 quarter IV.pptx
CELL CYCLE Division Science 8 quarter IV.pptxCELL CYCLE Division Science 8 quarter IV.pptx
CELL CYCLE Division Science 8 quarter IV.pptx
 

Effectuez une prédiction de revenus

  • 1. FABRIKAM MODÈLE DE PRÉDICTION DE REVENUS A c q u i s i t i o n d e n o u v e a u x c l i e n t s E q u i t a b l e B a n k Michael Fumery – Service Data – V01-01
  • 2. FABRIKAM SOMMAIRE Le groupe souhaite cibler de nouveaux clients potentiels, plus particulièrement les jeunes en âge d'ouvrir leur tout premier compte bancaire. Cependant, il est nécessaire de cibler les prospects les plus susceptibles d'avoir, plus tard dans leur vie, de hauts revenus. Notre équipe Datas a donc reçu pour mission de créer un modèle permettant de déterminer le revenu potentiel d'une personne. 2 1. Présentation des sources de données, 2. Construction & description du dataset étendu pour l’analyse, 3. Analyse de la diversité des pays sélectionnés par Clustering, 4. Traitement des coefficients d’élasticité et distribution conditionnelle des revenus, 5. Création des modèles ANOVA et régressions linéaires, 6. Tests sur le modèle sélectionné.
  • 3. FABRIKAM LES SOURCES DE DONNÉES UTILISÉES … W o r l d I n c o m e D i s t r i b u t i o n 3
  • 4. FABRIKAM FABRIKAM DONNÉES DE LA WORLD INCOME 4 • Ce fichier CSV contient les données de la distribution des revenus d’un bon nombre de pays pour 2008. • Ces revenus sont traités en centiles de la population pour la donnée Income (revenu moyen de la classe). • On remarque que certaines données pour la variable « gdpppp » sont manquantes.
  • 5. FABRIKAM FABRIKAM 5 Nous avons donc traité les données manquantes : • 2 Pays concernés : • Le Kosovo (XKX) • West Bank and Gaza (PSE) • Les données ont été récupérées sur le site de la World Bank et appliqués à tous les quantiles pour chacun des pays. • Nous avons donc à présent 11 599 individus également dans la variable « gdpppp ».
  • 6. FABRIKAM FABRIKAM 6 Description du dataset : • Le jeu de données compte donc 116 pays, • Plusieurs années sont présentes, s’étalant de 2004 à 2011, • 1 quantile est donc absent : 116 pays x 100 quantiles = 11600. Nous avons vérifié la liste des pays ayant des données autres que 2008, et pour cette liste, aucune autre donnée n’est disponible en 2008. Nous les conservons donc pour ne pas se priver de ces pays.
  • 7. FABRIKAM FABRIKAM 1 5 15 76 12 6 1 0 10 20 30 40 50 60 70 80 2004 2006 2007 2008 2009 2010 2011 Répartition des pays présents par années Les 116 pays du jeu de données de la World Income Distribution sont donc répartis sur 7 années de 2004 à 2011. Chacun de ces pays n’est présent que pour 1 seule année (pas de doublons) Après de nombreuses recherches de datas, les répartitions en centiles des données de la world income pour ces pays en 2008 sont introuvables. Nous avons donc travaillé avec ces différentes années. 7
  • 8. FABRIKAM FABRIKAM 8 Recherche du quantile manquant : Après analyse avec Python et Pandas, nous avons déterminé que le quantile manquant est le 41ème centile de la Lituanie (LTU) Grâce à la fonction Regplot de Seaborn, nous avons pu extrapoler la valeur de ce quantile manquant et lui affecter dans le dataset sa valeur 4870 A ce stade, toutes les données manquantes de ce dataset ont été complétées. Nous avons inséré la table dans une base MySQL. Projection des quantiles 20 à 60 de la Lituanie
  • 9. FABRIKAM FABRIKAM DONNÉES DE LA POPULATION 9 • Les datas population ont été téléchargées sur le site de la World Bank. • Population.csv, converti en dataframe Pandas nous donne la population de chaque pays depuis 1960. • Metadata_Country.csv contient des données de classification comme la région ou le groupe de revenus. Nous avons créé un dataframe étendu avec ces données combinées pour les années de 2004 à 2011.
  • 10. FABRIKAM FABRIKAM 6.408911 6.56992 6.651302 6.733924 6.816505 6.898733 6.97968 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7 7.1 2004 2006 2007 2008 2009 2010 2011 Population du dataset 2004 – 2011 en Milliard d’habitants. Nettoyage et vérification des données de population : • Nettoyages effectués : • Suppression des agglomérats • Suppression des non-classifiés • Nous avons ensuite vérifié la population mondiale par année du jeu de données. Ces données semblent cohérentes pour les données mondiales. Les données ont ensuite été passées en ligne puis insérées dans la base MySQL. 10
  • 11. FABRIKAM FABRIKAM LES INDICES DE GINI 11 • Les datas sur l’indice de Gini des pays ont été téléchargées sur le site de la World Bank. • Après plusieurs manipulations avec Python, on remarque que de nombreux indices sont manquants. • Nous stockons donc ces données dans la base MySQL. Les données manquantes seront recalculées ensuite. Nous avons à présent stocké les données nettoyées de la World Income, de population et les indices de Gini. Un dataframe étendu doit être créé pour la suite des manipulations.
  • 12. FABRIKAM CRÉATION DU DATSET FINAL C a l c u l d e s d o n n é e s m a n q u a n t e s 12
  • 13. FABRIKAM 13 JOINTURE DES TABLES MYSQL
  • 14. FABRIKAM FABRIKAM 14 Mise à jour des données de Taïwan : On remarque dans la fonction info() que les données de population, région et income group sont manquantes pour ce pays. Nous les avons complétées avec les données croisées de plusieurs sources.
  • 15. FABRIKAM FABRIKAM 15 Calcul des indices de Gini manquants : Nous avons utilisé les calculs de la courbe de Lorenz et son AUC pour compléter les indices de Gini. Pour chaque pays, l’indice de Gini manquant a donc été recalculé et complété dans le Dataframe final.
  • 17. FABRIKAM FABRIKAM 17 L’analyse couvre donc 116 pays et les données sont réparties sur 7 années de 2004 à 2011. Nous pouvons considérer que 92% de la moyenne de la population mondiale de cette tranche sera couverte. La distribution des revenus sera traitée en centiles, ce qui revient à discrétiser notre jeu de données pour analyser des classes de revenus. Les modèles mathématiques et probabilistes seront donc plus performants.
  • 19. FABRIKAM FABRIKAM KMEANS ITÉRATIF • Afin d’évaluer la meilleure classification, nous avons réalisé un clustering Kmeans itératif projeté sur le premier plan factoriel de l’ACP. • Grâce à la méthode des silhouettes et à la visualisation de ces projections, nous avons défini que le meilleur clustering est celui en 4 groupes. • Certains pays étant très éloignés de la moyenne, nous les avons écartés du Kmeans et ils seront analysés ensuite avec les pays sélectionnés (Inde, Chine, Fidji, USA) P o u r s é l e c t i o n d e s p a y s r e p r é s e n t a t i f s 19
  • 20. FABRIKAM FABRIKAM 20 Voici donc la projection des 112 pays restants en 4 Clusters. Les centroïdes ont été placés et la contribution à l’inertie de chaque individu calculée pour sélectionner les pays les plus représentatifs de chaque groupe. Le dataframe a été étendu du numéro de Cluster pour conduire les analyses de distribution des variables.
  • 21. FABRIKAM FABRIKAM AN ALYS E DES DIST RIBUT IONS • On remarque que la distribution de la variable Income présente de nombreux outliers. • Pour la variable GDP,PPP la variance semble constante mais les médianes sont relativement différentes. • Enfin, pour l’indice de Gini, les variances sont différentes pour certains clusters et les médianes sont également d’ordres différents. B o x p l o t d e s v a r i a b l e s d e n o s c l u t e r s 21
  • 22. FABRIKAM FABRIKAM 22 Sélection finale des pays à analyser Pour chaque groupe, nous avons isolé les pays ayant la meilleure inertie et sélectionné les plus représentatifs (en terme de volume de données notamment). La liste finale des pays pour l’analyse suivante est donc : • Brésil • Indonésie • Luxembourg • Norvège • Slovaquie • Afrique du sud • Chine • USA • France
  • 23. FABRIKAM 23 On remarque que la distribution des revenus suit pour chaque pays représenté la même dynamique à des échelles différentes. Pour vérifier l'égalité des répartitions de revenus moyens, nous allons tracer les courbes de Lorenz de ces pays.
  • 24. FABRIKAM FABRIKAM COURBES DE LORENZ • Plus la courbe s’éloigne de la première bissectrice, plus la répartition est inégalitaire et donc plus l’indice de Gini augmente. • On remarque donc que les inégalités de répartition des revenus sont très variables en fonction des pays. • On peut voir notamment que des pays comme le Brésil ou l’Afrique du Sud ont des répartition très inégalitaires des richesses. A n a l y s e d e l a r é p a r t i t i o n d e s r e v e n u 24
  • 25. FABRIKAM FABRIKAM 25 Evolution de l’indice de Gini sur la période analysée (2004 – 2011) Notre base de données des indices de Gini présentait beaucoup de manquants. Nous avons complété cette dernière avec une nouvelle source wider.unu.edu Les dernières données manquantes ont ensuite été interpolées en Python. On peut constater que ce graphique final nous montre des indices relativement stables sur la période analysée.
  • 26. FABRIKAM FABRIKAM 26 Classements des pays par indices de Gini Comme demandé, nous avons donc édité la liste des 5 pays ayant le Gini le plus faible et les 5 pays ayant le Gini le plus fort. La moyenne de cet indice au niveau mondiale est de 37,82. La France quant à elle, avec un indice de Gini à 33 se situe à la 35ème position du classement ascendant.
  • 28. FABRIKAM CONTEXTE Pour la mise en production des régressions linéaires et ANOVA, nous avions besoins de 3 variables : L’indice de Gini du Pays, le revenu moyen du pays et la classe de revenu des parents. 28 A ce stade, nous avons à disposition deux des trois variables explicatives souhaitées : 𝑚𝑗 : le revenu moyen du pays j 𝐺𝑗 : l'indice de Gini du pays j Il nous manque donc, pour un individu i , la classe de revenu Ci,parents de ses parents, quelque soit le nombre de parents de i. Nous allons donc simuler cette information grâce à un coefficient (propre à chaque pays j) mesurant une corrélation entre le revenu de l'individu i et le revenu de ses parents. Ce coefficient sera ici appelé coefficient d'élasticité, il mesure la mobilité intergénérationnelle du revenu.
  • 29. FABRIKAM FABRIKAM S OURCES DE DON N É ES DES COE FFICIE N TS D’É LAST ICIT É Nous avons utilisé ici 2 fichiers de données pour intégrer ces coefficient d’élasticité : • elasticity.txt, • GDIM Dataset de la World Bank Les données, dans les 2 cas, sont partielles et datées. Il est nécessaire de réaliser un mix des 2 pour obtenir des données complètes. Après manipulation des données, les 11600 individus du dataset sont complétés de leur coefficient d’élasticité. M i x d e p l u s i e u r s f i c h i e r s d e d o n n é e s 29 elasticity.txt GDIM Dataset
  • 30. FABRIKAM FABRIKAM 30 Calcul de 𝒀𝒄𝒉𝒊𝒍𝒅 pour une valeur donnée de 𝒑𝒋 La formule de calcul de cette variable est la suivante : Ychild = e(α + pjln(yparents) + ε) Nous avons dans un premier temps généré un grand nombre de réalisations d'une variable 𝒍𝒏 𝒀𝒑𝒂𝒓𝒆𝒏𝒕𝒔 selon une loi normale (1000 fois le nombre de quantile) Conjointement, nous avons généré le même nombre de réalisation du terme d’erreur ε selon une loi normale de moyenne 0 et d’écart- type 1. (standardisation par centrage / réduction)
  • 31. FABRIKAM FABRIKAM 31 Calcul des classes de revenus enfants et parents Une fois 𝑌𝑐ℎ𝑖𝑙𝑑 et 𝑌𝑝𝑎𝑟𝑒𝑛𝑡𝑠 calculés, nous leur attribuons leurs classes de revenus respectives 𝑪𝒊, 𝒄𝒉𝒊𝒍𝒅 et 𝑪𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕𝒔 (leurs quantiles). Les résultats sont stockés dans un DataFrame Pandas sample qui nous servira de matrice pour le calcul des distributions conditionnelles
  • 32. FABRIKAM FABRIKAM 32 Impact de 𝒑𝒋 sur les distributions conditionnelles de 𝑪𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕𝒔 : Nous avons donc calculé des distributions conditionnelles 𝑃(𝑐𝑖, 𝑝𝑎𝑟𝑒𝑛𝑡 |𝑐𝑖, 𝑐ℎ𝑖𝑙𝑑, 𝑝𝑗) et vérifié l’impact de 𝑝𝑗 sur un stack bars avec Matplotlib. On remarque aisément ainsi qu’un 𝑝𝑗 traduisant une forte mobilité (0,1) facilite la mobilité intergénérationnelle de la classe de revenus. Les probabilités des quantiles enfants sont mieux réparties.
  • 33. FABRIKAM FABRIKAM 33 Pour retrouver la probabilité de 𝑷 𝒄𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕 = 𝟔 𝒄𝒊, 𝒄𝒉𝒊𝒍𝒅 = 𝟐 , 𝒑𝒋 = 𝟎, 𝟓) par exemple, nous pouvons utiliser une fonction matricielle proba_cond ou tout simplement utiliser le dataframe obtenu des probabilité conditionnelles calculées.
  • 34. FABRIKAM EN RÉSUMÉ … A n a l y s e d e s d i s t r i b u t i o n s c o n d i t i o n n e l l e s Nous avons pu mettre en place nos calculs de probabilité conditionnelles sur la base des grands nombres aléatoires, tout en vérifiant l’impact du coefficient d’élasticité sur les résultats. Afin de créer notre modélisation, nous devons appliquer ces calculs de classes conditionnelles de revenus des parents sur notre jeu de données World Income Distribution. Nous créons donc 499 clones de nos individus initiaux afin d’obtenir pour chaque classe de revenus enfants de chaque pays : 500 individus. Puis nous leur affectons la classe de revenu des parents en fonction de leur 𝑪𝒊, 𝒄𝒉𝒊𝒍𝒅 et de leur 𝒑𝒋 , conformément aux distributions conditionnelles calculées précédemment. 34
  • 35. FABRIKAM FABRIKAM 35 Après avoir réalisé cette affectation, nous avons toutes les variables nécessaires à la mise en place de nos régressions linéaires et ANOVA : • 𝑚𝑗 : Revenu moyen du pays • 𝐺𝑗 : Coefficient de Gini du pays • 𝐶𝑖, 𝑝𝑎𝑟𝑒𝑛𝑡𝑠 : Classe de revenus des parents La taille 𝒏 de l’échantillon WID est à présent de 5 800 000 individus.
  • 37. FABRIKAM MÉTHODOLOGIE 37 Nous cherchons à expliquer le revenu d’un individu en fonction de plusieurs variables explicatives (Pays, Gini et classe de revenu des parents, …). Dans un premier temps, nous allons utiliser comme variable explicative uniquement le pays de l’individu. Il s’agit donc d’étudier l’impact d’une variable qualitative sur une variable quantitative. Nous réaliserons donc une ANOVA. Les variables explicatives suivantes seront traitées par régression linéaire afin de trouver le meilleur modèle. Enfin, nous vérifierons la performance du modèle sélectionné ainsi que les hypothèses posées.
  • 38. FABRIKAM FABRIKAM ANOVA REVENUS ~ PAYS Ce boxplot de la distribution de l’income sur les pays sélectionnés dans les missions précédentes nous montre clairement que les variances ne sembles pas être égales. Notre modèle ANOVA risque donc de ne pas être très performant. Nous tenterons par la suite cette même modélisation mais avec le logarithme de l’income. V é r i f i c a t i o n d e l a v a r i a n c e d e l ’ i n c o m e 38
  • 39. FABRIKAM FABRIKAM 39 On remarque donc qu'il existe, selon le test de Fischer, un impact statistiquement significatif du pays sur le revenu de l’individu • F-statistic = 4.97∗104 • Pvalue = 0 La part de variance expliquée du modèle : • R² = 0,496 • % variance expliquée du modèle : 49,6 % Les Pvalue des variables du modèle sont • globalement significatives au niveau de test 5% • Pvalues < 5% RÉSULTATS REVENUS ~ PAYS
  • 40. FABRIKAM FABRIKAM ANOVA LN(REVENUS) ~ PAYS Ce boxplot de la distribution du logarithme de l’income sur les pays sélectionnés dans les missions précédentes présente des variances plus égalitaires que le premier modèle. Notre modèle ANOVA sera donc potentiellement plus performant. A v e c l e l o g a r i t h m e … 40
  • 41. FABRIKAM FABRIKAM 41 Selon le test de Fischer il existe un impact statistiquement significatif du pays sur le revenu de l’individu • F-statistic = 1.35∗105 • Pvalue = 0 La part de variance expliquée du modèle : • R² = 0,729 • % variance expliquée du modèle : 72,9 % Les Pvalue des variables du modèle sont • globalement significatives au niveau de test 5% • Pvalues < 5% RÉSULTATS LN(REVENUS) ~ PAYS
  • 42. FABRIKAM RÉGRESSIONS LINÉAIRES V a r i a b l e s e x p l i c a t i v e s : R e v e n u m o y e n e t i n d i c e d e G i n i 42
  • 43. FABRIKAM FABRIKAM 43 Selon le test de Fischer il existe un impact statistiquement significatif des variables sur le revenu de l’individu • F-statistic = 1.90∗106 • Pvalue = 0 La part de variance expliquée du modèle : • R² = 0,496 • % variance expliquée du modèle : 49,6 % Les Pvalue des variables du modèle sont • non significatives au niveau de test 5% • Pvalues > 5% sauf pour le revenu moyen mj RÉSULTATS REVENUS ~ GJ*MJ
  • 44. FABRIKAM FABRIKAM 44 Selon le test de Fischer il existe un impact statistiquement significatif des variables sur le revenu de l’individu • F-statistic = 5.18∗106 • Pvalue = 0 La part de variance expliquée du modèle : • R² = 0,728 • % variance expliquée du modèle : 72,8 % Les Pvalue des variables du modèle sont • Significatives au niveau de test 5% • Pvalues < 5% RÉSULTATS LN(REVENUS) ~ GJ*LN(MJ)
  • 45. FABRIKAM FABRIKAM DÉCOMPOSITION DE LA VARIANCE Variance expliquée du modèle : 72,82 % Variance expliquée par le pays : 70,05 % Variance expliquée par les autres facteurs : 2,77 % V a r i a n c e e x p l i q u é e p a r l e p a y s 45 Table d'analyse de variances avec Statsmodels
  • 46. FABRIKAM AMÉLIORATION DU MODÈLE A j o u t d e l a c l a s s e d e r e v e n u d e s p a r e n t s 46
  • 47. FABRIKAM FABRIKAM 47 Selon le test de Fischer il existe un impact statistiquement significatif des variables sur le revenu de l’individu • F-statistic = 9.86∗105 • Pvalue = 0 La part de variance expliquée du modèle : • R² = 0,543 • % variance expliquée du modèle : 54,3 % Les Pvalue des variables du modèle sont • Significatives au niveau de test 5% • Pvalues < 5% RÉSULTATS REVENUS ~ GJ*MJ*CI,PARENTS
  • 48. FABRIKAM FABRIKAM 48 Selon le test de Fischer il existe un impact statistiquement significatif des variables sur le revenu de l’individu • F-statistic = 3.00∗106 (meilleur résultat) • Pvalue = 0 La part de variance expliquée du modèle : • R² = 0,784 (meilleur modèle) • % variance expliquée du modèle : 78,4 % Les Pvalue des variables du modèle sont • Toutes significatives au niveau de test 5% • Pvalues < 5% RÉSULTATS L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
  • 49. FABRIKAM FABRIKAM DÉCOMPOSITION DE LA VARIANCE Variance expliquée du modèle : 78,4 % Variance expliquée par le pays et la classe de revenu des parents : 76,16 % Variance expliquée par les autres facteurs : 2,23 % Ce modèle est donc le meilleur des modèles testés. Nous réaliserons donc les tests sur ce dernier. V a r i a n c e e x p l i q u é e p a r l e p a y s 49 Table d'analyse de variances avec Statsmodels
  • 50. FABRIKAM PERFORMANCE DU MODÈLE A n a l y s e d e s i n d i c a t e u r s 50
  • 51. FABRIKAM FABRIKAM 51 Les points de leviers sont un type de valeur aberrante. Définissons : • p (nombre de variables) = 4 • n = (nombre d’individus) = 5 800 000 Le seuil leviers est fixé par la formule : 𝑆𝑒𝑢𝑖𝑙 = 2 ∗ 𝑝 𝑛 Influences est un objet Statsmodels défini par le module get_influence() Les leviers par influences.hat_matrix_diag ANALYSE DES LEVIERS L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
  • 52. FABRIKAM FABRIKAM 52 Les résidus sont dit studentisés lorsqu’ils sont divisés par leur écart-type empirique. Le seuil des résidus studentisés est fixé par une loi de Student à 𝑛 − 𝑝 − 1 degrés Pour les grands échantillons il est compris entre -2 et 2 Les résidus studentisés sont calculés via la fonction influences.resid_studentized_internal LES RÉSIDUS STUDENTISÉS L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
  • 53. FABRIKAM FABRIKAM 53 Estimation utilisée pour l' influence d'un point lors d'une analyse de régression par les moindres carrés. Le seuil des distances de Cook est fixé par : 𝑆𝑒𝑢𝑖𝑙 = 4 𝑛 − 𝑝 Les distances de Cook sont calculées via la fonction influences.cooks_distance[0] LES DISTANCES DE COOK L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
  • 54. FABRIKAM FABRIKAM COLINÉARITÉ DES VARIABLES La colinéarité va nous indiqué en terme non statistique que plusieurs variables représentent la même chose. Les FIV estiment de combien la variance d’un coefficient est augmentée en raison d’une relation linéaire avec d’autres variables. Nous avons eu des warnings lors de la modélisation, il est donc impératif de vérifier. On remarque ici de fortes colinéarités ce qui peut effectivement impacter la performance de notre modèle. f a c t e u r s d ’ i n f l a t i o n d e l a v a r i a n c e 54
  • 55. FABRIKAM FABRIKAM HOMOSCÉDASTICITÉ C'est un test basé sur un test du χ² : si la statistique du test de Breusch-Pagan est supérieure à celle obtenue par le test du Chi2, c'est-à-dire si la p- value est inférieure au seuil fixé de 5%, alors on rejette l'hypothèse nulle d'homoscédasticité. La p-value est ici inférieure à 5 %, on rejette donc l'hypothèse selon laquelle les variances sont constantes. T e s t d e B r e u s c h - P a g a n 55
  • 56. FABRIKAM FABRIKAM NORMALITÉ DES RÉSIDUS Selon le test de Shapiro-Wilk, l'hypothèse de normalité est rejetée au niveau de test 5%, mais nous avons un warning dû au grand nombre d'individus. Nous vérifions donc la distribution des résidus avec Seaborn. La p-value est ici inférieure à 5 %, mais la distribution projetée avec Seaborn semble suivre une distribution normale. T e s t d e S h a p i r o - W i l k 56
  • 57. FABRIKAM FABRIKAM NORMALITÉ DES RÉSIDUS Nous avons édité le diagramme quantile-quantile pour vérifier cette hypothèse de normalité. En comparant les quantiles théoriques et les quantiles observés, on remarque que la courbe est proche de la première bissectrice ce qui nous permet de confirmer l’hypothèse de normalité des résidus. Q Q P l o t 57
  • 58. FABRIKAM EN OBSERVANT LE COEFFICIENT DE RÉGRESSION ASSOCIÉ À L’INDICE DE GINI, PEUT-ON AFFIRMER QUE LE FAIT DE VIVRE DANS UN PAYS PLUS INÉGALITAIRE FAVORISE PLUS DE PERSONNES QU’IL N’EN DÉFAVORISE ? Plus l'indice de Gini est élevé, plus la répartition du pays est inégalitaire. De ce fait, une petite proportion de la population détient la plus grosse part des richesses. Les écarts dans les salaires sont très élevés avec des revenus par individus massivements faibles. Le coefficient de régression de l'indice de Gini, certes faible mais positif, ne nous permet pas d'affirmer que le fait de vivre dans un pays plus inégalitaire favorise plus de personnes qu'il n'en défavorise.
  • 59. FABRIKAM CONCLUSION 59 Notre dernier modèle basé sur les logarithmes du revenu moyen du pays, de l’indice de Gini et de la classe de revenu des parents est relativement performant dans ses prédictions (variance expliquée de 78% environ). Cependant, les fortes colinéarités et l’hétéroscédasticité remarquées nous portent à croire que ce modèle peut encore être amélioré en ajoutant par exemple d’autres variables sociétales ou en tenant compte des facteurs géographiques. Tout dépendra du niveau de confiance que nous souhaitons atteindre avec notre modèle de prédiction de revenus.
  • 60. FABRIKAM MERCI W W W . E Q U I T A B L E B A N K . C O M M I C H A E L F U M E R Y 0 6 . 5 9 . 2 0 . 6 5 . 3 9 m f u m e r y @ e q u i ta b l e b a n k . c o m