1. FABRIKAM
MODÈLE DE PRÉDICTION DE REVENUS
A c q u i s i t i o n d e n o u v e a u x c l i e n t s
E q u i t a b l e B a n k
Michael Fumery – Service Data – V01-01
2. FABRIKAM
SOMMAIRE
Le groupe souhaite cibler de nouveaux clients potentiels, plus
particulièrement les jeunes en âge d'ouvrir leur tout premier compte
bancaire. Cependant, il est nécessaire de cibler les prospects les plus
susceptibles d'avoir, plus tard dans leur vie, de hauts revenus.
Notre équipe Datas a donc reçu pour mission de créer un modèle
permettant de déterminer le revenu potentiel d'une personne.
2
1. Présentation des sources de données,
2. Construction & description du dataset
étendu pour l’analyse,
3. Analyse de la diversité des pays
sélectionnés par Clustering,
4. Traitement des coefficients d’élasticité et
distribution conditionnelle des revenus,
5. Création des modèles ANOVA et
régressions linéaires,
6. Tests sur le modèle sélectionné.
4. FABRIKAM
FABRIKAM
DONNÉES DE LA
WORLD INCOME
4
• Ce fichier CSV contient les données de la
distribution des revenus d’un bon
nombre de pays pour 2008.
• Ces revenus sont traités en centiles de la
population pour la donnée Income
(revenu moyen de la classe).
• On remarque que certaines données pour
la variable « gdpppp » sont manquantes.
5. FABRIKAM
FABRIKAM 5
Nous avons donc traité les données
manquantes :
• 2 Pays concernés :
• Le Kosovo (XKX)
• West Bank and Gaza (PSE)
• Les données ont été récupérées
sur le site de la World Bank et
appliqués à tous les quantiles
pour chacun des pays.
• Nous avons donc à présent 11 599
individus également dans la
variable « gdpppp ».
6. FABRIKAM
FABRIKAM 6
Description du dataset :
• Le jeu de données compte donc
116 pays,
• Plusieurs années sont présentes,
s’étalant de 2004 à 2011,
• 1 quantile est donc absent : 116
pays x 100 quantiles = 11600.
Nous avons vérifié la liste des pays
ayant des données autres que 2008,
et pour cette liste, aucune autre
donnée n’est disponible en 2008.
Nous les conservons donc pour ne
pas se priver de ces pays.
7. FABRIKAM
FABRIKAM
1
5
15
76
12
6
1
0
10
20
30
40
50
60
70
80
2004 2006 2007 2008 2009 2010 2011
Répartition des pays présents par années
Les 116 pays du jeu de données de la World
Income Distribution sont donc répartis sur
7 années de 2004 à 2011.
Chacun de ces pays n’est présent que pour
1 seule année (pas de doublons)
Après de nombreuses recherches de datas, les répartitions
en centiles des données de la world income pour ces pays
en 2008 sont introuvables. Nous avons donc travaillé avec
ces différentes années.
7
8. FABRIKAM
FABRIKAM 8
Recherche du quantile manquant :
Après analyse avec Python et Pandas,
nous avons déterminé que le quantile
manquant est le 41ème centile de la
Lituanie (LTU)
Grâce à la fonction Regplot de Seaborn,
nous avons pu extrapoler la valeur de ce
quantile manquant et lui affecter dans le
dataset sa valeur 4870
A ce stade, toutes les données
manquantes de ce dataset ont été
complétées. Nous avons inséré la table
dans une base MySQL.
Projection des quantiles 20 à 60 de la Lituanie
9. FABRIKAM
FABRIKAM
DONNÉES DE LA
POPULATION
9
• Les datas population ont été téléchargées
sur le site de la World Bank.
• Population.csv, converti en dataframe
Pandas nous donne la population de
chaque pays depuis 1960.
• Metadata_Country.csv contient des
données de classification comme la
région ou le groupe de revenus.
Nous avons créé un dataframe étendu avec
ces données combinées pour les années de
2004 à 2011.
10. FABRIKAM
FABRIKAM
6.408911
6.56992
6.651302
6.733924
6.816505
6.898733
6.97968
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
7
7.1
2004 2006 2007 2008 2009 2010 2011
Population du dataset 2004 – 2011
en Milliard d’habitants.
Nettoyage et vérification des données de
population :
• Nettoyages effectués :
• Suppression des agglomérats
• Suppression des non-classifiés
• Nous avons ensuite vérifié la population
mondiale par année du jeu de données.
Ces données semblent cohérentes pour
les données mondiales.
Les données ont ensuite été passées en
ligne puis insérées dans la base MySQL.
10
11. FABRIKAM
FABRIKAM
LES INDICES DE
GINI
11
• Les datas sur l’indice de Gini des pays ont
été téléchargées sur le site de la World
Bank.
• Après plusieurs manipulations avec
Python, on remarque que de nombreux
indices sont manquants.
• Nous stockons donc ces données dans la
base MySQL. Les données manquantes
seront recalculées ensuite.
Nous avons à présent stocké les données
nettoyées de la World Income, de
population et les indices de Gini. Un
dataframe étendu doit être créé pour la
suite des manipulations.
14. FABRIKAM
FABRIKAM 14
Mise à jour des données de
Taïwan :
On remarque dans la fonction
info() que les données de
population, région et income
group sont manquantes pour
ce pays.
Nous les avons complétées
avec les données croisées de
plusieurs sources.
15. FABRIKAM
FABRIKAM 15
Calcul des indices de Gini manquants :
Nous avons utilisé les calculs de la
courbe de Lorenz et son AUC pour
compléter les indices de Gini.
Pour chaque pays, l’indice de Gini
manquant a donc été recalculé et
complété dans le Dataframe final.
17. FABRIKAM
FABRIKAM 17
L’analyse couvre donc 116 pays
et les données sont réparties sur
7 années de 2004 à 2011.
Nous pouvons considérer que
92% de la moyenne de la
population mondiale de cette
tranche sera couverte.
La distribution des revenus sera
traitée en centiles, ce qui
revient à discrétiser notre jeu de
données pour analyser des
classes de revenus.
Les modèles mathématiques et
probabilistes seront donc plus
performants.
19. FABRIKAM
FABRIKAM
KMEANS ITÉRATIF
• Afin d’évaluer la meilleure classification, nous
avons réalisé un clustering Kmeans itératif
projeté sur le premier plan factoriel de l’ACP.
• Grâce à la méthode des silhouettes et à la
visualisation de ces projections, nous avons
défini que le meilleur clustering est celui en 4
groupes.
• Certains pays étant très éloignés de la
moyenne, nous les avons écartés du Kmeans
et ils seront analysés ensuite avec les pays
sélectionnés (Inde, Chine, Fidji, USA)
P o u r s é l e c t i o n d e s
p a y s r e p r é s e n t a t i f s
19
20. FABRIKAM
FABRIKAM 20
Voici donc la projection des 112 pays
restants en 4 Clusters.
Les centroïdes ont été placés et la
contribution à l’inertie de chaque individu
calculée pour sélectionner les pays les plus
représentatifs de chaque groupe.
Le dataframe a été étendu du numéro de
Cluster pour conduire les analyses de
distribution des variables.
21. FABRIKAM
FABRIKAM
AN ALYS E DES DIST RIBUT IONS
• On remarque que la distribution de la
variable Income présente de nombreux
outliers.
• Pour la variable GDP,PPP la variance semble
constante mais les médianes sont
relativement différentes.
• Enfin, pour l’indice de Gini, les variances sont
différentes pour certains clusters et les
médianes sont également d’ordres différents.
B o x p l o t d e s v a r i a b l e s
d e n o s c l u t e r s
21
22. FABRIKAM
FABRIKAM 22
Sélection finale des pays à analyser
Pour chaque groupe, nous avons isolé les
pays ayant la meilleure inertie et
sélectionné les plus représentatifs (en terme
de volume de données notamment).
La liste finale des pays pour l’analyse
suivante est donc :
• Brésil
• Indonésie
• Luxembourg
• Norvège
• Slovaquie
• Afrique du sud
• Chine
• USA
• France
23. FABRIKAM 23
On remarque que la distribution des revenus suit pour
chaque pays représenté la même dynamique à des
échelles différentes.
Pour vérifier l'égalité des répartitions de revenus
moyens, nous allons tracer les courbes de Lorenz de ces
pays.
24. FABRIKAM
FABRIKAM
COURBES DE LORENZ
• Plus la courbe s’éloigne de la première
bissectrice, plus la répartition est inégalitaire
et donc plus l’indice de Gini augmente.
• On remarque donc que les inégalités de
répartition des revenus sont très variables en
fonction des pays.
• On peut voir notamment que des pays
comme le Brésil ou l’Afrique du Sud ont des
répartition très inégalitaires des richesses.
A n a l y s e d e l a
r é p a r t i t i o n d e s r e v e n u
24
25. FABRIKAM
FABRIKAM 25
Evolution de l’indice de Gini sur la période
analysée (2004 – 2011)
Notre base de données des indices de Gini
présentait beaucoup de manquants. Nous
avons complété cette dernière avec une
nouvelle source wider.unu.edu
Les dernières données manquantes ont
ensuite été interpolées en Python.
On peut constater que ce graphique final
nous montre des indices relativement
stables sur la période analysée.
26. FABRIKAM
FABRIKAM 26
Classements des pays par indices de Gini
Comme demandé, nous avons donc édité la
liste des 5 pays ayant le Gini le plus faible et
les 5 pays ayant le Gini le plus fort.
La moyenne de cet indice au niveau
mondiale est de 37,82.
La France quant à elle, avec un indice de
Gini à 33 se situe à la 35ème position du
classement ascendant.
28. FABRIKAM
CONTEXTE
Pour la mise en production des régressions linéaires
et ANOVA, nous avions besoins de 3 variables :
L’indice de Gini du Pays, le revenu moyen du pays et
la classe de revenu des parents.
28
A ce stade, nous avons à disposition deux des
trois variables explicatives souhaitées :
𝑚𝑗 : le revenu moyen du pays j
𝐺𝑗 : l'indice de Gini du pays j
Il nous manque donc, pour un individu i , la classe
de revenu Ci,parents de ses parents, quelque soit le
nombre de parents de i.
Nous allons donc simuler cette information grâce
à un coefficient (propre à chaque pays j)
mesurant une corrélation entre le revenu de
l'individu i et le revenu de ses parents.
Ce coefficient sera ici appelé coefficient
d'élasticité, il mesure la mobilité
intergénérationnelle du revenu.
29. FABRIKAM
FABRIKAM
S OURCES DE DON N É ES DES
COE FFICIE N TS D’É LAST ICIT É
Nous avons utilisé ici 2 fichiers de données pour
intégrer ces coefficient d’élasticité :
• elasticity.txt,
• GDIM Dataset de la World Bank
Les données, dans les 2 cas, sont partielles et
datées. Il est nécessaire de réaliser un mix des 2
pour obtenir des données complètes.
Après manipulation des données, les 11600
individus du dataset sont complétés de leur
coefficient d’élasticité.
M i x d e p l u s i e u r s
f i c h i e r s d e d o n n é e s
29
elasticity.txt
GDIM Dataset
30. FABRIKAM
FABRIKAM 30
Calcul de 𝒀𝒄𝒉𝒊𝒍𝒅 pour une valeur donnée de 𝒑𝒋
La formule de calcul de cette variable est la
suivante :
Ychild = e(α + pjln(yparents) + ε)
Nous avons dans un premier temps généré un
grand nombre de réalisations d'une variable
𝒍𝒏 𝒀𝒑𝒂𝒓𝒆𝒏𝒕𝒔 selon une loi normale (1000 fois le
nombre de quantile)
Conjointement, nous avons généré le même
nombre de réalisation du terme d’erreur ε
selon une loi normale de moyenne 0 et d’écart-
type 1. (standardisation par centrage /
réduction)
31. FABRIKAM
FABRIKAM 31
Calcul des classes de revenus enfants et
parents
Une fois 𝑌𝑐ℎ𝑖𝑙𝑑 et 𝑌𝑝𝑎𝑟𝑒𝑛𝑡𝑠 calculés, nous leur
attribuons leurs classes de revenus respectives
𝑪𝒊, 𝒄𝒉𝒊𝒍𝒅 et 𝑪𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕𝒔 (leurs quantiles).
Les résultats sont stockés dans un DataFrame
Pandas sample qui nous servira de matrice pour
le calcul des distributions conditionnelles
32. FABRIKAM
FABRIKAM 32
Impact de 𝒑𝒋 sur les distributions
conditionnelles de 𝑪𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕𝒔 :
Nous avons donc calculé des distributions
conditionnelles 𝑃(𝑐𝑖, 𝑝𝑎𝑟𝑒𝑛𝑡 |𝑐𝑖, 𝑐ℎ𝑖𝑙𝑑, 𝑝𝑗) et vérifié
l’impact de 𝑝𝑗 sur un stack bars avec Matplotlib.
On remarque aisément ainsi qu’un 𝑝𝑗 traduisant
une forte mobilité (0,1) facilite la mobilité
intergénérationnelle de la classe de revenus. Les
probabilités des quantiles enfants sont mieux
réparties.
33. FABRIKAM
FABRIKAM 33
Pour retrouver la probabilité de
𝑷 𝒄𝒊, 𝒑𝒂𝒓𝒆𝒏𝒕 = 𝟔 𝒄𝒊, 𝒄𝒉𝒊𝒍𝒅 = 𝟐 , 𝒑𝒋 = 𝟎, 𝟓)
par exemple, nous pouvons utiliser une
fonction matricielle proba_cond ou tout
simplement utiliser le dataframe obtenu
des probabilité conditionnelles calculées.
34. FABRIKAM
EN RÉSUMÉ …
A n a l y s e d e s d i s t r i b u t i o n s c o n d i t i o n n e l l e s
Nous avons pu mettre en place nos calculs de probabilité
conditionnelles sur la base des grands nombres aléatoires, tout en
vérifiant l’impact du coefficient d’élasticité sur les résultats.
Afin de créer notre modélisation, nous devons appliquer ces calculs de
classes conditionnelles de revenus des parents sur notre jeu de
données World Income Distribution.
Nous créons donc 499 clones de nos individus initiaux afin d’obtenir
pour chaque classe de revenus enfants de chaque pays : 500 individus.
Puis nous leur affectons la classe de revenu des parents en fonction
de leur 𝑪𝒊, 𝒄𝒉𝒊𝒍𝒅 et de leur 𝒑𝒋 , conformément aux distributions
conditionnelles calculées précédemment.
34
35. FABRIKAM
FABRIKAM 35
Après avoir réalisé cette affectation, nous
avons toutes les variables nécessaires à la
mise en place de nos régressions linéaires et
ANOVA :
• 𝑚𝑗 : Revenu moyen du pays
• 𝐺𝑗 : Coefficient de Gini du pays
• 𝐶𝑖, 𝑝𝑎𝑟𝑒𝑛𝑡𝑠 : Classe de revenus des parents
La taille 𝒏 de l’échantillon WID est à présent
de 5 800 000 individus.
37. FABRIKAM
MÉTHODOLOGIE
37
Nous cherchons à expliquer le revenu d’un
individu en fonction de plusieurs variables
explicatives (Pays, Gini et classe de revenu des
parents, …).
Dans un premier temps, nous allons utiliser
comme variable explicative uniquement le pays
de l’individu.
Il s’agit donc d’étudier l’impact d’une variable
qualitative sur une variable quantitative. Nous
réaliserons donc une ANOVA.
Les variables explicatives suivantes seront traitées
par régression linéaire afin de trouver le meilleur
modèle.
Enfin, nous vérifierons la performance du modèle
sélectionné ainsi que les hypothèses posées.
38. FABRIKAM
FABRIKAM
ANOVA
REVENUS ~ PAYS
Ce boxplot de la distribution de l’income sur les
pays sélectionnés dans les missions précédentes
nous montre clairement que les variances ne
sembles pas être égales.
Notre modèle ANOVA risque donc de ne pas être
très performant. Nous tenterons par la suite
cette même modélisation mais avec le
logarithme de l’income.
V é r i f i c a t i o n d e l a
v a r i a n c e d e l ’ i n c o m e
38
39. FABRIKAM
FABRIKAM 39
On remarque donc qu'il existe, selon le test de
Fischer, un impact statistiquement significatif du
pays sur le revenu de l’individu
• F-statistic = 4.97∗104
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,496
• % variance expliquée du modèle : 49,6 %
Les Pvalue des variables du modèle sont
• globalement significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
REVENUS ~ PAYS
40. FABRIKAM
FABRIKAM
ANOVA
LN(REVENUS) ~ PAYS
Ce boxplot de la distribution du logarithme de
l’income sur les pays sélectionnés dans les
missions précédentes présente des variances
plus égalitaires que le premier modèle.
Notre modèle ANOVA sera donc potentiellement
plus performant.
A v e c l e l o g a r i t h m e …
40
41. FABRIKAM
FABRIKAM 41
Selon le test de Fischer il existe un impact
statistiquement significatif du pays sur le revenu de
l’individu
• F-statistic = 1.35∗105
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,729
• % variance expliquée du modèle : 72,9 %
Les Pvalue des variables du modèle sont
• globalement significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
LN(REVENUS) ~ PAYS
43. FABRIKAM
FABRIKAM 43
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 1.90∗106
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,496
• % variance expliquée du modèle : 49,6 %
Les Pvalue des variables du modèle sont
• non significatives au niveau de test 5%
• Pvalues > 5% sauf pour le revenu moyen mj
RÉSULTATS
REVENUS ~ GJ*MJ
44. FABRIKAM
FABRIKAM 44
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 5.18∗106
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,728
• % variance expliquée du modèle : 72,8 %
Les Pvalue des variables du modèle sont
• Significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
LN(REVENUS) ~ GJ*LN(MJ)
45. FABRIKAM
FABRIKAM
DÉCOMPOSITION DE
LA VARIANCE
Variance expliquée du modèle : 72,82 %
Variance expliquée par le pays : 70,05 %
Variance expliquée par les autres facteurs : 2,77 %
V a r i a n c e e x p l i q u é e
p a r l e p a y s
45
Table d'analyse de variances avec Statsmodels
47. FABRIKAM
FABRIKAM 47
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 9.86∗105
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,543
• % variance expliquée du modèle : 54,3 %
Les Pvalue des variables du modèle sont
• Significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
REVENUS ~ GJ*MJ*CI,PARENTS
48. FABRIKAM
FABRIKAM 48
Selon le test de Fischer il existe un impact
statistiquement significatif des variables sur le
revenu de l’individu
• F-statistic = 3.00∗106 (meilleur résultat)
• Pvalue = 0
La part de variance expliquée du modèle :
• R² = 0,784 (meilleur modèle)
• % variance expliquée du modèle : 78,4 %
Les Pvalue des variables du modèle sont
• Toutes significatives au niveau de test 5%
• Pvalues < 5%
RÉSULTATS
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
49. FABRIKAM
FABRIKAM
DÉCOMPOSITION DE
LA VARIANCE
Variance expliquée du modèle : 78,4 %
Variance expliquée par le pays et la classe de
revenu des parents : 76,16 %
Variance expliquée par les autres facteurs : 2,23 %
Ce modèle est donc le meilleur des modèles
testés. Nous réaliserons donc les tests sur ce
dernier.
V a r i a n c e e x p l i q u é e
p a r l e p a y s
49
Table d'analyse de variances avec Statsmodels
51. FABRIKAM
FABRIKAM 51
Les points de leviers sont un type de valeur
aberrante.
Définissons :
• p (nombre de variables) = 4
• n = (nombre d’individus) = 5 800 000
Le seuil leviers est fixé par la formule :
𝑆𝑒𝑢𝑖𝑙 = 2 ∗
𝑝
𝑛
Influences est un objet Statsmodels défini par le
module get_influence()
Les leviers par influences.hat_matrix_diag
ANALYSE DES LEVIERS
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
52. FABRIKAM
FABRIKAM 52
Les résidus sont dit studentisés lorsqu’ils sont
divisés par leur écart-type empirique.
Le seuil des résidus studentisés est fixé par une loi de
Student à 𝑛 − 𝑝 − 1 degrés
Pour les grands échantillons il est compris entre -2 et 2
Les résidus studentisés sont calculés via la fonction
influences.resid_studentized_internal
LES RÉSIDUS STUDENTISÉS
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
53. FABRIKAM
FABRIKAM 53
Estimation utilisée pour l' influence d'un point lors
d'une analyse de régression par les moindres carrés.
Le seuil des distances de Cook est fixé par :
𝑆𝑒𝑢𝑖𝑙 =
4
𝑛 − 𝑝
Les distances de Cook sont calculées via la fonction
influences.cooks_distance[0]
LES DISTANCES DE COOK
L N ( R E V E N U S ) ~ G J * L N ( M J ) * L N ( C I , PA R E N T S )
54. FABRIKAM
FABRIKAM
COLINÉARITÉ DES
VARIABLES
La colinéarité va nous indiqué en terme non
statistique que plusieurs variables représentent la
même chose.
Les FIV estiment de combien la variance d’un
coefficient est augmentée en raison d’une relation
linéaire avec d’autres variables.
Nous avons eu des warnings lors de la
modélisation, il est donc impératif de vérifier.
On remarque ici de fortes colinéarités ce qui peut
effectivement impacter la performance de notre
modèle.
f a c t e u r s d ’ i n f l a t i o n
d e l a v a r i a n c e
54
55. FABRIKAM
FABRIKAM
HOMOSCÉDASTICITÉ
C'est un test basé sur un test du χ² : si la statistique
du test de Breusch-Pagan est supérieure à celle
obtenue par le test du Chi2, c'est-à-dire si la p-
value est inférieure au seuil fixé de 5%, alors on
rejette l'hypothèse nulle d'homoscédasticité.
La p-value est ici inférieure à 5 %, on rejette donc
l'hypothèse selon laquelle les variances sont
constantes.
T e s t d e B r e u s c h - P a g a n
55
56. FABRIKAM
FABRIKAM
NORMALITÉ DES
RÉSIDUS
Selon le test de Shapiro-Wilk, l'hypothèse de
normalité est rejetée au niveau de test 5%, mais
nous avons un warning dû au grand nombre
d'individus.
Nous vérifions donc la distribution des résidus
avec Seaborn.
La p-value est ici inférieure à 5 %, mais la
distribution projetée avec Seaborn semble suivre
une distribution normale.
T e s t d e S h a p i r o - W i l k
56
57. FABRIKAM
FABRIKAM
NORMALITÉ DES
RÉSIDUS
Nous avons édité le diagramme quantile-quantile
pour vérifier cette hypothèse de normalité.
En comparant les quantiles théoriques et les
quantiles observés, on remarque que la courbe est
proche de la première bissectrice ce qui nous
permet de confirmer l’hypothèse de normalité
des résidus.
Q Q P l o t
57
58. FABRIKAM
EN OBSERVANT LE COEFFICIENT DE RÉGRESSION ASSOCIÉ À L’INDICE DE GINI, PEUT-ON
AFFIRMER QUE LE FAIT DE VIVRE DANS UN PAYS PLUS INÉGALITAIRE FAVORISE PLUS DE
PERSONNES QU’IL N’EN DÉFAVORISE ?
Plus l'indice de Gini est élevé, plus la répartition du pays est inégalitaire. De ce fait, une petite proportion de la
population détient la plus grosse part des richesses. Les écarts dans les salaires sont très élevés avec des revenus par
individus massivements faibles.
Le coefficient de régression de l'indice de Gini, certes faible mais positif, ne nous permet pas d'affirmer que le fait de
vivre dans un pays plus inégalitaire favorise plus de personnes qu'il n'en défavorise.
59. FABRIKAM
CONCLUSION
59
Notre dernier modèle basé sur les logarithmes du
revenu moyen du pays, de l’indice de Gini et de la
classe de revenu des parents est relativement
performant dans ses prédictions (variance
expliquée de 78% environ).
Cependant, les fortes colinéarités et
l’hétéroscédasticité remarquées nous portent à
croire que ce modèle peut encore être amélioré
en ajoutant par exemple d’autres variables
sociétales ou en tenant compte des facteurs
géographiques.
Tout dépendra du niveau de confiance que nous
souhaitons atteindre avec notre modèle de
prédiction de revenus.
60. FABRIKAM
MERCI
W W W . E Q U I T A B L E B A N K . C O M
M I C H A E L F U M E R Y
0 6 . 5 9 . 2 0 . 6 5 . 3 9
m f u m e r y @ e q u i ta b l e b a n k . c o m