2. Votre logo ou nom ici
Le contexte …
Souhait de développement à l’international pour
exporter nos poulets sans les produire sur place.
Quels seront les pays candidats ?
Analyse exploratoire et statistiques inférentielles.
Sommaire
1. Analyse des régimes alimentaires mondiaux
2. Enrichissement des données : variables économiques
3. Présentation des diverses hypothèses
4. Où exporter nos poulets ?
5. Quelques statistiques complémentaires.
2
3. Votre logo ou nom ici
Analyse des régimes
alimentaires mondiaux
Quelles données avons-nous analysé ?
Première classification via CAH et Kmeans
3
4. Votre logo ou nom ici
Les fichiers de données FAO
Disponibilité alimentaire
en Kcal/personne et g de
protéines/personne de
chaque pays pour 2017
Proportion de protéines
d'origine animale par
rapport à la quantité
totale de protéines dans
la disponibilité alimentaire
de chaque pays pour 2017
Population :
Evolution 2015 / 2017
Disponibilité
alimentaire
Protéines animales
Calcul de l’évolution de la
population de chaque
pays entre 2015 et 2017
4
Source : http://www.fao.org/faostat/fr/#data
5. Votre logo ou nom ici
Création d’un premier DataFrame avec Python Pandas
5
6. Votre logo ou nom ici
Quelques statistiques descriptives sur la dispo. alimentaire
6
Plus l’évolution de la population est importante, plus la
disponibilité alimentaire par personne diminue.
La répartition de la disponibilité alimentaire est plutôt égalitaire
comme l’indique la courbe de Lorenz et l’indice de Gini.
7. Votre logo ou nom ici
Méthode de classification
Classification ascendante
hiérarchique
Création d’un
dendrogramme à 5
clusters.
Algorithme Kmeans
Trouver des groupes en
minimisant l’inertie
intraclasses.
ACP
Etude des liaisons entre
variables dans le nuage
d’individus.
7
8. Votre logo ou nom ici
Préparation des données pour les analyses
Afin de pouvoir créer des clusters cohérents, il faut d’abord bien préparer les données :
Phase 1
Traiter les données manquantes
• Eviter les données
aberrantes qui pourraient
fausser la constitution
des groupes.
• Traiter ou supprimer les
données manquantes.
Obtenir un fichier sain
Phase 2
Centrage et réduction
• Minimiser l’impact des
différences d’unités des
variables.
• Comparer des variables
de même moyenne et
même variance.
• 𝑋𝐶𝑅 =
𝑋−𝑋
𝑠𝑋
Variables comparables
Phase 3
Déterminer le nombre de groupes
• Pour ce premier
clustering, nous avons
décidé de répartir nos
172 pays en 5 groupes.
• Analyser ensuite si ce
nombre de 5 groupes est
cohérent.
Meilleure répartition
8
9. Votre logo ou nom ici
Première CAH
Classification ascendante hiérarchique (Méthode
de Ward) sur les 172 pays pour créer 5 groupes à
analyser avec le minimum d’inertie intraclasse
9
10. Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
10
11. Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
11
GROUPE 1
12. Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
12
GROUPE 2
13. Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
13
GROUPE 3
14. Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
14
GROUPE 4
15. Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
15
GROUPE 5
16. Votre logo ou nom ici
Affichage de la répartition sur world map
16
GROUPE 5
17. Votre logo ou nom ici
Analyse des variables des groupes
Une disponibilité
alimentaire trop faible va
indiquer une hausse des
besoins pour couvrir la
croissance
La croissance va favoriser
là également un besoin
croissant des protéines
animales
Evolution
significative de la
population
Disponibilité
alimentaire faible
Ratio protéines
animales / total
faible
Une bonne croissance
démographique va
favoriser l’augmentation
des besoins alimentaires
17
Pour l’export de nos poulets, les pays les plus intéressants doivent posséder les caractéristiques suivantes :
18. Votre logo ou nom ici
Affichage des distributions de variables de groupe
18
19. Votre logo ou nom ici
Vérification avec
l’algorithme Kmeans
Les groupes 1 et 2, comptant 68 pays, semblent
être les plus adaptés. Nous allons vérifier grâce à
une seconde méthode de classification, toujours
en 5 groupes.
19
20. Votre logo ou nom ici
Algorithme de clustering par Kmeans
20
GROUPE 5
Dès que l’algorithme Kmeans a convergé (Les
centres de classe restent immobile), les clusters
sont affectés sur les données centrées – réduites.
21. Votre logo ou nom ici
Comparaison des groupes
des 2 méthodes
Vérifions si les groupes CAH et Kmeans sont
répartis dans les mêmes proportions
21
Kmeans
CAH
0 1 2 3 4
1 27 0 0 1 0
2 12 0 0 28 0
3 0 44 1 0 0
4 0 0 17 1 5
5 0 1 3 0 32
On remarque que les groupes de la CAH sont bien répartis
comparativement aux groupes du Kmeans avec tout de même
quelques différences.
Une ACP (Analyse en composantes principales) a également été
réalisée pour tenter de sélectionner les meilleurs groupes du
Kmeans en les projetant sur les différents plans factoriels.
22. Votre logo ou nom ici
Pourquoi réaliser une ACP ?
22
Il est humainement impossible de visualiser
un nuage de points à plus de 3 dimensions
et donc 3 variables.
Pour créer ces variables synthétiques, nous
allons analyser les corrélations entre les
variables via un cercle de corrélation.
Etudier la variabilité des individus et les corrélations entre les variables.
Pour visualiser les individus et les groupes
formés, nous visualisons un nuage de points
avec les variables à analyser en abscisse et
ordonnée.
Cet exemple a 2 dimensions (2 variables)
Pour visualiser les individus avec l’ensemble
de nos variables, nous allons devoir calculer
des variables synthétiques (composantes
principales) pour distribuer les points sur un
plan factoriel (2 dimensions)
23. Votre logo ou nom ici
Combien d’axes analyser ?
23
Eboulis des valeurs propres : Diagramme de représentation des inerties des axes du nuage d’individus.
L’inertie du nuage de points 𝑁𝐼 est la moyenne
des carrés des distances entre les points 𝑀𝑖 et
leur centre de gravité 𝐺 (Centroïde).
Ici, on remarque que l’inertie sur les 2 premiers
axes (en calculant les variances expliquées) est
égale à 71,48 + 15,69 soit 87,2%
Une analyse sur le premier plan factoriel F1 / F2,
sera donc très satisfaisant.
24. Votre logo ou nom ici
Corrélation des variables
24
Les variables les plus corrélées à F1 sont la disponibilité en
protéines, la disponibilité en Kcal (qui sont d'ailleurs très
fortement corrélées entre elles) et le ratio de protéines
animales sur les protéines totales. La composante principale
F1 (variable synthétique) représente donc bien le bilan
énergétique.
Pour la composante F2, l'évolution de la population est anti-
corrélée à la proportion protéines animales / protéines
totales. Cet axe peut donc représenter les données
démographiques.
25. Votre logo ou nom ici
Projection des clusters Kmeans sur le premier plan factoriel
25
Visualisation des 172 pays en fonction des variables F1 et F2.
A présent, nos pays sont projetés sur un plan en
2 dimensions, plus facilement interprétable.
Les croix rouges représentent les centroïdes de
chacun des 5 Clusters Kmeans.
Cette projection nous permet de mieux
caractériser les groupes pour ensuite faire notre
sélection.
26. Votre logo ou nom ici
Le clustering en 5 groupes est-il idéal ?
26
Méthode du coude (silhouette) pour vérifier le meilleur « K »
On remarque que le nombre de 5 Clusters n'est
pas idéal pour le Kmeans.
La meilleure alternative serait 2 Clusters. Si l'on
veut partitionner un peu plus, il faudrait
considérer un K = 3 ou 4.
Nous avons décidé au départ de séparer les pays
en 5 groupes, nous allons donc rester sur cette
répartition.
27. Votre logo ou nom ici
Affichage des distributions de variables de clusters
27
28. Votre logo ou nom ici 28
Pour synthétiser : les meilleurs
clusters sont ceux ayant un F1
inférieur à -1
29. Votre logo ou nom ici
Sélection des clusters et pays via Kmeans
29
Après vérification, les 2 méthodes
(CAH et Kmeans) ont donné
quasiment la même sélection à 1
pays près.
Nous avons donc une sélection de
69 pays caractérisés par leur bilan
alimentaire.
Il faut à présent ajouter des
variables sociétales à ces pays pour
affiner la sélection finale.
30. Votre logo ou nom ici
Affichage de la répartition sur world map
30
GROUPE 5
31. Votre logo ou nom ici
Synthèse du premier clustering
Nous avons sélectionné 69 pays sur 172 grâce à
un premier regroupement sur leurs bilans
alimentaires.
Caractéristiques :
1. Evolution significative de la population
2. Disponibilité alimentaire trop faible pour la croissance
3. Faible proportion de protéines animales.
31
32. Votre logo ou nom ici
Enrichissement des données du
premier groupe
Avec quelles variables avons-nous étendu notre
fichier de données ?
Seconde classification par CAH et Kmeans
32
33. Votre logo ou nom ici
Les fichiers de données FAO
• Nombre de têtes de
volailles en réserve
• Imports de viande par
habitant
• Imports de viande de
volaille par habitant
• Elevages de volailles
• Consommation de
volailles 2017
• Evolution de la
consommation de
volailles 2015 / 2017
Données
économiques
Les importations et
élevage
Consommation
• PIB total en US $
• Croissance du PIB
• Indice des prix à la
consommation
33
Source : http://www.fao.org/faostat/fr/#data
34. Votre logo ou nom ici
Dataframe des données étendues
34
GROUPE 5
Des statistiques descriptives ont été réalisées sur ce dataset étendu.
Il a été nettoyé et les données manquantes ont été complétées grâce principalement à des algorithmes des régression linéaires et
les moyennes empiriques. (Le détail est disponible dans le notebook P5_Préparation_des_données_initiales)
35. Votre logo ou nom ici
Seconde CAH
Classification ascendante hiérarchique (Méthode
de Ward) sur les 69 pays sélectionnés dans le
premier clustering
35
36. Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
36
GROUPE 1
37. Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
37
GROUPE 2
38. Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
38
GROUPE 3
39. Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
39
GROUPE 4
40. Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
40
GROUPE 5
41. Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
41
GROUPE 6
Une CAH en 6 groupes a été réalisée car 5 groupes n’étaient plus
pertinent pour cette seconde classification.
42. Votre logo ou nom ici
Consommation de volailles
en hausse et faibles
disponibilité
Consommation de volailles
élevée et faible production
avec imports importants
Sélection finale dans
les 2 hypothèses
2 Hypothèses à envisager pour cette seconde sélection
42
H1 H2
Une évolution significative de la
consommation de volailles;
Des élevages de volailles relativement faibles;
Des imports de viandes de volailles encore
relativement faibles (marchés à faible
concurrence).
Une forte consommation de volailles;
Des élevages de volailles relativement faibles;
Des imports de viandes de volailles élevés
(marchés à forte concurrence).
43. Votre logo ou nom ici
Moyennes empiriques des variables groupe CAH
43
GROUPE 5
• Hypothèse H1 : effectif de 34 pays.
• Hypothèse H2 : effectif de 13 pays.
44. Votre logo ou nom ici
Vérification avec
l’algorithme Kmeans
Afin de confirmer la classification par CAH, nous
avons appliqué l’algorithme des Kmeans sur les
69 pays pour vérifier leur clustering
44
45. Votre logo ou nom ici
Quel est le meilleur nombre de clusters ?
45
GROUPE 5
On remarque qu’un clustering en 4 ou 5
groupe est satisfaisant.
Pour rester cohérent avec la CAH, nous
allons réaliser le Kmeans sur 5 groupes.
46. Votre logo ou nom ici
ACP sur les données étendues
46
Ici, le premier plan factoriel va représenter une inertie totale de 42 %.
En analysant le cercle des corrélation, F1 projette donc les besoins alors que F2 va plutôt décrire les disponibilités.
47. Votre logo ou nom ici
Projection des individus sur le premier plan factoriel
47
GROUPE 5
Cette projection va nous permettre de
mieux visualiser notre sélection via les
moyennes empiriques de cluster.
Nous avons également calculé les inerties
intraclasses pour nous aider dans notre
sélection finale.
48. Votre logo ou nom ici
Comparaison des groupes
des 2 méthodes
Vérifions si les groupes CAH et Kmeans sont
répartis dans les mêmes proportions
48
Kmeans
CAH
0 1 2 3 4
1 0 11 0 0 0
2 0 13 4 0 0
3 0 1 16 0 0
4 0 0 0 0 1
5 10 0 0 0 0
6 1 2 3 7 0
Effectifs 11 27 23 7 1
On remarque que les groupes de la CAH sont bien répartis
comparativement aux groupes du Kmeans avec tout de même
quelques différences notamment pour le Kmeans 1.
49. Votre logo ou nom ici
Moyennes empiriques des variables clusters Kmeans
49
GROUPE 5
• Hypothèse H1 : Cluster 2 avec un effectif de 23 pays.
• Hypothèse H2 : Cluster 3 avec un effectif de 7 pays.
50. Votre logo ou nom ici
Synthèse du second clustering
Nous avons sélectionné 47 pays pour la CAH et 30
pays pour le Kmeans sur 69 grâce à un second
regroupement sur les données étendues.
Ces pays sont séparés dans les 2 hypothèses
Les 2 hypothèses :
1. Consommation de volailles en hausse et faibles
disponibilité sous H1.
2. Consommation de volailles élevée et faible
production avec imports importants sous H2.
Nous allons à présent comparer les pays des 2 clusterings
pour réaliser une sélection finale plus fine pour chacune
des hypothèses.
50
51. Votre logo ou nom ici
Caractéristiques des pays qui ne sont pas dans les 2 clusterings
51
GROUPE 5
17 pays sont concernés, en étant soit dans
le clustering CAH, soit dans le Kmeans.
Nous allons ajouter à la sélection finale les
pays correspondant le mieux aux
caractéristiques souhaitées pour H1 ou H2
52. Votre logo ou nom ici
Liste des pays ajoutés :
52
GROUPE 5
53. Votre logo ou nom ici
Liste finale des pays sélectionnés par les 2 regroupements :
53
39 Pays ont été sélectionnés sur les 172 de départ. Cette liste compte toujours les 2 hypothèses.
Il est temps de réaliser la meilleure sélection de pays, dans chaque hypothèse, pour les premiers exports de l’entreprise.
Bangladesh Gabon Maldives Sénégal Kenya
Botswana Ghana Mali Suriname Madagascar
Cameroun Guinée Mauritanie Eswatini Mozambique
Cabo Verde Inde Namibie Oman Rwanda
Sri Lanka Inde Népal Burkina Faso Ouganda
Congo Côte d'Ivoire Vanuatu Soudan Éthiopie
Bénin Cambodge Niger Haïti Zambie
Djibouti Malawi Pakistan République centrafricaine
54. Votre logo ou nom ici
Sélection finale dans les 2
hypothèses de départ
Top 10 des pays avec les meilleures
caractéristiques dans chacune des 2 hypothèses
54
55. Votre logo ou nom ici
Top 10 des pays de l’hypothèse 1
55
GROUPE 5
Consommation de volailles en hausse et faibles disponibilité sous H1
56. Votre logo ou nom ici
Top 10 des pays de l’hypothèse 2
56
GROUPE 5
Consommation de volailles élevée et faible production avec imports importants sous H2
57. Votre logo ou nom ici
Affichage de la répartition sur world map
57
GROUPE 5
58. Votre logo ou nom ici
Préconisation pour un lancement optimal
Pour ma part, pour un lancement des exports de poulets
à l'international, je préconiserai les pays avec demande
croissante et concurrence faible, à savoir les 10 pays
sélectionnés dans l'hypothèse.
Dans un second temps, les pays de l'hypothèse 2, à forte
demande, mais forte concurrence pourraient être
envisagés avec certainement des impacts sur la marge
pour se placer face aux autres importateurs.
58
Guinée
Côte d'Ivoire
Cambodge
République centrafricaine
Malawi
Djibouti
Népal
Haïti
Sri Lanka
Ghana
59. Votre logo ou nom ici
Tests statistiques sur les
variables utilisées
Nous avons testé les variables importantes pour
vérifier l’hypothèse de normalité et comparer 2
Clusters dans le cas gaussien.
59
60. Votre logo ou nom ici
Test d’adéquation à la loi normale
60
GROUPE 5
Pour chacune des variables utilisées dans les 2 clusterings, nous avons appliqué le test de Shapiro-Wilk dans un premier temps, puis le
test de Kolmogorov-Smirnov.
Les pvalues sur la variable Distribution de Dispo. Alim. (Kcal/personne) sont respectivement égales à 0,69 et 0,88. On ne peut donc pas
rejeter l’hypothèse de normalité pour la distribution de cette variable.
61. Votre logo ou nom ici
Test de comparaison de 2 clusters dans le cas gaussien
61
Nous avons graphiquement projeté la distribution de
la variable d’hypothèse gaussienne pour les 2
clusters (d’effectifs proches).
On remarque que les moyennes empiriques des 2
clusters sont éloignés mais que la variance semble
proche.
Nous avons vérifié ces hypothèses via Scipy.stats :