Produisez une étude de marché

Etude
de marché
Analyse des données alimentaires
et sociétales pour exportation de nos poulets

Votre logo ou nom ici
Le contexte …
Souhait de développement à l’international pour
exporter nos poulets sans les produire sur place.
Quels seront les pays candidats ?
Analyse exploratoire et statistiques inférentielles.
Sommaire
1. Analyse des régimes alimentaires mondiaux
2. Enrichissement des données : variables économiques
3. Présentation des diverses hypothèses
4. Où exporter nos poulets ?
5. Quelques statistiques complémentaires.
2

Analyse des régimes
alimentaires mondiaux
Quelles données avons-nous analysé ?
Première classification via CAH et Kmeans
3

Les fichiers de données FAO
Disponibilité alimentaire
en Kcal/personne et g de
protéines/personne de
chaque pays pour 2017
Proportion de protéines
d'origine animale par
rapport à la quantité
totale de protéines dans
la disponibilité alimentaire
de chaque pays pour 2017
Population :
Evolution 2015 / 2017
Disponibilité
alimentaire
Protéines animales
Calcul de l’évolution de la
population de chaque
pays entre 2015 et 2017
4
Source : http://www.fao.org/faostat/fr/#data

Création d’un premier DataFrame avec Python Pandas
5

Quelques statistiques descriptives sur la dispo. alimentaire
6
Plus l’évolution de la population est importante, plus la
disponibilité alimentaire par personne diminue.
La répartition de la disponibilité alimentaire est plutôt égalitaire
comme l’indique la courbe de Lorenz et l’indice de Gini.

Méthode de classification
Classification ascendante
hiérarchique
Création d’un
dendrogramme à 5
clusters.
Algorithme Kmeans
Trouver des groupes en
minimisant l’inertie
intraclasses.
ACP
Etude des liaisons entre
variables dans le nuage
d’individus.
7

Préparation des données pour les analyses
Afin de pouvoir créer des clusters cohérents, il faut d’abord bien préparer les données :
Phase 1
Traiter les données manquantes
• Eviter les données
aberrantes qui pourraient
fausser la constitution
des groupes.
• Traiter ou supprimer les
données manquantes.
Obtenir un fichier sain
Phase 2
Centrage et réduction
• Minimiser l’impact des
différences d’unités des
variables.
• Comparer des variables
de même moyenne et
même variance.
• 𝑋𝐶𝑅 =
𝑋−𝑋
𝑠𝑋
Variables comparables
Phase 3
Déterminer le nombre de groupes
• Pour ce premier
clustering, nous avons
décidé de répartir nos
172 pays en 5 groupes.
• Analyser ensuite si ce
nombre de 5 groupes est
cohérent.
Meilleure répartition
8

Première CAH
Classification ascendante hiérarchique (Méthode
de Ward) sur les 172 pays pour créer 5 groupes à
analyser avec le minimum d’inertie intraclasse
9

Affichage du dendrogramme en 5 groupes
10

11
GROUPE 1

12
GROUPE 2

13
GROUPE 3

14
GROUPE 4

15
GROUPE 5

Affichage de la répartition sur world map
16
GROUPE 5

Analyse des variables des groupes
Une disponibilité
alimentaire trop faible va
indiquer une hausse des
besoins pour couvrir la
croissance
La croissance va favoriser
là également un besoin
croissant des protéines
animales
Evolution
significative de la
population
Disponibilité
alimentaire faible
Ratio protéines
animales / total
faible
Une bonne croissance
démographique va
favoriser l’augmentation
des besoins alimentaires
17
Pour l’export de nos poulets, les pays les plus intéressants doivent posséder les caractéristiques suivantes :

Affichage des distributions de variables de groupe
18

Vérification avec
l’algorithme Kmeans
Les groupes 1 et 2, comptant 68 pays, semblent
être les plus adaptés. Nous allons vérifier grâce à
une seconde méthode de classification, toujours
en 5 groupes.
19

Algorithme de clustering par Kmeans
20
GROUPE 5
Dès que l’algorithme Kmeans a convergé (Les
centres de classe restent immobile), les clusters
sont affectés sur les données centrées – réduites.

Comparaison des groupes
des 2 méthodes
Vérifions si les groupes CAH et Kmeans sont
répartis dans les mêmes proportions
21
Kmeans
CAH
0 1 2 3 4
1 27 0 0 1 0
2 12 0 0 28 0
3 0 44 1 0 0
4 0 0 17 1 5
5 0 1 3 0 32
On remarque que les groupes de la CAH sont bien répartis
comparativement aux groupes du Kmeans avec tout de même
quelques différences.
Une ACP (Analyse en composantes principales) a également été
réalisée pour tenter de sélectionner les meilleurs groupes du
Kmeans en les projetant sur les différents plans factoriels.

Pourquoi réaliser une ACP ?
22
Il est humainement impossible de visualiser
un nuage de points à plus de 3 dimensions
et donc 3 variables.
Pour créer ces variables synthétiques, nous
allons analyser les corrélations entre les
variables via un cercle de corrélation.
Etudier la variabilité des individus et les corrélations entre les variables.
Pour visualiser les individus et les groupes
formés, nous visualisons un nuage de points
avec les variables à analyser en abscisse et
ordonnée.
Cet exemple a 2 dimensions (2 variables)
Pour visualiser les individus avec l’ensemble
de nos variables, nous allons devoir calculer
des variables synthétiques (composantes
principales) pour distribuer les points sur un
plan factoriel (2 dimensions)

Combien d’axes analyser ?
23
Eboulis des valeurs propres : Diagramme de représentation des inerties des axes du nuage d’individus.
L’inertie du nuage de points 𝑁𝐼 est la moyenne
des carrés des distances entre les points 𝑀𝑖 et
leur centre de gravité 𝐺 (Centroïde).
Ici, on remarque que l’inertie sur les 2 premiers
axes (en calculant les variances expliquées) est
égale à 71,48 + 15,69 soit 87,2%
Une analyse sur le premier plan factoriel F1 / F2,
sera donc très satisfaisant.

Corrélation des variables
24
Les variables les plus corrélées à F1 sont la disponibilité en
protéines, la disponibilité en Kcal (qui sont d'ailleurs très
fortement corrélées entre elles) et le ratio de protéines
animales sur les protéines totales. La composante principale
F1 (variable synthétique) représente donc bien le bilan
énergétique.
Pour la composante F2, l'évolution de la population est anti-
corrélée à la proportion protéines animales / protéines
totales. Cet axe peut donc représenter les données
démographiques.

Projection des clusters Kmeans sur le premier plan factoriel
25
Visualisation des 172 pays en fonction des variables F1 et F2.
A présent, nos pays sont projetés sur un plan en
2 dimensions, plus facilement interprétable.
Les croix rouges représentent les centroïdes de
chacun des 5 Clusters Kmeans.
Cette projection nous permet de mieux
caractériser les groupes pour ensuite faire notre
sélection.

Le clustering en 5 groupes est-il idéal ?
26
Méthode du coude (silhouette) pour vérifier le meilleur « K »
On remarque que le nombre de 5 Clusters n'est
pas idéal pour le Kmeans.
La meilleure alternative serait 2 Clusters. Si l'on
veut partitionner un peu plus, il faudrait
considérer un K = 3 ou 4.
Nous avons décidé au départ de séparer les pays
en 5 groupes, nous allons donc rester sur cette
répartition.

Affichage des distributions de variables de clusters
27

Votre logo ou nom ici 28
Pour synthétiser : les meilleurs
clusters sont ceux ayant un F1
inférieur à -1

Sélection des clusters et pays via Kmeans
29
Après vérification, les 2 méthodes
(CAH et Kmeans) ont donné
quasiment la même sélection à 1
pays près.
Nous avons donc une sélection de
69 pays caractérisés par leur bilan
alimentaire.
Il faut à présent ajouter des
variables sociétales à ces pays pour
affiner la sélection finale.

30
GROUPE 5

Synthèse du premier clustering
Nous avons sélectionné 69 pays sur 172 grâce à
un premier regroupement sur leurs bilans
alimentaires.
Caractéristiques :
1. Evolution significative de la population
2. Disponibilité alimentaire trop faible pour la croissance
3. Faible proportion de protéines animales.
31

Enrichissement des données du
premier groupe
Avec quelles variables avons-nous étendu notre
fichier de données ?
Seconde classification par CAH et Kmeans
32

Les fichiers de données FAO
• Nombre de têtes de
volailles en réserve
• Imports de viande par
habitant
• Imports de viande de
volaille par habitant
• Elevages de volailles
• Consommation de
volailles 2017
• Evolution de la
consommation de
volailles 2015 / 2017
Données
économiques
Les importations et
élevage
Consommation
• PIB total en US $
• Croissance du PIB
• Indice des prix à la
consommation
33
Source : http://www.fao.org/faostat/fr/#data

Dataframe des données étendues
34
GROUPE 5
Des statistiques descriptives ont été réalisées sur ce dataset étendu.
Il a été nettoyé et les données manquantes ont été complétées grâce principalement à des algorithmes des régression linéaires et
les moyennes empiriques. (Le détail est disponible dans le notebook P5_Préparation_des_données_initiales)

Seconde CAH
Classification ascendante hiérarchique (Méthode
de Ward) sur les 69 pays sélectionnés dans le
premier clustering
35

36
GROUPE 1

37
GROUPE 2

38
GROUPE 3

39
GROUPE 4

40
GROUPE 5

41
GROUPE 6
Une CAH en 6 groupes a été réalisée car 5 groupes n’étaient plus
pertinent pour cette seconde classification.

Consommation de volailles
en hausse et faibles
disponibilité
Consommation de volailles
élevée et faible production
avec imports importants
Sélection finale dans
les 2 hypothèses
2 Hypothèses à envisager pour cette seconde sélection
42
H1 H2
Une évolution significative de la
consommation de volailles;
Des élevages de volailles relativement faibles;
Des imports de viandes de volailles encore
relativement faibles (marchés à faible
concurrence).
Une forte consommation de volailles;
Des élevages de volailles relativement faibles;
Des imports de viandes de volailles élevés
(marchés à forte concurrence).

Moyennes empiriques des variables groupe CAH
43
GROUPE 5
• Hypothèse H1 : effectif de 34 pays.
• Hypothèse H2 : effectif de 13 pays.

Vérification avec
l’algorithme Kmeans
Afin de confirmer la classification par CAH, nous
avons appliqué l’algorithme des Kmeans sur les
69 pays pour vérifier leur clustering
44

Quel est le meilleur nombre de clusters ?
45
GROUPE 5
On remarque qu’un clustering en 4 ou 5
groupe est satisfaisant.
Pour rester cohérent avec la CAH, nous
allons réaliser le Kmeans sur 5 groupes.

ACP sur les données étendues
46
Ici, le premier plan factoriel va représenter une inertie totale de 42 %.
En analysant le cercle des corrélation, F1 projette donc les besoins alors que F2 va plutôt décrire les disponibilités.

Projection des individus sur le premier plan factoriel
47
GROUPE 5
Cette projection va nous permettre de
mieux visualiser notre sélection via les
moyennes empiriques de cluster.
Nous avons également calculé les inerties
intraclasses pour nous aider dans notre
sélection finale.

Comparaison des groupes
des 2 méthodes
Vérifions si les groupes CAH et Kmeans sont
répartis dans les mêmes proportions
48
Kmeans
CAH
0 1 2 3 4
1 0 11 0 0 0
2 0 13 4 0 0
3 0 1 16 0 0
4 0 0 0 0 1
5 10 0 0 0 0
6 1 2 3 7 0
Effectifs 11 27 23 7 1
On remarque que les groupes de la CAH sont bien répartis
comparativement aux groupes du Kmeans avec tout de même
quelques différences notamment pour le Kmeans 1.

Moyennes empiriques des variables clusters Kmeans
49
GROUPE 5
• Hypothèse H1 : Cluster 2 avec un effectif de 23 pays.
• Hypothèse H2 : Cluster 3 avec un effectif de 7 pays.

Synthèse du second clustering
Nous avons sélectionné 47 pays pour la CAH et 30
pays pour le Kmeans sur 69 grâce à un second
regroupement sur les données étendues.
Ces pays sont séparés dans les 2 hypothèses
Les 2 hypothèses :
1. Consommation de volailles en hausse et faibles
disponibilité sous H1.
2. Consommation de volailles élevée et faible
production avec imports importants sous H2.
Nous allons à présent comparer les pays des 2 clusterings
pour réaliser une sélection finale plus fine pour chacune
des hypothèses.
50

Caractéristiques des pays qui ne sont pas dans les 2 clusterings
51
GROUPE 5
17 pays sont concernés, en étant soit dans
le clustering CAH, soit dans le Kmeans.
Nous allons ajouter à la sélection finale les
pays correspondant le mieux aux
caractéristiques souhaitées pour H1 ou H2

Liste des pays ajoutés :
52
GROUPE 5

Liste finale des pays sélectionnés par les 2 regroupements :
53
39 Pays ont été sélectionnés sur les 172 de départ. Cette liste compte toujours les 2 hypothèses.
Il est temps de réaliser la meilleure sélection de pays, dans chaque hypothèse, pour les premiers exports de l’entreprise.
Bangladesh Gabon Maldives Sénégal Kenya
Botswana Ghana Mali Suriname Madagascar
Cameroun Guinée Mauritanie Eswatini Mozambique
Cabo Verde Inde Namibie Oman Rwanda
Sri Lanka Inde Népal Burkina Faso Ouganda
Congo Côte d'Ivoire Vanuatu Soudan Éthiopie
Bénin Cambodge Niger Haïti Zambie
Djibouti Malawi Pakistan République centrafricaine

Sélection finale dans les 2
hypothèses de départ
Top 10 des pays avec les meilleures
caractéristiques dans chacune des 2 hypothèses
54

Top 10 des pays de l’hypothèse 1
55
GROUPE 5
Consommation de volailles en hausse et faibles disponibilité sous H1

Top 10 des pays de l’hypothèse 2
56
GROUPE 5
Consommation de volailles élevée et faible production avec imports importants sous H2

57
GROUPE 5

Préconisation pour un lancement optimal
Pour ma part, pour un lancement des exports de poulets
à l'international, je préconiserai les pays avec demande
croissante et concurrence faible, à savoir les 10 pays
sélectionnés dans l'hypothèse.
Dans un second temps, les pays de l'hypothèse 2, à forte
demande, mais forte concurrence pourraient être
envisagés avec certainement des impacts sur la marge
pour se placer face aux autres importateurs.
58
Guinée
Côte d'Ivoire
Cambodge
République centrafricaine
Malawi
Djibouti
Népal
Haïti
Sri Lanka
Ghana

Tests statistiques sur les
variables utilisées
Nous avons testé les variables importantes pour
vérifier l’hypothèse de normalité et comparer 2
Clusters dans le cas gaussien.
59

Test d’adéquation à la loi normale
60
GROUPE 5
Pour chacune des variables utilisées dans les 2 clusterings, nous avons appliqué le test de Shapiro-Wilk dans un premier temps, puis le
test de Kolmogorov-Smirnov.
Les pvalues sur la variable Distribution de Dispo. Alim. (Kcal/personne) sont respectivement égales à 0,69 et 0,88. On ne peut donc pas
rejeter l’hypothèse de normalité pour la distribution de cette variable.

Test de comparaison de 2 clusters dans le cas gaussien
61
Nous avons graphiquement projeté la distribution de
la variable d’hypothèse gaussienne pour les 2
clusters (d’effectifs proches).
On remarque que les moyennes empiriques des 2
clusters sont éloignés mais que la variance semble
proche.
Nous avons vérifié ces hypothèses via Scipy.stats :

Merci de votre
attention
Michael FUMERY
+1 23 45 67 89
mfumery@envol-poultry.com
www.envol-poultry.com

Produisez une étude de marché

Recommended

Recommended

More Related Content

More from FUMERY Michael

More from FUMERY Michael (9)

Recently uploaded

Recently uploaded (20)

Produisez une étude de marché