SlideShare a Scribd company logo
1 of 62
Etude
de marché
Analyse des données alimentaires
et sociétales pour exportation de nos poulets
Votre logo ou nom ici
Le contexte …
Souhait de développement à l’international pour
exporter nos poulets sans les produire sur place.
Quels seront les pays candidats ?
Analyse exploratoire et statistiques inférentielles.
Sommaire
1. Analyse des régimes alimentaires mondiaux
2. Enrichissement des données : variables économiques
3. Présentation des diverses hypothèses
4. Où exporter nos poulets ?
5. Quelques statistiques complémentaires.
2
Votre logo ou nom ici
Analyse des régimes
alimentaires mondiaux
Quelles données avons-nous analysé ?
Première classification via CAH et Kmeans
3
Votre logo ou nom ici
Les fichiers de données FAO
Disponibilité alimentaire
en Kcal/personne et g de
protéines/personne de
chaque pays pour 2017
Proportion de protéines
d'origine animale par
rapport à la quantité
totale de protéines dans
la disponibilité alimentaire
de chaque pays pour 2017
Population :
Evolution 2015 / 2017
Disponibilité
alimentaire
Protéines animales
Calcul de l’évolution de la
population de chaque
pays entre 2015 et 2017
4
Source : http://www.fao.org/faostat/fr/#data
Votre logo ou nom ici
Création d’un premier DataFrame avec Python Pandas
5
Votre logo ou nom ici
Quelques statistiques descriptives sur la dispo. alimentaire
6
Plus l’évolution de la population est importante, plus la
disponibilité alimentaire par personne diminue.
La répartition de la disponibilité alimentaire est plutôt égalitaire
comme l’indique la courbe de Lorenz et l’indice de Gini.
Votre logo ou nom ici
Méthode de classification
Classification ascendante
hiérarchique
Création d’un
dendrogramme à 5
clusters.
Algorithme Kmeans
Trouver des groupes en
minimisant l’inertie
intraclasses.
ACP
Etude des liaisons entre
variables dans le nuage
d’individus.
7
Votre logo ou nom ici
Préparation des données pour les analyses
Afin de pouvoir créer des clusters cohérents, il faut d’abord bien préparer les données :
Phase 1
Traiter les données manquantes
• Eviter les données
aberrantes qui pourraient
fausser la constitution
des groupes.
• Traiter ou supprimer les
données manquantes.
Obtenir un fichier sain
Phase 2
Centrage et réduction
• Minimiser l’impact des
différences d’unités des
variables.
• Comparer des variables
de même moyenne et
même variance.
• 𝑋𝐶𝑅 =
𝑋−𝑋
𝑠𝑋
Variables comparables
Phase 3
Déterminer le nombre de groupes
• Pour ce premier
clustering, nous avons
décidé de répartir nos
172 pays en 5 groupes.
• Analyser ensuite si ce
nombre de 5 groupes est
cohérent.
Meilleure répartition
8
Votre logo ou nom ici
Première CAH
Classification ascendante hiérarchique (Méthode
de Ward) sur les 172 pays pour créer 5 groupes à
analyser avec le minimum d’inertie intraclasse
9
Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
10
Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
11
GROUPE 1
Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
12
GROUPE 2
Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
13
GROUPE 3
Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
14
GROUPE 4
Votre logo ou nom ici
Affichage du dendrogramme en 5 groupes
15
GROUPE 5
Votre logo ou nom ici
Affichage de la répartition sur world map
16
GROUPE 5
Votre logo ou nom ici
Analyse des variables des groupes
Une disponibilité
alimentaire trop faible va
indiquer une hausse des
besoins pour couvrir la
croissance
La croissance va favoriser
là également un besoin
croissant des protéines
animales
Evolution
significative de la
population
Disponibilité
alimentaire faible
Ratio protéines
animales / total
faible
Une bonne croissance
démographique va
favoriser l’augmentation
des besoins alimentaires
17
Pour l’export de nos poulets, les pays les plus intéressants doivent posséder les caractéristiques suivantes :
Votre logo ou nom ici
Affichage des distributions de variables de groupe
18
Votre logo ou nom ici
Vérification avec
l’algorithme Kmeans
Les groupes 1 et 2, comptant 68 pays, semblent
être les plus adaptés. Nous allons vérifier grâce à
une seconde méthode de classification, toujours
en 5 groupes.
19
Votre logo ou nom ici
Algorithme de clustering par Kmeans
20
GROUPE 5
Dès que l’algorithme Kmeans a convergé (Les
centres de classe restent immobile), les clusters
sont affectés sur les données centrées – réduites.
Votre logo ou nom ici
Comparaison des groupes
des 2 méthodes
Vérifions si les groupes CAH et Kmeans sont
répartis dans les mêmes proportions
21
Kmeans
CAH
0 1 2 3 4
1 27 0 0 1 0
2 12 0 0 28 0
3 0 44 1 0 0
4 0 0 17 1 5
5 0 1 3 0 32
On remarque que les groupes de la CAH sont bien répartis
comparativement aux groupes du Kmeans avec tout de même
quelques différences.
Une ACP (Analyse en composantes principales) a également été
réalisée pour tenter de sélectionner les meilleurs groupes du
Kmeans en les projetant sur les différents plans factoriels.
Votre logo ou nom ici
Pourquoi réaliser une ACP ?
22
Il est humainement impossible de visualiser
un nuage de points à plus de 3 dimensions
et donc 3 variables.
Pour créer ces variables synthétiques, nous
allons analyser les corrélations entre les
variables via un cercle de corrélation.
Etudier la variabilité des individus et les corrélations entre les variables.
Pour visualiser les individus et les groupes
formés, nous visualisons un nuage de points
avec les variables à analyser en abscisse et
ordonnée.
Cet exemple a 2 dimensions (2 variables)
Pour visualiser les individus avec l’ensemble
de nos variables, nous allons devoir calculer
des variables synthétiques (composantes
principales) pour distribuer les points sur un
plan factoriel (2 dimensions)
Votre logo ou nom ici
Combien d’axes analyser ?
23
Eboulis des valeurs propres : Diagramme de représentation des inerties des axes du nuage d’individus.
L’inertie du nuage de points 𝑁𝐼 est la moyenne
des carrés des distances entre les points 𝑀𝑖 et
leur centre de gravité 𝐺 (Centroïde).
Ici, on remarque que l’inertie sur les 2 premiers
axes (en calculant les variances expliquées) est
égale à 71,48 + 15,69 soit 87,2%
Une analyse sur le premier plan factoriel F1 / F2,
sera donc très satisfaisant.
Votre logo ou nom ici
Corrélation des variables
24
Les variables les plus corrélées à F1 sont la disponibilité en
protéines, la disponibilité en Kcal (qui sont d'ailleurs très
fortement corrélées entre elles) et le ratio de protéines
animales sur les protéines totales. La composante principale
F1 (variable synthétique) représente donc bien le bilan
énergétique.
Pour la composante F2, l'évolution de la population est anti-
corrélée à la proportion protéines animales / protéines
totales. Cet axe peut donc représenter les données
démographiques.
Votre logo ou nom ici
Projection des clusters Kmeans sur le premier plan factoriel
25
Visualisation des 172 pays en fonction des variables F1 et F2.
A présent, nos pays sont projetés sur un plan en
2 dimensions, plus facilement interprétable.
Les croix rouges représentent les centroïdes de
chacun des 5 Clusters Kmeans.
Cette projection nous permet de mieux
caractériser les groupes pour ensuite faire notre
sélection.
Votre logo ou nom ici
Le clustering en 5 groupes est-il idéal ?
26
Méthode du coude (silhouette) pour vérifier le meilleur « K »
On remarque que le nombre de 5 Clusters n'est
pas idéal pour le Kmeans.
La meilleure alternative serait 2 Clusters. Si l'on
veut partitionner un peu plus, il faudrait
considérer un K = 3 ou 4.
Nous avons décidé au départ de séparer les pays
en 5 groupes, nous allons donc rester sur cette
répartition.
Votre logo ou nom ici
Affichage des distributions de variables de clusters
27
Votre logo ou nom ici 28
Pour synthétiser : les meilleurs
clusters sont ceux ayant un F1
inférieur à -1
Votre logo ou nom ici
Sélection des clusters et pays via Kmeans
29
Après vérification, les 2 méthodes
(CAH et Kmeans) ont donné
quasiment la même sélection à 1
pays près.
Nous avons donc une sélection de
69 pays caractérisés par leur bilan
alimentaire.
Il faut à présent ajouter des
variables sociétales à ces pays pour
affiner la sélection finale.
Votre logo ou nom ici
Affichage de la répartition sur world map
30
GROUPE 5
Votre logo ou nom ici
Synthèse du premier clustering
Nous avons sélectionné 69 pays sur 172 grâce à
un premier regroupement sur leurs bilans
alimentaires.
Caractéristiques :
1. Evolution significative de la population
2. Disponibilité alimentaire trop faible pour la croissance
3. Faible proportion de protéines animales.
31
Votre logo ou nom ici
Enrichissement des données du
premier groupe
Avec quelles variables avons-nous étendu notre
fichier de données ?
Seconde classification par CAH et Kmeans
32
Votre logo ou nom ici
Les fichiers de données FAO
• Nombre de têtes de
volailles en réserve
• Imports de viande par
habitant
• Imports de viande de
volaille par habitant
• Elevages de volailles
• Consommation de
volailles 2017
• Evolution de la
consommation de
volailles 2015 / 2017
Données
économiques
Les importations et
élevage
Consommation
• PIB total en US $
• Croissance du PIB
• Indice des prix à la
consommation
33
Source : http://www.fao.org/faostat/fr/#data
Votre logo ou nom ici
Dataframe des données étendues
34
GROUPE 5
Des statistiques descriptives ont été réalisées sur ce dataset étendu.
Il a été nettoyé et les données manquantes ont été complétées grâce principalement à des algorithmes des régression linéaires et
les moyennes empiriques. (Le détail est disponible dans le notebook P5_Préparation_des_données_initiales)
Votre logo ou nom ici
Seconde CAH
Classification ascendante hiérarchique (Méthode
de Ward) sur les 69 pays sélectionnés dans le
premier clustering
35
Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
36
GROUPE 1
Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
37
GROUPE 2
Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
38
GROUPE 3
Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
39
GROUPE 4
Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
40
GROUPE 5
Votre logo ou nom ici
Affichage du dendrogramme en 6 groupes
41
GROUPE 6
Une CAH en 6 groupes a été réalisée car 5 groupes n’étaient plus
pertinent pour cette seconde classification.
Votre logo ou nom ici
Consommation de volailles
en hausse et faibles
disponibilité
Consommation de volailles
élevée et faible production
avec imports importants
Sélection finale dans
les 2 hypothèses
2 Hypothèses à envisager pour cette seconde sélection
42
H1 H2
Une évolution significative de la
consommation de volailles;
Des élevages de volailles relativement faibles;
Des imports de viandes de volailles encore
relativement faibles (marchés à faible
concurrence).
Une forte consommation de volailles;
Des élevages de volailles relativement faibles;
Des imports de viandes de volailles élevés
(marchés à forte concurrence).
Votre logo ou nom ici
Moyennes empiriques des variables groupe CAH
43
GROUPE 5
• Hypothèse H1 : effectif de 34 pays.
• Hypothèse H2 : effectif de 13 pays.
Votre logo ou nom ici
Vérification avec
l’algorithme Kmeans
Afin de confirmer la classification par CAH, nous
avons appliqué l’algorithme des Kmeans sur les
69 pays pour vérifier leur clustering
44
Votre logo ou nom ici
Quel est le meilleur nombre de clusters ?
45
GROUPE 5
On remarque qu’un clustering en 4 ou 5
groupe est satisfaisant.
Pour rester cohérent avec la CAH, nous
allons réaliser le Kmeans sur 5 groupes.
Votre logo ou nom ici
ACP sur les données étendues
46
Ici, le premier plan factoriel va représenter une inertie totale de 42 %.
En analysant le cercle des corrélation, F1 projette donc les besoins alors que F2 va plutôt décrire les disponibilités.
Votre logo ou nom ici
Projection des individus sur le premier plan factoriel
47
GROUPE 5
Cette projection va nous permettre de
mieux visualiser notre sélection via les
moyennes empiriques de cluster.
Nous avons également calculé les inerties
intraclasses pour nous aider dans notre
sélection finale.
Votre logo ou nom ici
Comparaison des groupes
des 2 méthodes
Vérifions si les groupes CAH et Kmeans sont
répartis dans les mêmes proportions
48
Kmeans
CAH
0 1 2 3 4
1 0 11 0 0 0
2 0 13 4 0 0
3 0 1 16 0 0
4 0 0 0 0 1
5 10 0 0 0 0
6 1 2 3 7 0
Effectifs 11 27 23 7 1
On remarque que les groupes de la CAH sont bien répartis
comparativement aux groupes du Kmeans avec tout de même
quelques différences notamment pour le Kmeans 1.
Votre logo ou nom ici
Moyennes empiriques des variables clusters Kmeans
49
GROUPE 5
• Hypothèse H1 : Cluster 2 avec un effectif de 23 pays.
• Hypothèse H2 : Cluster 3 avec un effectif de 7 pays.
Votre logo ou nom ici
Synthèse du second clustering
Nous avons sélectionné 47 pays pour la CAH et 30
pays pour le Kmeans sur 69 grâce à un second
regroupement sur les données étendues.
Ces pays sont séparés dans les 2 hypothèses
Les 2 hypothèses :
1. Consommation de volailles en hausse et faibles
disponibilité sous H1.
2. Consommation de volailles élevée et faible
production avec imports importants sous H2.
Nous allons à présent comparer les pays des 2 clusterings
pour réaliser une sélection finale plus fine pour chacune
des hypothèses.
50
Votre logo ou nom ici
Caractéristiques des pays qui ne sont pas dans les 2 clusterings
51
GROUPE 5
17 pays sont concernés, en étant soit dans
le clustering CAH, soit dans le Kmeans.
Nous allons ajouter à la sélection finale les
pays correspondant le mieux aux
caractéristiques souhaitées pour H1 ou H2
Votre logo ou nom ici
Liste des pays ajoutés :
52
GROUPE 5
Votre logo ou nom ici
Liste finale des pays sélectionnés par les 2 regroupements :
53
39 Pays ont été sélectionnés sur les 172 de départ. Cette liste compte toujours les 2 hypothèses.
Il est temps de réaliser la meilleure sélection de pays, dans chaque hypothèse, pour les premiers exports de l’entreprise.
Bangladesh Gabon Maldives Sénégal Kenya
Botswana Ghana Mali Suriname Madagascar
Cameroun Guinée Mauritanie Eswatini Mozambique
Cabo Verde Inde Namibie Oman Rwanda
Sri Lanka Inde Népal Burkina Faso Ouganda
Congo Côte d'Ivoire Vanuatu Soudan Éthiopie
Bénin Cambodge Niger Haïti Zambie
Djibouti Malawi Pakistan République centrafricaine
Votre logo ou nom ici
Sélection finale dans les 2
hypothèses de départ
Top 10 des pays avec les meilleures
caractéristiques dans chacune des 2 hypothèses
54
Votre logo ou nom ici
Top 10 des pays de l’hypothèse 1
55
GROUPE 5
Consommation de volailles en hausse et faibles disponibilité sous H1
Votre logo ou nom ici
Top 10 des pays de l’hypothèse 2
56
GROUPE 5
Consommation de volailles élevée et faible production avec imports importants sous H2
Votre logo ou nom ici
Affichage de la répartition sur world map
57
GROUPE 5
Votre logo ou nom ici
Préconisation pour un lancement optimal
Pour ma part, pour un lancement des exports de poulets
à l'international, je préconiserai les pays avec demande
croissante et concurrence faible, à savoir les 10 pays
sélectionnés dans l'hypothèse.
Dans un second temps, les pays de l'hypothèse 2, à forte
demande, mais forte concurrence pourraient être
envisagés avec certainement des impacts sur la marge
pour se placer face aux autres importateurs.
58
Guinée
Côte d'Ivoire
Cambodge
République centrafricaine
Malawi
Djibouti
Népal
Haïti
Sri Lanka
Ghana
Votre logo ou nom ici
Tests statistiques sur les
variables utilisées
Nous avons testé les variables importantes pour
vérifier l’hypothèse de normalité et comparer 2
Clusters dans le cas gaussien.
59
Votre logo ou nom ici
Test d’adéquation à la loi normale
60
GROUPE 5
Pour chacune des variables utilisées dans les 2 clusterings, nous avons appliqué le test de Shapiro-Wilk dans un premier temps, puis le
test de Kolmogorov-Smirnov.
Les pvalues sur la variable Distribution de Dispo. Alim. (Kcal/personne) sont respectivement égales à 0,69 et 0,88. On ne peut donc pas
rejeter l’hypothèse de normalité pour la distribution de cette variable.
Votre logo ou nom ici
Test de comparaison de 2 clusters dans le cas gaussien
61
Nous avons graphiquement projeté la distribution de
la variable d’hypothèse gaussienne pour les 2
clusters (d’effectifs proches).
On remarque que les moyennes empiriques des 2
clusters sont éloignés mais que la variance semble
proche.
Nous avons vérifié ces hypothèses via Scipy.stats :
Merci de votre
attention
Michael FUMERY
+1 23 45 67 89
mfumery@envol-poultry.com
www.envol-poultry.com

More Related Content

More from FUMERY Michael

NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowFUMERY Michael
 
Segmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningSegmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningFUMERY Michael
 
Anticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de SeattleAnticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de SeattleFUMERY Michael
 
Application au service_de_la_sante_publique
Application au service_de_la_sante_publiqueApplication au service_de_la_sante_publique
Application au service_de_la_sante_publiqueFUMERY Michael
 
La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.FUMERY Michael
 
Prédisez la demande en électricité
Prédisez la demande en électricitéPrédisez la demande en électricité
Prédisez la demande en électricitéFUMERY Michael
 
Détectez des faux billets
Détectez des faux billetsDétectez des faux billets
Détectez des faux billetsFUMERY Michael
 
Analysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseAnalysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseFUMERY Michael
 
Réalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystRéalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystFUMERY Michael
 

More from FUMERY Michael (9)

NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions Stackoverflow
 
Segmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningSegmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine Learning
 
Anticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de SeattleAnticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de Seattle
 
Application au service_de_la_sante_publique
Application au service_de_la_sante_publiqueApplication au service_de_la_sante_publique
Application au service_de_la_sante_publique
 
La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.La Data peut-elle améliorer la sécurité routière.
La Data peut-elle améliorer la sécurité routière.
 
Prédisez la demande en électricité
Prédisez la demande en électricitéPrédisez la demande en électricité
Prédisez la demande en électricité
 
Détectez des faux billets
Détectez des faux billetsDétectez des faux billets
Détectez des faux billets
 
Analysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseAnalysez les ventes de votre entreprise
Analysez les ventes de votre entreprise
 
Réalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystRéalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data Analyst
 

Recently uploaded

How to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptxHow to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptxmanuelaromero2013
 
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPTECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPTiammrhaywood
 
Software Engineering Methodologies (overview)
Software Engineering Methodologies (overview)Software Engineering Methodologies (overview)
Software Engineering Methodologies (overview)eniolaolutunde
 
Presiding Officer Training module 2024 lok sabha elections
Presiding Officer Training module 2024 lok sabha electionsPresiding Officer Training module 2024 lok sabha elections
Presiding Officer Training module 2024 lok sabha electionsanshu789521
 
DATA STRUCTURE AND ALGORITHM for beginners
DATA STRUCTURE AND ALGORITHM for beginnersDATA STRUCTURE AND ALGORITHM for beginners
DATA STRUCTURE AND ALGORITHM for beginnersSabitha Banu
 
Types of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptxTypes of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptxEyham Joco
 
Organic Name Reactions for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions  for the students and aspirants of Chemistry12th.pptxOrganic Name Reactions  for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions for the students and aspirants of Chemistry12th.pptxVS Mahajan Coaching Centre
 
Enzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdf
Enzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdfEnzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdf
Enzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdfSumit Tiwari
 
Full Stack Web Development Course for Beginners
Full Stack Web Development Course  for BeginnersFull Stack Web Development Course  for Beginners
Full Stack Web Development Course for BeginnersSabitha Banu
 
Final demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptxFinal demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptxAvyJaneVismanos
 
Historical philosophical, theoretical, and legal foundations of special and i...
Historical philosophical, theoretical, and legal foundations of special and i...Historical philosophical, theoretical, and legal foundations of special and i...
Historical philosophical, theoretical, and legal foundations of special and i...jaredbarbolino94
 
CARE OF CHILD IN INCUBATOR..........pptx
CARE OF CHILD IN INCUBATOR..........pptxCARE OF CHILD IN INCUBATOR..........pptx
CARE OF CHILD IN INCUBATOR..........pptxGaneshChakor2
 
Alper Gobel In Media Res Media Component
Alper Gobel In Media Res Media ComponentAlper Gobel In Media Res Media Component
Alper Gobel In Media Res Media ComponentInMediaRes1
 
Introduction to AI in Higher Education_draft.pptx
Introduction to AI in Higher Education_draft.pptxIntroduction to AI in Higher Education_draft.pptx
Introduction to AI in Higher Education_draft.pptxpboyjonauth
 
Meghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media ComponentMeghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media ComponentInMediaRes1
 
Framing an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdf
Framing an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdfFraming an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdf
Framing an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdfUjwalaBharambe
 
Earth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice greatEarth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice greatYousafMalik24
 

Recently uploaded (20)

How to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptxHow to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptx
 
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPTECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
ECONOMIC CONTEXT - LONG FORM TV DRAMA - PPT
 
Software Engineering Methodologies (overview)
Software Engineering Methodologies (overview)Software Engineering Methodologies (overview)
Software Engineering Methodologies (overview)
 
Presiding Officer Training module 2024 lok sabha elections
Presiding Officer Training module 2024 lok sabha electionsPresiding Officer Training module 2024 lok sabha elections
Presiding Officer Training module 2024 lok sabha elections
 
DATA STRUCTURE AND ALGORITHM for beginners
DATA STRUCTURE AND ALGORITHM for beginnersDATA STRUCTURE AND ALGORITHM for beginners
DATA STRUCTURE AND ALGORITHM for beginners
 
Types of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptxTypes of Journalistic Writing Grade 8.pptx
Types of Journalistic Writing Grade 8.pptx
 
Organic Name Reactions for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions  for the students and aspirants of Chemistry12th.pptxOrganic Name Reactions  for the students and aspirants of Chemistry12th.pptx
Organic Name Reactions for the students and aspirants of Chemistry12th.pptx
 
Enzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdf
Enzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdfEnzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdf
Enzyme, Pharmaceutical Aids, Miscellaneous Last Part of Chapter no 5th.pdf
 
Model Call Girl in Bikash Puri Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Bikash Puri  Delhi reach out to us at 🔝9953056974🔝Model Call Girl in Bikash Puri  Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Bikash Puri Delhi reach out to us at 🔝9953056974🔝
 
Full Stack Web Development Course for Beginners
Full Stack Web Development Course  for BeginnersFull Stack Web Development Course  for Beginners
Full Stack Web Development Course for Beginners
 
Final demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptxFinal demo Grade 9 for demo Plan dessert.pptx
Final demo Grade 9 for demo Plan dessert.pptx
 
Historical philosophical, theoretical, and legal foundations of special and i...
Historical philosophical, theoretical, and legal foundations of special and i...Historical philosophical, theoretical, and legal foundations of special and i...
Historical philosophical, theoretical, and legal foundations of special and i...
 
CARE OF CHILD IN INCUBATOR..........pptx
CARE OF CHILD IN INCUBATOR..........pptxCARE OF CHILD IN INCUBATOR..........pptx
CARE OF CHILD IN INCUBATOR..........pptx
 
Alper Gobel In Media Res Media Component
Alper Gobel In Media Res Media ComponentAlper Gobel In Media Res Media Component
Alper Gobel In Media Res Media Component
 
Introduction to AI in Higher Education_draft.pptx
Introduction to AI in Higher Education_draft.pptxIntroduction to AI in Higher Education_draft.pptx
Introduction to AI in Higher Education_draft.pptx
 
Meghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media ComponentMeghan Sutherland In Media Res Media Component
Meghan Sutherland In Media Res Media Component
 
OS-operating systems- ch04 (Threads) ...
OS-operating systems- ch04 (Threads) ...OS-operating systems- ch04 (Threads) ...
OS-operating systems- ch04 (Threads) ...
 
Framing an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdf
Framing an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdfFraming an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdf
Framing an Appropriate Research Question 6b9b26d93da94caf993c038d9efcdedb.pdf
 
Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝
 
Earth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice greatEarth Day Presentation wow hello nice great
Earth Day Presentation wow hello nice great
 

Produisez une étude de marché

  • 1. Etude de marché Analyse des données alimentaires et sociétales pour exportation de nos poulets
  • 2. Votre logo ou nom ici Le contexte … Souhait de développement à l’international pour exporter nos poulets sans les produire sur place. Quels seront les pays candidats ? Analyse exploratoire et statistiques inférentielles. Sommaire 1. Analyse des régimes alimentaires mondiaux 2. Enrichissement des données : variables économiques 3. Présentation des diverses hypothèses 4. Où exporter nos poulets ? 5. Quelques statistiques complémentaires. 2
  • 3. Votre logo ou nom ici Analyse des régimes alimentaires mondiaux Quelles données avons-nous analysé ? Première classification via CAH et Kmeans 3
  • 4. Votre logo ou nom ici Les fichiers de données FAO Disponibilité alimentaire en Kcal/personne et g de protéines/personne de chaque pays pour 2017 Proportion de protéines d'origine animale par rapport à la quantité totale de protéines dans la disponibilité alimentaire de chaque pays pour 2017 Population : Evolution 2015 / 2017 Disponibilité alimentaire Protéines animales Calcul de l’évolution de la population de chaque pays entre 2015 et 2017 4 Source : http://www.fao.org/faostat/fr/#data
  • 5. Votre logo ou nom ici Création d’un premier DataFrame avec Python Pandas 5
  • 6. Votre logo ou nom ici Quelques statistiques descriptives sur la dispo. alimentaire 6 Plus l’évolution de la population est importante, plus la disponibilité alimentaire par personne diminue. La répartition de la disponibilité alimentaire est plutôt égalitaire comme l’indique la courbe de Lorenz et l’indice de Gini.
  • 7. Votre logo ou nom ici Méthode de classification Classification ascendante hiérarchique Création d’un dendrogramme à 5 clusters. Algorithme Kmeans Trouver des groupes en minimisant l’inertie intraclasses. ACP Etude des liaisons entre variables dans le nuage d’individus. 7
  • 8. Votre logo ou nom ici Préparation des données pour les analyses Afin de pouvoir créer des clusters cohérents, il faut d’abord bien préparer les données : Phase 1 Traiter les données manquantes • Eviter les données aberrantes qui pourraient fausser la constitution des groupes. • Traiter ou supprimer les données manquantes. Obtenir un fichier sain Phase 2 Centrage et réduction • Minimiser l’impact des différences d’unités des variables. • Comparer des variables de même moyenne et même variance. • 𝑋𝐶𝑅 = 𝑋−𝑋 𝑠𝑋 Variables comparables Phase 3 Déterminer le nombre de groupes • Pour ce premier clustering, nous avons décidé de répartir nos 172 pays en 5 groupes. • Analyser ensuite si ce nombre de 5 groupes est cohérent. Meilleure répartition 8
  • 9. Votre logo ou nom ici Première CAH Classification ascendante hiérarchique (Méthode de Ward) sur les 172 pays pour créer 5 groupes à analyser avec le minimum d’inertie intraclasse 9
  • 10. Votre logo ou nom ici Affichage du dendrogramme en 5 groupes 10
  • 11. Votre logo ou nom ici Affichage du dendrogramme en 5 groupes 11 GROUPE 1
  • 12. Votre logo ou nom ici Affichage du dendrogramme en 5 groupes 12 GROUPE 2
  • 13. Votre logo ou nom ici Affichage du dendrogramme en 5 groupes 13 GROUPE 3
  • 14. Votre logo ou nom ici Affichage du dendrogramme en 5 groupes 14 GROUPE 4
  • 15. Votre logo ou nom ici Affichage du dendrogramme en 5 groupes 15 GROUPE 5
  • 16. Votre logo ou nom ici Affichage de la répartition sur world map 16 GROUPE 5
  • 17. Votre logo ou nom ici Analyse des variables des groupes Une disponibilité alimentaire trop faible va indiquer une hausse des besoins pour couvrir la croissance La croissance va favoriser là également un besoin croissant des protéines animales Evolution significative de la population Disponibilité alimentaire faible Ratio protéines animales / total faible Une bonne croissance démographique va favoriser l’augmentation des besoins alimentaires 17 Pour l’export de nos poulets, les pays les plus intéressants doivent posséder les caractéristiques suivantes :
  • 18. Votre logo ou nom ici Affichage des distributions de variables de groupe 18
  • 19. Votre logo ou nom ici Vérification avec l’algorithme Kmeans Les groupes 1 et 2, comptant 68 pays, semblent être les plus adaptés. Nous allons vérifier grâce à une seconde méthode de classification, toujours en 5 groupes. 19
  • 20. Votre logo ou nom ici Algorithme de clustering par Kmeans 20 GROUPE 5 Dès que l’algorithme Kmeans a convergé (Les centres de classe restent immobile), les clusters sont affectés sur les données centrées – réduites.
  • 21. Votre logo ou nom ici Comparaison des groupes des 2 méthodes Vérifions si les groupes CAH et Kmeans sont répartis dans les mêmes proportions 21 Kmeans CAH 0 1 2 3 4 1 27 0 0 1 0 2 12 0 0 28 0 3 0 44 1 0 0 4 0 0 17 1 5 5 0 1 3 0 32 On remarque que les groupes de la CAH sont bien répartis comparativement aux groupes du Kmeans avec tout de même quelques différences. Une ACP (Analyse en composantes principales) a également été réalisée pour tenter de sélectionner les meilleurs groupes du Kmeans en les projetant sur les différents plans factoriels.
  • 22. Votre logo ou nom ici Pourquoi réaliser une ACP ? 22 Il est humainement impossible de visualiser un nuage de points à plus de 3 dimensions et donc 3 variables. Pour créer ces variables synthétiques, nous allons analyser les corrélations entre les variables via un cercle de corrélation. Etudier la variabilité des individus et les corrélations entre les variables. Pour visualiser les individus et les groupes formés, nous visualisons un nuage de points avec les variables à analyser en abscisse et ordonnée. Cet exemple a 2 dimensions (2 variables) Pour visualiser les individus avec l’ensemble de nos variables, nous allons devoir calculer des variables synthétiques (composantes principales) pour distribuer les points sur un plan factoriel (2 dimensions)
  • 23. Votre logo ou nom ici Combien d’axes analyser ? 23 Eboulis des valeurs propres : Diagramme de représentation des inerties des axes du nuage d’individus. L’inertie du nuage de points 𝑁𝐼 est la moyenne des carrés des distances entre les points 𝑀𝑖 et leur centre de gravité 𝐺 (Centroïde). Ici, on remarque que l’inertie sur les 2 premiers axes (en calculant les variances expliquées) est égale à 71,48 + 15,69 soit 87,2% Une analyse sur le premier plan factoriel F1 / F2, sera donc très satisfaisant.
  • 24. Votre logo ou nom ici Corrélation des variables 24 Les variables les plus corrélées à F1 sont la disponibilité en protéines, la disponibilité en Kcal (qui sont d'ailleurs très fortement corrélées entre elles) et le ratio de protéines animales sur les protéines totales. La composante principale F1 (variable synthétique) représente donc bien le bilan énergétique. Pour la composante F2, l'évolution de la population est anti- corrélée à la proportion protéines animales / protéines totales. Cet axe peut donc représenter les données démographiques.
  • 25. Votre logo ou nom ici Projection des clusters Kmeans sur le premier plan factoriel 25 Visualisation des 172 pays en fonction des variables F1 et F2. A présent, nos pays sont projetés sur un plan en 2 dimensions, plus facilement interprétable. Les croix rouges représentent les centroïdes de chacun des 5 Clusters Kmeans. Cette projection nous permet de mieux caractériser les groupes pour ensuite faire notre sélection.
  • 26. Votre logo ou nom ici Le clustering en 5 groupes est-il idéal ? 26 Méthode du coude (silhouette) pour vérifier le meilleur « K » On remarque que le nombre de 5 Clusters n'est pas idéal pour le Kmeans. La meilleure alternative serait 2 Clusters. Si l'on veut partitionner un peu plus, il faudrait considérer un K = 3 ou 4. Nous avons décidé au départ de séparer les pays en 5 groupes, nous allons donc rester sur cette répartition.
  • 27. Votre logo ou nom ici Affichage des distributions de variables de clusters 27
  • 28. Votre logo ou nom ici 28 Pour synthétiser : les meilleurs clusters sont ceux ayant un F1 inférieur à -1
  • 29. Votre logo ou nom ici Sélection des clusters et pays via Kmeans 29 Après vérification, les 2 méthodes (CAH et Kmeans) ont donné quasiment la même sélection à 1 pays près. Nous avons donc une sélection de 69 pays caractérisés par leur bilan alimentaire. Il faut à présent ajouter des variables sociétales à ces pays pour affiner la sélection finale.
  • 30. Votre logo ou nom ici Affichage de la répartition sur world map 30 GROUPE 5
  • 31. Votre logo ou nom ici Synthèse du premier clustering Nous avons sélectionné 69 pays sur 172 grâce à un premier regroupement sur leurs bilans alimentaires. Caractéristiques : 1. Evolution significative de la population 2. Disponibilité alimentaire trop faible pour la croissance 3. Faible proportion de protéines animales. 31
  • 32. Votre logo ou nom ici Enrichissement des données du premier groupe Avec quelles variables avons-nous étendu notre fichier de données ? Seconde classification par CAH et Kmeans 32
  • 33. Votre logo ou nom ici Les fichiers de données FAO • Nombre de têtes de volailles en réserve • Imports de viande par habitant • Imports de viande de volaille par habitant • Elevages de volailles • Consommation de volailles 2017 • Evolution de la consommation de volailles 2015 / 2017 Données économiques Les importations et élevage Consommation • PIB total en US $ • Croissance du PIB • Indice des prix à la consommation 33 Source : http://www.fao.org/faostat/fr/#data
  • 34. Votre logo ou nom ici Dataframe des données étendues 34 GROUPE 5 Des statistiques descriptives ont été réalisées sur ce dataset étendu. Il a été nettoyé et les données manquantes ont été complétées grâce principalement à des algorithmes des régression linéaires et les moyennes empiriques. (Le détail est disponible dans le notebook P5_Préparation_des_données_initiales)
  • 35. Votre logo ou nom ici Seconde CAH Classification ascendante hiérarchique (Méthode de Ward) sur les 69 pays sélectionnés dans le premier clustering 35
  • 36. Votre logo ou nom ici Affichage du dendrogramme en 6 groupes 36 GROUPE 1
  • 37. Votre logo ou nom ici Affichage du dendrogramme en 6 groupes 37 GROUPE 2
  • 38. Votre logo ou nom ici Affichage du dendrogramme en 6 groupes 38 GROUPE 3
  • 39. Votre logo ou nom ici Affichage du dendrogramme en 6 groupes 39 GROUPE 4
  • 40. Votre logo ou nom ici Affichage du dendrogramme en 6 groupes 40 GROUPE 5
  • 41. Votre logo ou nom ici Affichage du dendrogramme en 6 groupes 41 GROUPE 6 Une CAH en 6 groupes a été réalisée car 5 groupes n’étaient plus pertinent pour cette seconde classification.
  • 42. Votre logo ou nom ici Consommation de volailles en hausse et faibles disponibilité Consommation de volailles élevée et faible production avec imports importants Sélection finale dans les 2 hypothèses 2 Hypothèses à envisager pour cette seconde sélection 42 H1 H2 Une évolution significative de la consommation de volailles; Des élevages de volailles relativement faibles; Des imports de viandes de volailles encore relativement faibles (marchés à faible concurrence). Une forte consommation de volailles; Des élevages de volailles relativement faibles; Des imports de viandes de volailles élevés (marchés à forte concurrence).
  • 43. Votre logo ou nom ici Moyennes empiriques des variables groupe CAH 43 GROUPE 5 • Hypothèse H1 : effectif de 34 pays. • Hypothèse H2 : effectif de 13 pays.
  • 44. Votre logo ou nom ici Vérification avec l’algorithme Kmeans Afin de confirmer la classification par CAH, nous avons appliqué l’algorithme des Kmeans sur les 69 pays pour vérifier leur clustering 44
  • 45. Votre logo ou nom ici Quel est le meilleur nombre de clusters ? 45 GROUPE 5 On remarque qu’un clustering en 4 ou 5 groupe est satisfaisant. Pour rester cohérent avec la CAH, nous allons réaliser le Kmeans sur 5 groupes.
  • 46. Votre logo ou nom ici ACP sur les données étendues 46 Ici, le premier plan factoriel va représenter une inertie totale de 42 %. En analysant le cercle des corrélation, F1 projette donc les besoins alors que F2 va plutôt décrire les disponibilités.
  • 47. Votre logo ou nom ici Projection des individus sur le premier plan factoriel 47 GROUPE 5 Cette projection va nous permettre de mieux visualiser notre sélection via les moyennes empiriques de cluster. Nous avons également calculé les inerties intraclasses pour nous aider dans notre sélection finale.
  • 48. Votre logo ou nom ici Comparaison des groupes des 2 méthodes Vérifions si les groupes CAH et Kmeans sont répartis dans les mêmes proportions 48 Kmeans CAH 0 1 2 3 4 1 0 11 0 0 0 2 0 13 4 0 0 3 0 1 16 0 0 4 0 0 0 0 1 5 10 0 0 0 0 6 1 2 3 7 0 Effectifs 11 27 23 7 1 On remarque que les groupes de la CAH sont bien répartis comparativement aux groupes du Kmeans avec tout de même quelques différences notamment pour le Kmeans 1.
  • 49. Votre logo ou nom ici Moyennes empiriques des variables clusters Kmeans 49 GROUPE 5 • Hypothèse H1 : Cluster 2 avec un effectif de 23 pays. • Hypothèse H2 : Cluster 3 avec un effectif de 7 pays.
  • 50. Votre logo ou nom ici Synthèse du second clustering Nous avons sélectionné 47 pays pour la CAH et 30 pays pour le Kmeans sur 69 grâce à un second regroupement sur les données étendues. Ces pays sont séparés dans les 2 hypothèses Les 2 hypothèses : 1. Consommation de volailles en hausse et faibles disponibilité sous H1. 2. Consommation de volailles élevée et faible production avec imports importants sous H2. Nous allons à présent comparer les pays des 2 clusterings pour réaliser une sélection finale plus fine pour chacune des hypothèses. 50
  • 51. Votre logo ou nom ici Caractéristiques des pays qui ne sont pas dans les 2 clusterings 51 GROUPE 5 17 pays sont concernés, en étant soit dans le clustering CAH, soit dans le Kmeans. Nous allons ajouter à la sélection finale les pays correspondant le mieux aux caractéristiques souhaitées pour H1 ou H2
  • 52. Votre logo ou nom ici Liste des pays ajoutés : 52 GROUPE 5
  • 53. Votre logo ou nom ici Liste finale des pays sélectionnés par les 2 regroupements : 53 39 Pays ont été sélectionnés sur les 172 de départ. Cette liste compte toujours les 2 hypothèses. Il est temps de réaliser la meilleure sélection de pays, dans chaque hypothèse, pour les premiers exports de l’entreprise. Bangladesh Gabon Maldives Sénégal Kenya Botswana Ghana Mali Suriname Madagascar Cameroun Guinée Mauritanie Eswatini Mozambique Cabo Verde Inde Namibie Oman Rwanda Sri Lanka Inde Népal Burkina Faso Ouganda Congo Côte d'Ivoire Vanuatu Soudan Éthiopie Bénin Cambodge Niger Haïti Zambie Djibouti Malawi Pakistan République centrafricaine
  • 54. Votre logo ou nom ici Sélection finale dans les 2 hypothèses de départ Top 10 des pays avec les meilleures caractéristiques dans chacune des 2 hypothèses 54
  • 55. Votre logo ou nom ici Top 10 des pays de l’hypothèse 1 55 GROUPE 5 Consommation de volailles en hausse et faibles disponibilité sous H1
  • 56. Votre logo ou nom ici Top 10 des pays de l’hypothèse 2 56 GROUPE 5 Consommation de volailles élevée et faible production avec imports importants sous H2
  • 57. Votre logo ou nom ici Affichage de la répartition sur world map 57 GROUPE 5
  • 58. Votre logo ou nom ici Préconisation pour un lancement optimal Pour ma part, pour un lancement des exports de poulets à l'international, je préconiserai les pays avec demande croissante et concurrence faible, à savoir les 10 pays sélectionnés dans l'hypothèse. Dans un second temps, les pays de l'hypothèse 2, à forte demande, mais forte concurrence pourraient être envisagés avec certainement des impacts sur la marge pour se placer face aux autres importateurs. 58 Guinée Côte d'Ivoire Cambodge République centrafricaine Malawi Djibouti Népal Haïti Sri Lanka Ghana
  • 59. Votre logo ou nom ici Tests statistiques sur les variables utilisées Nous avons testé les variables importantes pour vérifier l’hypothèse de normalité et comparer 2 Clusters dans le cas gaussien. 59
  • 60. Votre logo ou nom ici Test d’adéquation à la loi normale 60 GROUPE 5 Pour chacune des variables utilisées dans les 2 clusterings, nous avons appliqué le test de Shapiro-Wilk dans un premier temps, puis le test de Kolmogorov-Smirnov. Les pvalues sur la variable Distribution de Dispo. Alim. (Kcal/personne) sont respectivement égales à 0,69 et 0,88. On ne peut donc pas rejeter l’hypothèse de normalité pour la distribution de cette variable.
  • 61. Votre logo ou nom ici Test de comparaison de 2 clusters dans le cas gaussien 61 Nous avons graphiquement projeté la distribution de la variable d’hypothèse gaussienne pour les 2 clusters (d’effectifs proches). On remarque que les moyennes empiriques des 2 clusters sont éloignés mais que la variance semble proche. Nous avons vérifié ces hypothèses via Scipy.stats :
  • 62. Merci de votre attention Michael FUMERY +1 23 45 67 89 mfumery@envol-poultry.com www.envol-poultry.com