SlideShare a Scribd company logo
Création d’un algorithme de
détection de faux billets
M i s s i o n d u m i n i s t è r e d e l ' I n t é r i e u r , d a n s l e
c a d r e d e l a l u t t e c o n t r e l a c r i m i n a l i t é
o r g a n i s é e , à l ' O f f i c e c e n t r a l p o u r l a
r é p r e s s i o n d u f a u x m o n n a y a g e
Contexte & méthode
Prop oser u n algorith me d e d étec tion d e fau x
b illets entrain é avec d es d on n ées fou rn ies.
• Analyse descriptive du dataset ;
• Analyse en composantes principales (ACP) ;
• Analyse de classification par Kmeans ;
• Détails de la modélisation de données ;
• Test de l’algorithme.
2
Description du dataset
A n alyses d esc riptives b ivariées
et u n ivariées d es d on n ées.
Données géométriques des billets
Les données fournies par le client regroupent les données
géométriques de 170 billets, qu’ils soient « vrai » ou « faux ».
Le fichier CSV a été importé dans Python via la librairie Pandas afin
de créer un dataframe pour faciliter les analyses.
Lexique des variables :
• length : la longueur du billet (en mm) ;
• height_left : la hauteur du billet (mesurée
sur le côté gauche, en mm) ;
• height_right : La hauteur du
billet (mesurée sur le côté droit, en mm) ;
• margin_up : la marge entre le bord
supérieur du billet et l'image de celui-ci (en
mm) ;
• margin_low : la marge entre le bord
inférieur du billet et l'image de celui-ci (en
mm) ;
• diagonal : la diagonale du billet (en mm) ;
• is_genuine : Indication si le billet est
vrai (True) ou faux (False).
4
Description des données
Le fichier source ne comporte pas de données aberrantes (Les max, min et écarts types sont cohérents) et pas
de données manquantes ou Null.
Nous allons pouvoir passer à l’analyse univariée du dataset.
5
Répartition vrais / faux billets
6
Vrais billets
59%
Faux billets
41%
Sur les 170 billets 41,2% sont faux et 58,8% sont
authentiques.
Cette répartition nous offre une base intéressante
pour un clustering ou encore une méthode de
classification supervisée.
Distribution des variables
7
Distribution suivant la loi
normale (gaussienne)
Distribution des variables
8
Cette distribution ne
semble pas suivre la
loi gaussienne
Distribution des variables
9
Cette distribution ne
semble pas suivre la
loi gaussienne
Test de Kolmogorov-Smirnov
Pour vérifier l’adéquation à la loi normale (gaussienne), au
niveau de test 5% :
Les Pvalues obtenues permettent de rejeter en effet cette
adéquation sur les variables :
• Length
• margin_low
10
Analyses bivariés : Corrélations linéaires
Quelques fortes corrélations linéaires :
• height_right / height_left avec 𝓻 = 𝟎, 𝟕𝟑 ;
• height_right / margin_low avec 𝓻 = 𝟎, 𝟓𝟏 ;
• margin_low / Length avec 𝓻 = − 𝟎, 𝟔𝟒 ;
• margin_up / Length avec 𝓻 = − 𝟎, 𝟓𝟐
11
Is_genuine :
La variable vrai / faux
billet semble être très
corrélée avec
• Length
• Margin_low
Pairplots sur les variables 2 à 2
12
En réalisant ces pairplots avec la séparation de
couleurs entre vrais et faux billets, on
remarque bien 2 groupes distincts pour
chacune des variables, qui permettent
certainement de différencier les billets falsifiés
Scatterplot height_right / height_left
Boxplots en fonction de is_genuine
13
Boxplots en fonction de is_genuine
14
Boxplots en fonction de is_genuine
15
Si les variances sur ces variables restent relativement similaires entre les vrais et
faux billets, on constate là encore que les faux billets ont des valeurs médianes
assez différentes des vrais billets.
FR
Pour résumer …
La d esc ription d es d on n ées n ou s in d iq u e
• Que le dataset est sain, pas de valeurs
aberrantes ni de valeurs manquantes.
• Que la répartition vrais / faux billets est
relativement équitable.
• Que les corrélations sembles bien
établies.
• Que les distributions des variables en
fonction de is_genuine semblent
montrer des différences marquées.
16
ACP du dataset
A n alyses en comp osantes
p rin c ip ales ou exp loration
statistiq u e d es d on n ées.
Préparation des données
A fin d e réaliser u n e ACP p erformante, il est
n éc essaire d e b ien p rép arer les d on n ées :
• Standardisation des données par centrage et réduction ;
• Calculer les coordonnées factorielles ;
• Calculer les variances expliquées et de leurs proportions ;
• …
18
Eboulis des valeurs propres
Définir le nombre d’axes
d’analyse :
Afin de définir les axes principaux à
analyser, l’éboulis des valeurs propres
a été réalisé.
On remarque que sur les 2 premiers
axes (F1 et F2), l’inertie cumulée est
de 69,40 %.
Une analyse sur ces 2 premiers axes
est donc cohérente et suffisante.
19
Variables : Cercle des corrélations
Représentation des corrélations des variables
Les variables sont bien représentées, proches su
cercle, et les corrélerions (cosinus de l’angle entre
les vecteurs) sont bien visualisables.
• Length / Height et Margin sont très corrélés à la
composante principale F1
• Diagonal est très corrélé à la composante F2 et
quasi orthogonale à Length.
On remarque également que le vecteur
représentant is_genuine (variable vrai / faux billet)
est très corrélée à length.
20
COS² : Qualité de représentation des variables
Heatmap de la qualité de
représentation des variables :
Un COS² élevé indique une bonne
représentation de la variable sur les axes
principaux en considération.
• Diagonal est parfaitement représenté
sur la composante F2.
• Les autres variables sur l’axe F1 à
quasi égalité (sauf margin_up)
21
CTR : Contribution des variables aux axes
Heatmap de contribution des
variables aux axes principaux :
• Diagonal est donc une variable très
importante pour expliquer l’axe 2.
• Les autres variables sur l’axe F1 et F2
ont une répartition plutôt égalitaire
de leurs contributions.
22
Individus : Projection dans le 1er plan factoriel
Projection des individus. Nuage de
points sur les variables synthétiques
F1 et F2
Nous avons vu que les 2 variables synthétiques
représentaient concrètement les 6 variables du
dataset.
• Coloration des individus en fonction de
la variable illustrative is_genuine
• 2 nuages distincts si le billet est vrai ou
faux.
• Ajout des centroïdes de classes.
• Quelques outliers pour les vrais billets.
23
COS² : Qualité de représentation des individus
Taille des points en fonction du
COS² sur F1 :
On remarque ici que les individus
autour des centroïdes ont une
meilleure qualité de représentation
sur F1.
24
COS² : Qualité de représentation des individus
Taille des points en fonction du
COS² sur F2 :
Ce scatterplot quant à lui représente le
COS² sur F2. Les individus
représentatifs y sont moins nombreux.
25
CTR : Contribution des individus aux axes
Calculs de contribution des
individus aux axes principaux :
• En calculant les CTR sur les axes F1 et
F2, on remarque qu’il n’y a pas
d’individus fortement contributeurs.
• A noter que l’individu 0 semble se
démarquer plus que les autres sur
l’axe F2.
26
FR
Pour résumer l’ACP
L’an alyse en comp osantes p rin c ip ales in d iq u e
• Qu’une analyse sur le premier plan
factoriel est cohérente.
• F2 représente très bien la variable
diagonal, F1 toutes les autres.
• Qu’il n’y a pas d’individus
surcontributeurs.
• Que les 2 nuages de points en fonction
de la variable is_genuine sont bien
identifiés.
27
Classification Kmeans
Reg rou p ement d es d on n ées en
c lu sters ( classificatio n no n
super visée) .
Méthode des silhouettes : Le meilleur K
Déterminer le meilleur nombre de
clusters pour le Kmeans
• En toute logique, 2 clusters semblent
être la meilleure option pour notre
Kmeans.
• Comme nous souhaitons une
réponse binaire « vrai » / « faux »,
nous allons sélectionner 2 K
29
Application de l’algorithme Kmeans
Kmeans sur les données centrées
réduites :
• Une fois que l’algorithme a convergé,
que les centroïdes calculés ne
bougent plus, on place le résultat du
clustering dans le dataframe initial.
• Puis on compare les résultats
obtenus avec la variable is_genuine.
30
Comparaison cluster Kmeans / is_genuine
Environ 5% de marge d’erreur pour
la classification :
• Quelques vrais billets sont considérés
comme faux par l’algorithme
Kmeans.
• Nous les visualiserons sur le premier
plan factoriel.
31
Projection Kmeans sur le 1er plan factoriel
Une projection quasi identique à
l’ACP :
• On remarque que la répartition des
clusters calculés est fidèle à la
projection de l’ACP
• Les individus marquants des
différences is_genuine / kmeans sont
ici identifiés par un rectangle rouge.
Ils sont proches de la séparation
(quelques outliers sur les vrais billets
également)
32
FR
Synthèse du Kmeans
La c lassification au tomatiq u e n ou s in d iq u e
• Que la classification par Kmeans est
fidèle à 95% aux données réelles.
• Les divergences concernent surtout
des vrais billets identifiés comme
faux car leurs géométrie est un peu
hors norme.
33
Modélisation des données
Rég ression log istiq u e et
entrain ement d e l’algorith me .
Préparation des données
A fin d e réaliser la rég ression log istiq u e, il est
n éc essaire d e p rép arer les d on n ées :
• La variable cible « is_genuine » a été transformée en
variable numérique (True = 0, False = 1) ;
• Subdivision du jeu de données :
• 80% des données pour l’entrainement, soit 136 individus
• 20% pour la partie test, soit 34 individus
35
2 librairies Python testées
Pou r obten ir les meilleu res p réd ic tion s, n ou s
avon s testé 2 lib rairies P y th on :
• Statsmodels avec sa fonction Logit() ;
• Scikit-learn avec LogisticRegression().
36
Statsmodels Logit()
Quelques warnings pour cette
régression logistique :
• En analysant les Pvalues on
remarque que les variables ne
peuvent pas être considérées comme
significatives.
• La séparation semble trop parfaite
pour le modèle ce qui restreint le
nombre de paramètres identifiés.
37
Scikit-learn LogisticRegression()
Des prédictions plus précises avec le
modèle Scikit-learn :
• Les probabilités vrai (0) / faux (1) sont
calculées et stockées dans un array.
• Nous allons à présent comparer les
résultats obtenus des 2 méthodes et
tester la variable cible is_genuine.
38
Comparaison des résultats des 2 méthodes
Les 2 librairies nous fournissent des
résultats concluants sur les données
test :
• Les probabilités prédites par Scikit sont
plus précises.
• Les 2 algorithmes fournissent des
résultats vrai / faux correctes.
• Les points de divergences identifiés
avec le Kmeans sont correctement
prédits (individu 5, 144 …)
39
Pour la suite de la modélisation, nous
conservons Scikit-learn.
Analyse du Logit : Matrice de confusion
Pas de faux positifs ni de faux négatifs
pour cette régression logistique :
• Les chiffres sur la diagonale indiquent
les éléments bien classés, à savoir les
vrais positifs et vrais négatifs.
• Le prédictions du modèle semblent être
particulièrement fiable sur les données
test utilisées.
40
Distribution des probabilités obtenues
Une frontière fixée à 50% pour
déterminer les vrais / faux
billets :
• Plus l’aire commune aux deux
distributions est petite, plus le
modèle est confiant. Cette aire
commune est reliée à la
courbe ROC.
• Ici, nous remarquons qu’il n’y a
aucune aire commune.
41
Courbe de ROC sur le Logit
Une courbe qui représente bien
l’absence de faux positifs et faux
négatifs :
• La mesure AUC est l’aire sous la courbe.
Elle représente la probabilité que le
score d’un exemple classé faux à raison
soit inférieur à un exemple classé faux
à tort.
• Ici, comme nous le constatons, l’AUC
est égal à 1.
42
Précision et rappel de la régression
En calculant ces metrics sur la variable
is_genuine test et la variable prédite :
• Précision et rappel (recall) sont égaaux
à 100%. Pas de faux positifs ni de faux
négatifs, ce qui est logique.
• La métrique F1, qui est la moyenne
harmonique de precision et recall est
donc elle aussi égale à 100%.
• Le modèle peut donc être considéré
comme parfait.
43
FR
Synthèse du Logit
Notre mod èle d e rég ression log istiq u e :
• Le modèle de régression logistique
avec Scikit-learn est fiable sur nos
données test.
• Le modèle est confiant et précis
avec les données fournies.
• Nous allons utiliser cet algorithme
pour développer notre programme
de prédiction.
44
Test du modèle sur des données inconnues
Nous testons l’algorithme de
régression logistique sur des données
qu’il n’a jamais vu :
• Après avoir importé les données, on
applique la fonction de prédiction de
Sklearn, sur le modèle développé.
• Puis nous récupérons les probabilité de
la classe « faux billet ».
45
Test du modèle sur des données inconnues
Calcul de la variable is_genuine :
• Si la probabilité que le billet soit dans la
classe « faux » calculée est supérieure à
50%, alors le billet est considéré faux.
• On affiche le tout dans un dataframe
pour plus de clarté.
46
Test du modèle sur des données inconnues
• Le dataframe final regroupe l’ID du billet testé, la probabilité calculée ainsi qu’une précision sur son authenticité.
• Après vérification, ces classes prédites sont bien exactes, notre modèle de régression logistique peut être utilisé.
47
FR
Utilisation de l’algorithme de prédiction
Avec P y th on sou s Ju py ter N oteb ook : P6 _0 4 _p rog _test.ipy n b
Service concurrentiel
48
1. Exécutez le notebook en entier,
2. Sélectionnez le fichier à tester,
3. Retrouvez les résultats en fin de notebook.
Merci de votre attention.
Michael FUMERY
06.59.20.65.39
mika.fumery@gmail.com

More Related Content

What's hot

Change Point Analysis
Change Point AnalysisChange Point Analysis
Change Point Analysis
Taha Kass-Hout, MD, MS
 
NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions Stackoverflow
FUMERY Michael
 
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...
Bang Xiang Yong
 
Data Mining
Data MiningData Mining
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
Neo4j Training Introduction
Neo4j Training IntroductionNeo4j Training Introduction
Neo4j Training Introduction
Max De Marzi
 
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
Sri Ambati
 
Demystifying Graph Neural Networks
Demystifying Graph Neural NetworksDemystifying Graph Neural Networks
Demystifying Graph Neural Networks
Neo4j
 
Automated Hyperparameter Tuning, Scaling and Tracking
Automated Hyperparameter Tuning, Scaling and TrackingAutomated Hyperparameter Tuning, Scaling and Tracking
Automated Hyperparameter Tuning, Scaling and Tracking
Databricks
 
Feature enginnering and selection
Feature enginnering and selectionFeature enginnering and selection
Feature enginnering and selection
Davis David
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]
Khalid Benammi
 
Smarter Fraud Detection With Graph Data Science
Smarter Fraud Detection With Graph Data ScienceSmarter Fraud Detection With Graph Data Science
Smarter Fraud Detection With Graph Data Science
Neo4j
 
Becoming a Jelled Team
Becoming a Jelled TeamBecoming a Jelled Team
Lecture 18: Gaussian Mixture Models and Expectation Maximization
Lecture 18: Gaussian Mixture Models and Expectation MaximizationLecture 18: Gaussian Mixture Models and Expectation Maximization
Lecture 18: Gaussian Mixture Models and Expectation Maximizationbutest
 
Cours: Spss 2 master comrce
Cours: Spss 2  master comrceCours: Spss 2  master comrce
Cours: Spss 2 master comrce
soufiane boudabous
 
Feature Engineering
Feature EngineeringFeature Engineering
Feature Engineering
HJ van Veen
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
Boris Guarisma
 
A Review of Deep Contextualized Word Representations (Peters+, 2018)
A Review of Deep Contextualized Word Representations (Peters+, 2018)A Review of Deep Contextualized Word Representations (Peters+, 2018)
A Review of Deep Contextualized Word Representations (Peters+, 2018)
Shuntaro Yada
 
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfDagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
Hong Ong
 
わかパタ 1章
わかパタ 1章わかパタ 1章
わかパタ 1章
weda654
 

What's hot (20)

Change Point Analysis
Change Point AnalysisChange Point Analysis
Change Point Analysis
 
NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions Stackoverflow
 
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...
 
Data Mining
Data MiningData Mining
Data Mining
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Neo4j Training Introduction
Neo4j Training IntroductionNeo4j Training Introduction
Neo4j Training Introduction
 
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
 
Demystifying Graph Neural Networks
Demystifying Graph Neural NetworksDemystifying Graph Neural Networks
Demystifying Graph Neural Networks
 
Automated Hyperparameter Tuning, Scaling and Tracking
Automated Hyperparameter Tuning, Scaling and TrackingAutomated Hyperparameter Tuning, Scaling and Tracking
Automated Hyperparameter Tuning, Scaling and Tracking
 
Feature enginnering and selection
Feature enginnering and selectionFeature enginnering and selection
Feature enginnering and selection
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]
 
Smarter Fraud Detection With Graph Data Science
Smarter Fraud Detection With Graph Data ScienceSmarter Fraud Detection With Graph Data Science
Smarter Fraud Detection With Graph Data Science
 
Becoming a Jelled Team
Becoming a Jelled TeamBecoming a Jelled Team
Becoming a Jelled Team
 
Lecture 18: Gaussian Mixture Models and Expectation Maximization
Lecture 18: Gaussian Mixture Models and Expectation MaximizationLecture 18: Gaussian Mixture Models and Expectation Maximization
Lecture 18: Gaussian Mixture Models and Expectation Maximization
 
Cours: Spss 2 master comrce
Cours: Spss 2  master comrceCours: Spss 2  master comrce
Cours: Spss 2 master comrce
 
Feature Engineering
Feature EngineeringFeature Engineering
Feature Engineering
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
A Review of Deep Contextualized Word Representations (Peters+, 2018)
A Review of Deep Contextualized Word Representations (Peters+, 2018)A Review of Deep Contextualized Word Representations (Peters+, 2018)
A Review of Deep Contextualized Word Representations (Peters+, 2018)
 
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfDagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
 
わかパタ 1章
わかパタ 1章わかパタ 1章
わかパタ 1章
 

Similar to Détectez des faux billets

Upstate CSCI 525 Data Mining Chapter 2
Upstate CSCI 525 Data Mining Chapter 2Upstate CSCI 525 Data Mining Chapter 2
Upstate CSCI 525 Data Mining Chapter 2
DanWooster1
 
Chapter 2. Know Your Data.ppt
Chapter 2. Know Your Data.pptChapter 2. Know Your Data.ppt
Chapter 2. Know Your Data.ppt
Subrata Kumer Paul
 
Getting to Know Your Data Some sources from where you can access datasets for...
Getting to Know Your Data Some sources from where you can access datasets for...Getting to Know Your Data Some sources from where you can access datasets for...
Getting to Know Your Data Some sources from where you can access datasets for...
AkshayRF
 
Advanced Econometrics L5-6.pptx
Advanced Econometrics L5-6.pptxAdvanced Econometrics L5-6.pptx
Advanced Econometrics L5-6.pptx
akashayosha
 
An introduction to probabilistic data structures
An introduction to probabilistic data structuresAn introduction to probabilistic data structures
An introduction to probabilistic data structures
Miguel Ping
 
Grade 11, U0-L3-Graphing
Grade 11, U0-L3-GraphingGrade 11, U0-L3-Graphing
Grade 11, U0-L3-Graphing
gruszecki1
 
What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?
What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?
What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?
Smarten Augmented Analytics
 
Chapter 04
Chapter 04Chapter 04
Chapter 04bmcfad01
 
Data mining data characteristics
Data mining data characteristicsData mining data characteristics
Data mining data characteristics
KingSuleiman1
 
Data mining techniques in data mining with examples
Data mining techniques in data mining with examplesData mining techniques in data mining with examples
Data mining techniques in data mining with examples
mqasimsheikh5
 
1 chapter 04
1 chapter 041 chapter 04
1 chapter 04
NELSON DUBE
 
Data mining Concepts and Techniques
Data mining Concepts and Techniques Data mining Concepts and Techniques
Data mining Concepts and Techniques
Justin Cletus
 
Primitive Data Types and Variables Lesson 02
Primitive Data Types and Variables Lesson 02Primitive Data Types and Variables Lesson 02
Primitive Data Types and Variables Lesson 02
A-Tech and Software Development
 
Data Mining: Concepts and Techniques — Chapter 2 —
Data Mining:  Concepts and Techniques — Chapter 2 —Data Mining:  Concepts and Techniques — Chapter 2 —
Data Mining: Concepts and Techniques — Chapter 2 —
Salah Amean
 
Data mining :Concepts and Techniques Chapter 2, data
Data mining :Concepts and Techniques Chapter 2, dataData mining :Concepts and Techniques Chapter 2, data
Data mining :Concepts and Techniques Chapter 2, data
Salah Amean
 
03 chapter 3 application .pptx
03 chapter 3 application .pptx03 chapter 3 application .pptx
03 chapter 3 application .pptx
Hendmaarof
 
Bab 4.ppt
Bab 4.pptBab 4.ppt
02Data.ppt
02Data.ppt02Data.ppt
02Data.ppt
AlwinHilton
 
02Data.ppt
02Data.ppt02Data.ppt
02Data.ppt
TanviBhasin2
 

Similar to Détectez des faux billets (20)

Stats chapter 3
Stats chapter 3Stats chapter 3
Stats chapter 3
 
Upstate CSCI 525 Data Mining Chapter 2
Upstate CSCI 525 Data Mining Chapter 2Upstate CSCI 525 Data Mining Chapter 2
Upstate CSCI 525 Data Mining Chapter 2
 
Chapter 2. Know Your Data.ppt
Chapter 2. Know Your Data.pptChapter 2. Know Your Data.ppt
Chapter 2. Know Your Data.ppt
 
Getting to Know Your Data Some sources from where you can access datasets for...
Getting to Know Your Data Some sources from where you can access datasets for...Getting to Know Your Data Some sources from where you can access datasets for...
Getting to Know Your Data Some sources from where you can access datasets for...
 
Advanced Econometrics L5-6.pptx
Advanced Econometrics L5-6.pptxAdvanced Econometrics L5-6.pptx
Advanced Econometrics L5-6.pptx
 
An introduction to probabilistic data structures
An introduction to probabilistic data structuresAn introduction to probabilistic data structures
An introduction to probabilistic data structures
 
Grade 11, U0-L3-Graphing
Grade 11, U0-L3-GraphingGrade 11, U0-L3-Graphing
Grade 11, U0-L3-Graphing
 
What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?
What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?
What is Isotonic Regression and How Can a Business Utilize it to Analyze Data?
 
Chapter 04
Chapter 04Chapter 04
Chapter 04
 
Data mining data characteristics
Data mining data characteristicsData mining data characteristics
Data mining data characteristics
 
Data mining techniques in data mining with examples
Data mining techniques in data mining with examplesData mining techniques in data mining with examples
Data mining techniques in data mining with examples
 
1 chapter 04
1 chapter 041 chapter 04
1 chapter 04
 
Data mining Concepts and Techniques
Data mining Concepts and Techniques Data mining Concepts and Techniques
Data mining Concepts and Techniques
 
Primitive Data Types and Variables Lesson 02
Primitive Data Types and Variables Lesson 02Primitive Data Types and Variables Lesson 02
Primitive Data Types and Variables Lesson 02
 
Data Mining: Concepts and Techniques — Chapter 2 —
Data Mining:  Concepts and Techniques — Chapter 2 —Data Mining:  Concepts and Techniques — Chapter 2 —
Data Mining: Concepts and Techniques — Chapter 2 —
 
Data mining :Concepts and Techniques Chapter 2, data
Data mining :Concepts and Techniques Chapter 2, dataData mining :Concepts and Techniques Chapter 2, data
Data mining :Concepts and Techniques Chapter 2, data
 
03 chapter 3 application .pptx
03 chapter 3 application .pptx03 chapter 3 application .pptx
03 chapter 3 application .pptx
 
Bab 4.ppt
Bab 4.pptBab 4.ppt
Bab 4.ppt
 
02Data.ppt
02Data.ppt02Data.ppt
02Data.ppt
 
02Data.ppt
02Data.ppt02Data.ppt
02Data.ppt
 

Recently uploaded

Welcome to TechSoup New Member Orientation and Q&A (May 2024).pdf
Welcome to TechSoup   New Member Orientation and Q&A (May 2024).pdfWelcome to TechSoup   New Member Orientation and Q&A (May 2024).pdf
Welcome to TechSoup New Member Orientation and Q&A (May 2024).pdf
TechSoup
 
Supporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptxSupporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptx
Jisc
 
Model Attribute Check Company Auto Property
Model Attribute  Check Company Auto PropertyModel Attribute  Check Company Auto Property
Model Attribute Check Company Auto Property
Celine George
 
1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx
JosvitaDsouza2
 
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
Levi Shapiro
 
special B.ed 2nd year old paper_20240531.pdf
special B.ed 2nd year old paper_20240531.pdfspecial B.ed 2nd year old paper_20240531.pdf
special B.ed 2nd year old paper_20240531.pdf
Special education needs
 
Biological Screening of Herbal Drugs in detailed.
Biological Screening of Herbal Drugs in detailed.Biological Screening of Herbal Drugs in detailed.
Biological Screening of Herbal Drugs in detailed.
Ashokrao Mane college of Pharmacy Peth-Vadgaon
 
The Challenger.pdf DNHS Official Publication
The Challenger.pdf DNHS Official PublicationThe Challenger.pdf DNHS Official Publication
The Challenger.pdf DNHS Official Publication
Delapenabediema
 
Best Digital Marketing Institute In NOIDA
Best Digital Marketing Institute In NOIDABest Digital Marketing Institute In NOIDA
Best Digital Marketing Institute In NOIDA
deeptiverma2406
 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
siemaillard
 
A Survey of Techniques for Maximizing LLM Performance.pptx
A Survey of Techniques for Maximizing LLM Performance.pptxA Survey of Techniques for Maximizing LLM Performance.pptx
A Survey of Techniques for Maximizing LLM Performance.pptx
thanhdowork
 
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
EugeneSaldivar
 
Digital Tools and AI for Teaching Learning and Research
Digital Tools and AI for Teaching Learning and ResearchDigital Tools and AI for Teaching Learning and Research
Digital Tools and AI for Teaching Learning and Research
Vikramjit Singh
 
Synthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptxSynthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptx
Pavel ( NSTU)
 
Introduction to AI for Nonprofits with Tapp Network
Introduction to AI for Nonprofits with Tapp NetworkIntroduction to AI for Nonprofits with Tapp Network
Introduction to AI for Nonprofits with Tapp Network
TechSoup
 
BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...
BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...
BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...
Nguyen Thanh Tu Collection
 
Chapter 3 - Islamic Banking Products and Services.pptx
Chapter 3 - Islamic Banking Products and Services.pptxChapter 3 - Islamic Banking Products and Services.pptx
Chapter 3 - Islamic Banking Products and Services.pptx
Mohd Adib Abd Muin, Senior Lecturer at Universiti Utara Malaysia
 
Language Across the Curriculm LAC B.Ed.
Language Across the  Curriculm LAC B.Ed.Language Across the  Curriculm LAC B.Ed.
Language Across the Curriculm LAC B.Ed.
Atul Kumar Singh
 
Home assignment II on Spectroscopy 2024 Answers.pdf
Home assignment II on Spectroscopy 2024 Answers.pdfHome assignment II on Spectroscopy 2024 Answers.pdf
Home assignment II on Spectroscopy 2024 Answers.pdf
Tamralipta Mahavidyalaya
 
How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...
Jisc
 

Recently uploaded (20)

Welcome to TechSoup New Member Orientation and Q&A (May 2024).pdf
Welcome to TechSoup   New Member Orientation and Q&A (May 2024).pdfWelcome to TechSoup   New Member Orientation and Q&A (May 2024).pdf
Welcome to TechSoup New Member Orientation and Q&A (May 2024).pdf
 
Supporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptxSupporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptx
 
Model Attribute Check Company Auto Property
Model Attribute  Check Company Auto PropertyModel Attribute  Check Company Auto Property
Model Attribute Check Company Auto Property
 
1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx
 
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
 
special B.ed 2nd year old paper_20240531.pdf
special B.ed 2nd year old paper_20240531.pdfspecial B.ed 2nd year old paper_20240531.pdf
special B.ed 2nd year old paper_20240531.pdf
 
Biological Screening of Herbal Drugs in detailed.
Biological Screening of Herbal Drugs in detailed.Biological Screening of Herbal Drugs in detailed.
Biological Screening of Herbal Drugs in detailed.
 
The Challenger.pdf DNHS Official Publication
The Challenger.pdf DNHS Official PublicationThe Challenger.pdf DNHS Official Publication
The Challenger.pdf DNHS Official Publication
 
Best Digital Marketing Institute In NOIDA
Best Digital Marketing Institute In NOIDABest Digital Marketing Institute In NOIDA
Best Digital Marketing Institute In NOIDA
 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
 
A Survey of Techniques for Maximizing LLM Performance.pptx
A Survey of Techniques for Maximizing LLM Performance.pptxA Survey of Techniques for Maximizing LLM Performance.pptx
A Survey of Techniques for Maximizing LLM Performance.pptx
 
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
 
Digital Tools and AI for Teaching Learning and Research
Digital Tools and AI for Teaching Learning and ResearchDigital Tools and AI for Teaching Learning and Research
Digital Tools and AI for Teaching Learning and Research
 
Synthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptxSynthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptx
 
Introduction to AI for Nonprofits with Tapp Network
Introduction to AI for Nonprofits with Tapp NetworkIntroduction to AI for Nonprofits with Tapp Network
Introduction to AI for Nonprofits with Tapp Network
 
BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...
BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...
BÀI TẬP BỔ TRỢ TIẾNG ANH GLOBAL SUCCESS LỚP 3 - CẢ NĂM (CÓ FILE NGHE VÀ ĐÁP Á...
 
Chapter 3 - Islamic Banking Products and Services.pptx
Chapter 3 - Islamic Banking Products and Services.pptxChapter 3 - Islamic Banking Products and Services.pptx
Chapter 3 - Islamic Banking Products and Services.pptx
 
Language Across the Curriculm LAC B.Ed.
Language Across the  Curriculm LAC B.Ed.Language Across the  Curriculm LAC B.Ed.
Language Across the Curriculm LAC B.Ed.
 
Home assignment II on Spectroscopy 2024 Answers.pdf
Home assignment II on Spectroscopy 2024 Answers.pdfHome assignment II on Spectroscopy 2024 Answers.pdf
Home assignment II on Spectroscopy 2024 Answers.pdf
 
How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...
 

Détectez des faux billets

  • 1. Création d’un algorithme de détection de faux billets M i s s i o n d u m i n i s t è r e d e l ' I n t é r i e u r , d a n s l e c a d r e d e l a l u t t e c o n t r e l a c r i m i n a l i t é o r g a n i s é e , à l ' O f f i c e c e n t r a l p o u r l a r é p r e s s i o n d u f a u x m o n n a y a g e
  • 2. Contexte & méthode Prop oser u n algorith me d e d étec tion d e fau x b illets entrain é avec d es d on n ées fou rn ies. • Analyse descriptive du dataset ; • Analyse en composantes principales (ACP) ; • Analyse de classification par Kmeans ; • Détails de la modélisation de données ; • Test de l’algorithme. 2
  • 3. Description du dataset A n alyses d esc riptives b ivariées et u n ivariées d es d on n ées.
  • 4. Données géométriques des billets Les données fournies par le client regroupent les données géométriques de 170 billets, qu’ils soient « vrai » ou « faux ». Le fichier CSV a été importé dans Python via la librairie Pandas afin de créer un dataframe pour faciliter les analyses. Lexique des variables : • length : la longueur du billet (en mm) ; • height_left : la hauteur du billet (mesurée sur le côté gauche, en mm) ; • height_right : La hauteur du billet (mesurée sur le côté droit, en mm) ; • margin_up : la marge entre le bord supérieur du billet et l'image de celui-ci (en mm) ; • margin_low : la marge entre le bord inférieur du billet et l'image de celui-ci (en mm) ; • diagonal : la diagonale du billet (en mm) ; • is_genuine : Indication si le billet est vrai (True) ou faux (False). 4
  • 5. Description des données Le fichier source ne comporte pas de données aberrantes (Les max, min et écarts types sont cohérents) et pas de données manquantes ou Null. Nous allons pouvoir passer à l’analyse univariée du dataset. 5
  • 6. Répartition vrais / faux billets 6 Vrais billets 59% Faux billets 41% Sur les 170 billets 41,2% sont faux et 58,8% sont authentiques. Cette répartition nous offre une base intéressante pour un clustering ou encore une méthode de classification supervisée.
  • 7. Distribution des variables 7 Distribution suivant la loi normale (gaussienne)
  • 8. Distribution des variables 8 Cette distribution ne semble pas suivre la loi gaussienne
  • 9. Distribution des variables 9 Cette distribution ne semble pas suivre la loi gaussienne
  • 10. Test de Kolmogorov-Smirnov Pour vérifier l’adéquation à la loi normale (gaussienne), au niveau de test 5% : Les Pvalues obtenues permettent de rejeter en effet cette adéquation sur les variables : • Length • margin_low 10
  • 11. Analyses bivariés : Corrélations linéaires Quelques fortes corrélations linéaires : • height_right / height_left avec 𝓻 = 𝟎, 𝟕𝟑 ; • height_right / margin_low avec 𝓻 = 𝟎, 𝟓𝟏 ; • margin_low / Length avec 𝓻 = − 𝟎, 𝟔𝟒 ; • margin_up / Length avec 𝓻 = − 𝟎, 𝟓𝟐 11 Is_genuine : La variable vrai / faux billet semble être très corrélée avec • Length • Margin_low
  • 12. Pairplots sur les variables 2 à 2 12 En réalisant ces pairplots avec la séparation de couleurs entre vrais et faux billets, on remarque bien 2 groupes distincts pour chacune des variables, qui permettent certainement de différencier les billets falsifiés Scatterplot height_right / height_left
  • 13. Boxplots en fonction de is_genuine 13
  • 14. Boxplots en fonction de is_genuine 14
  • 15. Boxplots en fonction de is_genuine 15 Si les variances sur ces variables restent relativement similaires entre les vrais et faux billets, on constate là encore que les faux billets ont des valeurs médianes assez différentes des vrais billets.
  • 16. FR Pour résumer … La d esc ription d es d on n ées n ou s in d iq u e • Que le dataset est sain, pas de valeurs aberrantes ni de valeurs manquantes. • Que la répartition vrais / faux billets est relativement équitable. • Que les corrélations sembles bien établies. • Que les distributions des variables en fonction de is_genuine semblent montrer des différences marquées. 16
  • 17. ACP du dataset A n alyses en comp osantes p rin c ip ales ou exp loration statistiq u e d es d on n ées.
  • 18. Préparation des données A fin d e réaliser u n e ACP p erformante, il est n éc essaire d e b ien p rép arer les d on n ées : • Standardisation des données par centrage et réduction ; • Calculer les coordonnées factorielles ; • Calculer les variances expliquées et de leurs proportions ; • … 18
  • 19. Eboulis des valeurs propres Définir le nombre d’axes d’analyse : Afin de définir les axes principaux à analyser, l’éboulis des valeurs propres a été réalisé. On remarque que sur les 2 premiers axes (F1 et F2), l’inertie cumulée est de 69,40 %. Une analyse sur ces 2 premiers axes est donc cohérente et suffisante. 19
  • 20. Variables : Cercle des corrélations Représentation des corrélations des variables Les variables sont bien représentées, proches su cercle, et les corrélerions (cosinus de l’angle entre les vecteurs) sont bien visualisables. • Length / Height et Margin sont très corrélés à la composante principale F1 • Diagonal est très corrélé à la composante F2 et quasi orthogonale à Length. On remarque également que le vecteur représentant is_genuine (variable vrai / faux billet) est très corrélée à length. 20
  • 21. COS² : Qualité de représentation des variables Heatmap de la qualité de représentation des variables : Un COS² élevé indique une bonne représentation de la variable sur les axes principaux en considération. • Diagonal est parfaitement représenté sur la composante F2. • Les autres variables sur l’axe F1 à quasi égalité (sauf margin_up) 21
  • 22. CTR : Contribution des variables aux axes Heatmap de contribution des variables aux axes principaux : • Diagonal est donc une variable très importante pour expliquer l’axe 2. • Les autres variables sur l’axe F1 et F2 ont une répartition plutôt égalitaire de leurs contributions. 22
  • 23. Individus : Projection dans le 1er plan factoriel Projection des individus. Nuage de points sur les variables synthétiques F1 et F2 Nous avons vu que les 2 variables synthétiques représentaient concrètement les 6 variables du dataset. • Coloration des individus en fonction de la variable illustrative is_genuine • 2 nuages distincts si le billet est vrai ou faux. • Ajout des centroïdes de classes. • Quelques outliers pour les vrais billets. 23
  • 24. COS² : Qualité de représentation des individus Taille des points en fonction du COS² sur F1 : On remarque ici que les individus autour des centroïdes ont une meilleure qualité de représentation sur F1. 24
  • 25. COS² : Qualité de représentation des individus Taille des points en fonction du COS² sur F2 : Ce scatterplot quant à lui représente le COS² sur F2. Les individus représentatifs y sont moins nombreux. 25
  • 26. CTR : Contribution des individus aux axes Calculs de contribution des individus aux axes principaux : • En calculant les CTR sur les axes F1 et F2, on remarque qu’il n’y a pas d’individus fortement contributeurs. • A noter que l’individu 0 semble se démarquer plus que les autres sur l’axe F2. 26
  • 27. FR Pour résumer l’ACP L’an alyse en comp osantes p rin c ip ales in d iq u e • Qu’une analyse sur le premier plan factoriel est cohérente. • F2 représente très bien la variable diagonal, F1 toutes les autres. • Qu’il n’y a pas d’individus surcontributeurs. • Que les 2 nuages de points en fonction de la variable is_genuine sont bien identifiés. 27
  • 28. Classification Kmeans Reg rou p ement d es d on n ées en c lu sters ( classificatio n no n super visée) .
  • 29. Méthode des silhouettes : Le meilleur K Déterminer le meilleur nombre de clusters pour le Kmeans • En toute logique, 2 clusters semblent être la meilleure option pour notre Kmeans. • Comme nous souhaitons une réponse binaire « vrai » / « faux », nous allons sélectionner 2 K 29
  • 30. Application de l’algorithme Kmeans Kmeans sur les données centrées réduites : • Une fois que l’algorithme a convergé, que les centroïdes calculés ne bougent plus, on place le résultat du clustering dans le dataframe initial. • Puis on compare les résultats obtenus avec la variable is_genuine. 30
  • 31. Comparaison cluster Kmeans / is_genuine Environ 5% de marge d’erreur pour la classification : • Quelques vrais billets sont considérés comme faux par l’algorithme Kmeans. • Nous les visualiserons sur le premier plan factoriel. 31
  • 32. Projection Kmeans sur le 1er plan factoriel Une projection quasi identique à l’ACP : • On remarque que la répartition des clusters calculés est fidèle à la projection de l’ACP • Les individus marquants des différences is_genuine / kmeans sont ici identifiés par un rectangle rouge. Ils sont proches de la séparation (quelques outliers sur les vrais billets également) 32
  • 33. FR Synthèse du Kmeans La c lassification au tomatiq u e n ou s in d iq u e • Que la classification par Kmeans est fidèle à 95% aux données réelles. • Les divergences concernent surtout des vrais billets identifiés comme faux car leurs géométrie est un peu hors norme. 33
  • 34. Modélisation des données Rég ression log istiq u e et entrain ement d e l’algorith me .
  • 35. Préparation des données A fin d e réaliser la rég ression log istiq u e, il est n éc essaire d e p rép arer les d on n ées : • La variable cible « is_genuine » a été transformée en variable numérique (True = 0, False = 1) ; • Subdivision du jeu de données : • 80% des données pour l’entrainement, soit 136 individus • 20% pour la partie test, soit 34 individus 35
  • 36. 2 librairies Python testées Pou r obten ir les meilleu res p réd ic tion s, n ou s avon s testé 2 lib rairies P y th on : • Statsmodels avec sa fonction Logit() ; • Scikit-learn avec LogisticRegression(). 36
  • 37. Statsmodels Logit() Quelques warnings pour cette régression logistique : • En analysant les Pvalues on remarque que les variables ne peuvent pas être considérées comme significatives. • La séparation semble trop parfaite pour le modèle ce qui restreint le nombre de paramètres identifiés. 37
  • 38. Scikit-learn LogisticRegression() Des prédictions plus précises avec le modèle Scikit-learn : • Les probabilités vrai (0) / faux (1) sont calculées et stockées dans un array. • Nous allons à présent comparer les résultats obtenus des 2 méthodes et tester la variable cible is_genuine. 38
  • 39. Comparaison des résultats des 2 méthodes Les 2 librairies nous fournissent des résultats concluants sur les données test : • Les probabilités prédites par Scikit sont plus précises. • Les 2 algorithmes fournissent des résultats vrai / faux correctes. • Les points de divergences identifiés avec le Kmeans sont correctement prédits (individu 5, 144 …) 39 Pour la suite de la modélisation, nous conservons Scikit-learn.
  • 40. Analyse du Logit : Matrice de confusion Pas de faux positifs ni de faux négatifs pour cette régression logistique : • Les chiffres sur la diagonale indiquent les éléments bien classés, à savoir les vrais positifs et vrais négatifs. • Le prédictions du modèle semblent être particulièrement fiable sur les données test utilisées. 40
  • 41. Distribution des probabilités obtenues Une frontière fixée à 50% pour déterminer les vrais / faux billets : • Plus l’aire commune aux deux distributions est petite, plus le modèle est confiant. Cette aire commune est reliée à la courbe ROC. • Ici, nous remarquons qu’il n’y a aucune aire commune. 41
  • 42. Courbe de ROC sur le Logit Une courbe qui représente bien l’absence de faux positifs et faux négatifs : • La mesure AUC est l’aire sous la courbe. Elle représente la probabilité que le score d’un exemple classé faux à raison soit inférieur à un exemple classé faux à tort. • Ici, comme nous le constatons, l’AUC est égal à 1. 42
  • 43. Précision et rappel de la régression En calculant ces metrics sur la variable is_genuine test et la variable prédite : • Précision et rappel (recall) sont égaaux à 100%. Pas de faux positifs ni de faux négatifs, ce qui est logique. • La métrique F1, qui est la moyenne harmonique de precision et recall est donc elle aussi égale à 100%. • Le modèle peut donc être considéré comme parfait. 43
  • 44. FR Synthèse du Logit Notre mod èle d e rég ression log istiq u e : • Le modèle de régression logistique avec Scikit-learn est fiable sur nos données test. • Le modèle est confiant et précis avec les données fournies. • Nous allons utiliser cet algorithme pour développer notre programme de prédiction. 44
  • 45. Test du modèle sur des données inconnues Nous testons l’algorithme de régression logistique sur des données qu’il n’a jamais vu : • Après avoir importé les données, on applique la fonction de prédiction de Sklearn, sur le modèle développé. • Puis nous récupérons les probabilité de la classe « faux billet ». 45
  • 46. Test du modèle sur des données inconnues Calcul de la variable is_genuine : • Si la probabilité que le billet soit dans la classe « faux » calculée est supérieure à 50%, alors le billet est considéré faux. • On affiche le tout dans un dataframe pour plus de clarté. 46
  • 47. Test du modèle sur des données inconnues • Le dataframe final regroupe l’ID du billet testé, la probabilité calculée ainsi qu’une précision sur son authenticité. • Après vérification, ces classes prédites sont bien exactes, notre modèle de régression logistique peut être utilisé. 47
  • 48. FR Utilisation de l’algorithme de prédiction Avec P y th on sou s Ju py ter N oteb ook : P6 _0 4 _p rog _test.ipy n b Service concurrentiel 48 1. Exécutez le notebook en entier, 2. Sélectionnez le fichier à tester, 3. Retrouvez les résultats en fin de notebook.
  • 49. Merci de votre attention. Michael FUMERY 06.59.20.65.39 mika.fumery@gmail.com