Détectez des faux billets

Création d’un algorithme de
détection de faux billets
M i s s i o n d u m i n i s t è r e d e l ' I n t é r i e u r , d a n s l e
c a d r e d e l a l u t t e c o n t r e l a c r i m i n a l i t é
o r g a n i s é e , à l ' O f f i c e c e n t r a l p o u r l a
r é p r e s s i o n d u f a u x m o n n a y a g e

Contexte & méthode
Prop oser u n algorith me d e d étec tion d e fau x
b illets entrain é avec d es d on n ées fou rn ies.
• Analyse descriptive du dataset ;
• Analyse en composantes principales (ACP) ;
• Analyse de classification par Kmeans ;
• Détails de la modélisation de données ;
• Test de l’algorithme.
2

Description du dataset
A n alyses d esc riptives b ivariées
et u n ivariées d es d on n ées.

Données géométriques des billets
Les données fournies par le client regroupent les données
géométriques de 170 billets, qu’ils soient « vrai » ou « faux ».
Le fichier CSV a été importé dans Python via la librairie Pandas afin
de créer un dataframe pour faciliter les analyses.
Lexique des variables :
• length : la longueur du billet (en mm) ;
• height_left : la hauteur du billet (mesurée
sur le côté gauche, en mm) ;
• height_right : La hauteur du
billet (mesurée sur le côté droit, en mm) ;
• margin_up : la marge entre le bord
supérieur du billet et l'image de celui-ci (en
mm) ;
• margin_low : la marge entre le bord
inférieur du billet et l'image de celui-ci (en
mm) ;
• diagonal : la diagonale du billet (en mm) ;
• is_genuine : Indication si le billet est
vrai (True) ou faux (False).
4

Description des données
Le fichier source ne comporte pas de données aberrantes (Les max, min et écarts types sont cohérents) et pas
de données manquantes ou Null.
Nous allons pouvoir passer à l’analyse univariée du dataset.
5

Répartition vrais / faux billets
6
Vrais billets
59%
Faux billets
41%
Sur les 170 billets 41,2% sont faux et 58,8% sont
authentiques.
Cette répartition nous offre une base intéressante
pour un clustering ou encore une méthode de
classification supervisée.

Distribution des variables
7
Distribution suivant la loi
normale (gaussienne)

8
Cette distribution ne
semble pas suivre la
loi gaussienne

9
Cette distribution ne
semble pas suivre la
loi gaussienne

Test de Kolmogorov-Smirnov
Pour vérifier l’adéquation à la loi normale (gaussienne), au
niveau de test 5% :
Les Pvalues obtenues permettent de rejeter en effet cette
adéquation sur les variables :
• Length
• margin_low
10

Analyses bivariés : Corrélations linéaires
Quelques fortes corrélations linéaires :
• height_right / height_left avec 𝓻 = 𝟎, 𝟕𝟑 ;
• height_right / margin_low avec 𝓻 = 𝟎, 𝟓𝟏 ;
• margin_low / Length avec 𝓻 = − 𝟎, 𝟔𝟒 ;
• margin_up / Length avec 𝓻 = − 𝟎, 𝟓𝟐
11
Is_genuine :
La variable vrai / faux
billet semble être très
corrélée avec
• Length
• Margin_low

Pairplots sur les variables 2 à 2
12
En réalisant ces pairplots avec la séparation de
couleurs entre vrais et faux billets, on
remarque bien 2 groupes distincts pour
chacune des variables, qui permettent
certainement de différencier les billets falsifiés
Scatterplot height_right / height_left

Boxplots en fonction de is_genuine
13

14

15
Si les variances sur ces variables restent relativement similaires entre les vrais et
faux billets, on constate là encore que les faux billets ont des valeurs médianes
assez différentes des vrais billets.

FR
Pour résumer …
La d esc ription d es d on n ées n ou s in d iq u e
• Que le dataset est sain, pas de valeurs
aberrantes ni de valeurs manquantes.
• Que la répartition vrais / faux billets est
relativement équitable.
• Que les corrélations sembles bien
établies.
• Que les distributions des variables en
fonction de is_genuine semblent
montrer des différences marquées.
16

ACP du dataset
A n alyses en comp osantes
p rin c ip ales ou exp loration
statistiq u e d es d on n ées.

Préparation des données
A fin d e réaliser u n e ACP p erformante, il est
n éc essaire d e b ien p rép arer les d on n ées :
• Standardisation des données par centrage et réduction ;
• Calculer les coordonnées factorielles ;
• Calculer les variances expliquées et de leurs proportions ;
• …
18

Eboulis des valeurs propres
Définir le nombre d’axes
d’analyse :
Afin de définir les axes principaux à
analyser, l’éboulis des valeurs propres
a été réalisé.
On remarque que sur les 2 premiers
axes (F1 et F2), l’inertie cumulée est
de 69,40 %.
Une analyse sur ces 2 premiers axes
est donc cohérente et suffisante.
19

Variables : Cercle des corrélations
Représentation des corrélations des variables
Les variables sont bien représentées, proches su
cercle, et les corrélerions (cosinus de l’angle entre
les vecteurs) sont bien visualisables.
• Length / Height et Margin sont très corrélés à la
composante principale F1
• Diagonal est très corrélé à la composante F2 et
quasi orthogonale à Length.
On remarque également que le vecteur
représentant is_genuine (variable vrai / faux billet)
est très corrélée à length.
20

COS² : Qualité de représentation des variables
Heatmap de la qualité de
représentation des variables :
Un COS² élevé indique une bonne
représentation de la variable sur les axes
principaux en considération.
• Diagonal est parfaitement représenté
sur la composante F2.
• Les autres variables sur l’axe F1 à
quasi égalité (sauf margin_up)
21

CTR : Contribution des variables aux axes
Heatmap de contribution des
variables aux axes principaux :
• Diagonal est donc une variable très
importante pour expliquer l’axe 2.
• Les autres variables sur l’axe F1 et F2
ont une répartition plutôt égalitaire
de leurs contributions.
22

Individus : Projection dans le 1er plan factoriel
Projection des individus. Nuage de
points sur les variables synthétiques
F1 et F2
Nous avons vu que les 2 variables synthétiques
représentaient concrètement les 6 variables du
dataset.
• Coloration des individus en fonction de
la variable illustrative is_genuine
• 2 nuages distincts si le billet est vrai ou
faux.
• Ajout des centroïdes de classes.
• Quelques outliers pour les vrais billets.
23

COS² : Qualité de représentation des individus
Taille des points en fonction du
COS² sur F1 :
On remarque ici que les individus
autour des centroïdes ont une
meilleure qualité de représentation
sur F1.
24

COS² : Qualité de représentation des individus
Taille des points en fonction du
COS² sur F2 :
Ce scatterplot quant à lui représente le
COS² sur F2. Les individus
représentatifs y sont moins nombreux.
25

CTR : Contribution des individus aux axes
Calculs de contribution des
individus aux axes principaux :
• En calculant les CTR sur les axes F1 et
F2, on remarque qu’il n’y a pas
d’individus fortement contributeurs.
• A noter que l’individu 0 semble se
démarquer plus que les autres sur
l’axe F2.
26

FR
Pour résumer l’ACP
L’an alyse en comp osantes p rin c ip ales in d iq u e
• Qu’une analyse sur le premier plan
factoriel est cohérente.
• F2 représente très bien la variable
diagonal, F1 toutes les autres.
• Qu’il n’y a pas d’individus
surcontributeurs.
• Que les 2 nuages de points en fonction
de la variable is_genuine sont bien
identifiés.
27

Classification Kmeans
Reg rou p ement d es d on n ées en
c lu sters ( classificatio n no n
super visée) .

Méthode des silhouettes : Le meilleur K
Déterminer le meilleur nombre de
clusters pour le Kmeans
• En toute logique, 2 clusters semblent
être la meilleure option pour notre
Kmeans.
• Comme nous souhaitons une
réponse binaire « vrai » / « faux »,
nous allons sélectionner 2 K
29

Application de l’algorithme Kmeans
Kmeans sur les données centrées
réduites :
• Une fois que l’algorithme a convergé,
que les centroïdes calculés ne
bougent plus, on place le résultat du
clustering dans le dataframe initial.
• Puis on compare les résultats
obtenus avec la variable is_genuine.
30

Comparaison cluster Kmeans / is_genuine
Environ 5% de marge d’erreur pour
la classification :
• Quelques vrais billets sont considérés
comme faux par l’algorithme
Kmeans.
• Nous les visualiserons sur le premier
plan factoriel.
31

Projection Kmeans sur le 1er plan factoriel
Une projection quasi identique à
l’ACP :
• On remarque que la répartition des
clusters calculés est fidèle à la
projection de l’ACP
• Les individus marquants des
différences is_genuine / kmeans sont
ici identifiés par un rectangle rouge.
Ils sont proches de la séparation
(quelques outliers sur les vrais billets
également)
32

FR
Synthèse du Kmeans
La c lassification au tomatiq u e n ou s in d iq u e
• Que la classification par Kmeans est
fidèle à 95% aux données réelles.
• Les divergences concernent surtout
des vrais billets identifiés comme
faux car leurs géométrie est un peu
hors norme.
33

Modélisation des données
Rég ression log istiq u e et
entrain ement d e l’algorith me .

Préparation des données
A fin d e réaliser la rég ression log istiq u e, il est
n éc essaire d e p rép arer les d on n ées :
• La variable cible « is_genuine » a été transformée en
variable numérique (True = 0, False = 1) ;
• Subdivision du jeu de données :
• 80% des données pour l’entrainement, soit 136 individus
• 20% pour la partie test, soit 34 individus
35

2 librairies Python testées
Pou r obten ir les meilleu res p réd ic tion s, n ou s
avon s testé 2 lib rairies P y th on :
• Statsmodels avec sa fonction Logit() ;
• Scikit-learn avec LogisticRegression().
36

Statsmodels Logit()
Quelques warnings pour cette
régression logistique :
• En analysant les Pvalues on
remarque que les variables ne
peuvent pas être considérées comme
significatives.
• La séparation semble trop parfaite
pour le modèle ce qui restreint le
nombre de paramètres identifiés.
37

Scikit-learn LogisticRegression()
Des prédictions plus précises avec le
modèle Scikit-learn :
• Les probabilités vrai (0) / faux (1) sont
calculées et stockées dans un array.
• Nous allons à présent comparer les
résultats obtenus des 2 méthodes et
tester la variable cible is_genuine.
38

Comparaison des résultats des 2 méthodes
Les 2 librairies nous fournissent des
résultats concluants sur les données
test :
• Les probabilités prédites par Scikit sont
plus précises.
• Les 2 algorithmes fournissent des
résultats vrai / faux correctes.
• Les points de divergences identifiés
avec le Kmeans sont correctement
prédits (individu 5, 144 …)
39
Pour la suite de la modélisation, nous
conservons Scikit-learn.

Analyse du Logit : Matrice de confusion
Pas de faux positifs ni de faux négatifs
pour cette régression logistique :
• Les chiffres sur la diagonale indiquent
les éléments bien classés, à savoir les
vrais positifs et vrais négatifs.
• Le prédictions du modèle semblent être
particulièrement fiable sur les données
test utilisées.
40

Distribution des probabilités obtenues
Une frontière fixée à 50% pour
déterminer les vrais / faux
billets :
• Plus l’aire commune aux deux
distributions est petite, plus le
modèle est confiant. Cette aire
commune est reliée à la
courbe ROC.
• Ici, nous remarquons qu’il n’y a
aucune aire commune.
41

Courbe de ROC sur le Logit
Une courbe qui représente bien
l’absence de faux positifs et faux
négatifs :
• La mesure AUC est l’aire sous la courbe.
Elle représente la probabilité que le
score d’un exemple classé faux à raison
soit inférieur à un exemple classé faux
à tort.
• Ici, comme nous le constatons, l’AUC
est égal à 1.
42

Précision et rappel de la régression
En calculant ces metrics sur la variable
is_genuine test et la variable prédite :
• Précision et rappel (recall) sont égaaux
à 100%. Pas de faux positifs ni de faux
négatifs, ce qui est logique.
• La métrique F1, qui est la moyenne
harmonique de precision et recall est
donc elle aussi égale à 100%.
• Le modèle peut donc être considéré
comme parfait.
43

FR
Synthèse du Logit
Notre mod èle d e rég ression log istiq u e :
• Le modèle de régression logistique
avec Scikit-learn est fiable sur nos
données test.
• Le modèle est confiant et précis
avec les données fournies.
• Nous allons utiliser cet algorithme
pour développer notre programme
de prédiction.
44

Test du modèle sur des données inconnues
Nous testons l’algorithme de
régression logistique sur des données
qu’il n’a jamais vu :
• Après avoir importé les données, on
applique la fonction de prédiction de
Sklearn, sur le modèle développé.
• Puis nous récupérons les probabilité de
la classe « faux billet ».
45

Calcul de la variable is_genuine :
• Si la probabilité que le billet soit dans la
classe « faux » calculée est supérieure à
50%, alors le billet est considéré faux.
• On affiche le tout dans un dataframe
pour plus de clarté.
46

• Le dataframe final regroupe l’ID du billet testé, la probabilité calculée ainsi qu’une précision sur son authenticité.
• Après vérification, ces classes prédites sont bien exactes, notre modèle de régression logistique peut être utilisé.
47

FR
Utilisation de l’algorithme de prédiction
Avec P y th on sou s Ju py ter N oteb ook : P6 _0 4 _p rog _test.ipy n b
Service concurrentiel
48
1. Exécutez le notebook en entier,
2. Sélectionnez le fichier à tester,
3. Retrouvez les résultats en fin de notebook.

Merci de votre attention.
Michael FUMERY
06.59.20.65.39
mika.fumery@gmail.com

Détectez des faux billets

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Détectez des faux billets

Similar to Détectez des faux billets (20)

Recently uploaded

Recently uploaded (20)

Détectez des faux billets