Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Machine intelligente d’analyse financiere

624 views

Published on

Projet de PFE: Machine d'apprentissage de détection des fraudes fiscales en Tunisie

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Machine intelligente d’analyse financiere

  1. 1. MACHINE INTELLIGENTE D’ANALYSE FINANCIÈRE Réalisé par: Sabrine MASTOURA Encadrant ENICarthage: Mr. Walid BARHOUMI Encadrante CIMF : Mme. Wahiba BEN FREDJ 2015-2016 Projet de Fin d’ Études Soutenu le 29/06/2016
  2. 2. PLAN  Cadre général du projet  Apprentissage automatique  Compréhension du marché  Compréhension des données  Préparation des données  Modélisation  Évaluation  Conclusion et perspectives
  3. 3. CADRE GÉNÉRAL DU PROJET 1 Fraudeur Mesures anti-fraude Contrôle Etat tunisien Recettes fiscales
  4. 4. CADRE GÉNÉRAL DU PROJET 2 DECISIONEL SINDA TGT SADEC RAFIC PGT ADEB Apprentissage automatique
  5. 5. CADRE GÉNÉRAL DU PROJET 3 « Connect » Une détection des incohérences dans les déclarations fiscales Une lutte contre l’escroquerie à la TVA « Redditometro » Une comparaison sommaire des revenues déclarés et l’estimation des dépenses
  6. 6. CADRE GÉNÉRAL DU PROJET 4 CRISP-Dm 1.0: Cross-Industry Standard Process
  7. 7. APPRENTISSAGE AUTOMATIQUE 5 Programmation traditionnelle Données Résultats Algorithmes Apprentissage automatique RésultatsDonnées Algorithmes
  8. 8. APPRENTISSAGE AUTOMATIQUE 6 Apprentissage automatique Apprentissage non supervisé Régression Classification Apprentissage supervisé Valeur du redressement Détection de la fraude
  9. 9. APPRENTISSAGE AUTOMATIQUE 7 P(X,Y) (X,Y) X Y' Minimiser Y-Y' Y Fonction de coût Apprentissage automatique ( )h X ( )h X 0 1 1( ) ... n nh X x x       Pour un modèle linéaire, la fonction hypothèse est: 2 ( ) 0 1 1 ( )1 ( , ,.., ) ( ( ) ) 2 i m i nJ y m h x      Ces paramètres inconnues minimisent la fonction de coût:i ( ) ( ) ( ) 1 1 : ( )( ) i i j j j i m répéter y x m h x              Le choix des paramètres se fait par l’algorithme de descente de gradient:i
  10. 10. APPRENTISSAGE AUTOMATIQUE 8  Sélection du modèle :  Régression : Jeu de données = base d’apprentissage (70%) + base de test (30%) • Choisir le modèle qui minimise la fonction de coût de test sous-apprentissage bon modèle sur-apprentissage • Détecter des anomalies d’apprentissage • Choisir les paramètres minimisant la fonction de coût d’apprentissagei Vrai Positive (VP) Faux Négative (FN) Faux Positive (FP) Vrai Négative (VN) Classe prédite Positive Négative Classeréelle NégativePositive Précision=VP / (VP+FP)  Classification : Rappel= VP/(VP+FN)
  11. 11. COMPRÉHENSION DU MARCHÉ 9 Pétrole Avocats Médecins Architectes Généraliste Pédiatre 8 Secteurs 694 Activités 156 Sous secteurs Personnes Physiques Personnes Morales 80% de la masse salariale
  12. 12. COMPRÉHENSION DU MARCHÉ 10 DGI Centre de contrôle Bureau de contrôle Bureau de contrôle DGEVérifications approfondies Vérifications sommaires Redressements approfondis Redressements simples
  13. 13. COMPRÉHENSION DU MARCHÉ 11
  14. 14. COMPRÉHENSION DES DONNÉES 12 Décisionnel Analyse des risques decsoc 132 Mo dectva 73,2 Mo agrpay 547 Mo sitfis 17 Go cnss 506 Mo entreprise 1 Go resvap 186 Mo agranx 1,66 Go actagr 338 Moagrtva 567 Mo asinda 251 Mo nomimp 4Ko decird 164 Mo decirp 163 Mo
  15. 15. COMPRÉHENSION DES DONNÉES 13 Contrôle des données Types des donnéesErreurs de saisieVolumes des fichiers Sitfis 17 Go 0.61 Go
  16. 16. COMPRÉHENSION DES DONNÉES 14 Somme des tva chiffre d’affaire par année Somme des redressements par année Nombre des enregistrements par année Pairplot de l’échantillon 2011
  17. 17. PRÉPARATION DES DONNÉES 15 Critères de détection de la fraude decsoc decirp Jointure gauche Critères Physique + Données Physique Jointure gauche Critères morales + Données morales .pkl Personnes physiques 172 005 enregistrements 355 variables .pkl Personnes morales 2 394 enregistrements 358 variables
  18. 18. PRÉPARATION DES DONNÉES 16  Nettoyage des données :  Normalisation des données : i i x x     Écart-type Moyenne de X  Examiner manuellement les données.  Eliminer les valeurs manquantes : • Champs équivalents • Valeurs significatives • 0
  19. 19. PRÉPARATION DES DONNÉES 17  Augmentation du nombre des enregistrements Unicité: Identifiant & Année N: Non redevable R: En règle D: En défaut 0 1 2
  20. 20. PRÉPARATION DES DONNÉES 18  Binarisation
  21. 21. MODÉLISATION 19  Régression linéaires : 0 1 1( ) ... n nh X x x       Coefficients estimateurs X1 ... Xn Y i  Modèle élémentaire de la modélisation linéaire  Estimation de la relation entre Y et  La recherche d’un modèle de prévision de Y en fonction de X. 1( ,..., )nX X
  22. 22. MODÉLISATION 20  Régression ridge :  Eviter le sur-apprentissage.  Simplifier la fonction hypothèse.  Ajouter un terme de régularisation ( ) 2 2 1 1 1 1 ( ,..., ) ( ( ) ) ( ) 2 m m i i n j i j J h x y m                  terme de régularisation Paramètre de régularisation
  23. 23. MODÉLISATION 21  Réseau de neurones (NN) : nx 1 1 . . . . . . 2x 1x ( )h x couche entrée couche cachée couche de sortie nx 1 1  Perceptron multicouche (MLP) : En propagation j ia ( )j  ( 1)j   1 1 ( )j j i i j j j i i a g z z a      i-1 i i+1 j-1 j j+1 En rétro propagation ( ) ( ) ( 1) ' ( ) ( ) .* ( ) j j i i i j j T j j a y g z          j i ( )j 
  24. 24. MODÉLISATION 22  Machine à vecteurs de support (SVM) : Vecteurs de support Hyperplan optimal Marge maximale Appliquer un noyau  Recherche de la marge de séparation maximale.  augmenter la dimension de l’espace de représentation des données d’entrées.
  25. 25. MODÉLISATION 23  Forêts d'arbres décisionnels : arbre 1 arbre 2 arbre n k 1 k 2 k n vote k
  26. 26. ÉVALUATION 24  La modélisation linéaire :  « LinearRegression »  «Ridge »  Objectif : • Estimation de la valeur du redressement approfondie • Estimation de la valeur du redressement simple Mini Small Medium Large Xlarge [0 , 100K[ [100K , 1M[ [1M , 10M[ [10M , 25M[ [25M , Inf.[ • Découpage des contribuables selon les chiffres d’affaires
  27. 27. ÉVALUATION 25  Régression linéaire : Estimation du redressement simple pour la catégorie Xlarge Estimation du redressement approfondie pour la catégorie MEDIUM
  28. 28. ÉVALUATION 26  Régression ridge : Estimation du redressement simple pour la catégorie Xlarge Estimation du redressement approfondie pour la catégorie Medium
  29. 29. ÉVALUATION 27  La modélisation non linéaire :  Objectif: • Classifier l’intervalle de la fraude • Variable cible = redressement simple + redressement approfondi [0 , 1 000[ [1 000,3 500[ [3 500,10 000[ [10 000,30 000[ [30 000,60 000[ [60 000,Infinie[ • Découper les contribuables selon la catégorie  «Multi Layer Perceptron »  «Support Vector Classifier »  « ExtraTreeClassifier »
  30. 30. ÉVALUATION 28  Réseau de neurones :  Le rapport de classification  Les paramètres
  31. 31. ÉVALUATION 29  Réseau de neurones :  Les paramètres  Le rapport de classification
  32. 32. ÉVALUATION 30  Machine à vecteurs de support :  Les paramètres  Le rapport de classification
  33. 33. ÉVALUATION 31  Machine à vecteurs de support :  Les paramètres  Le rapport de classification
  34. 34. ÉVALUATION 32  Forêts d'arbres décisionnels :  Les paramètres  Le rapport de classification
  35. 35. ÉVALUATION 33  Forêts d'arbres décisionnels :  Le rapport de classification  Les paramètres
  36. 36. CONCLUSION ET PERSPECTIVES 34 Réseau de neurones • 41% • 30% Machine à vecteurs de support • 42% • 31% Forêts d’arbres décisionnels • 46% • 42% Personne physique Personne morale
  37. 37. MERCI POUR VOTRE ATTENTION 35

×