Cours fouille de donn+®es part1

983 views
919 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
983
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
64
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Cours fouille de donn+®es part1

  1. 1. 30/12/2011 Introduction à la fouilles de données Partie 1 1Informatique décisionnelle Chargement périodique des données é é Pas de modifications des données Interrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels Exemples de questions: Quelles sont les ventes du produit X pendant le trimestre A de lannée B dans la région C ? i d l é d l é i Comment se comporte le produit X par rapport au produit Y? Quel type de client peut acheter le produit X? Exemple: OLAP (Codd) 2 1
  2. 2. 30/12/2011Exemples http://www.amazon.fr http://www amazon fr Le panier de la ménagère Connaissez-vous? 3Questions Est ce Est-ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées? Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant? Est-ce que vous savez pourquoi les entreprises liées à la bourse sponsorisent les tournois de golfs télévisés? 4 2
  3. 3. 30/12/2011Plan et objectifs Comprendre ce qu’est la FDD? KDD Modèles Applications de la FDD pp ca o s a Recherche en FDD 5Plan et objectifs Définition du Data Mining Pourquoi le Data Mining ? Description du processus KDD (Knowledge Data Discovery) Applications Tâches et Techniques du Data Mining 6 3
  4. 4. 30/12/2011Données et information Les entreprises produisent des quantités énormes de données Sources: affaires, science, géographie, environnement… Les données sont des ressources de valeur Besoin de techniques pour analyser les données et extraire d i f d é t t i des informations / ti connaissances automatiquement Données = faits Information = modèle / motif (pattern) dans les données 7Fouille de données (FDD) Fouille / découverte de connaissances dans les données ou création d’un modèle des données Processus qui emploie des techniques d’apprentissage automatiques et intelligentes pour analyser et extraire des connaissances, de grandes quantités de données 98% de ce que les humains apprennent proviennent de reconnaissance des formes [Kurzwell] 8 4
  5. 5. 30/12/2011Pourquoi la FDD maintenant? Des machines plus puissantes Existence d’algorithmes de fouille de données Collections et sauvegardes des données améliorées Domaine à la confluence de différents domaines: base de données, statistiques, , q , intelligence artificielle, visualisation, parallélisme… Domaine pluridisciplinaire 9KDD* Découverte de connaissances dans les données (KDD) Application de méthodes scientifiques à la fouille de données Le processus de KDD est composé de: Sélection des données Pré-traitement des données Transformation des données La fouille de données Interprétation et évaluation des modèles 10 5
  6. 6. 30/12/2011Systèmes pour la FDD* Composition: Bases de données, entrepôts de données… Serveurs de bases de données ou d’entrepôts de données Bases de connaissances Engins de fouille de données Modules d’évaluation du modèle Interfaces graphiques pour l’utilisateur 11Apprendre Apprendre quelque chose de nouveau Faits (vrais ou faux) Concepts Ensembles de symboles, objets et évènements groupés parce qu’ils partagent les mêmes caractéristiques Procédures Cours d’actions réalisées é é é étape par é étape pour atteindre un but Principes Plus haut niveau d’abstraction Règles ou vérités qui sont les bases pour d’autres vérités 12 6
  7. 7. 30/12/2011Apprentissage supervisé Modèle inductif où l’apprenant considère un l apprenant ensemble d’exemples, et infère l’appartenance d’un objet à une classe en considérant les similarités entre l’objet et les éléments de la classe Les classes sont étiquetées préalablement (sports et loisirs art et culture ) loisirs, culture…) La plupart des algorithmes (classification, estimation, prédiction) utilisent l’apprentissage supervisé 13Apprentissage non supervisé Construction d un modèle et découverte des d’un relations dans les données sans référence à d’autres données On ne dispose daucune autre information préalable que la description des exemples La segmentation, le regroupement (cluster) segmentation (cluster), la méthode des k-moyennes et les associations sont des méthodes d’apprentissage non supervisées 14 7
  8. 8. 30/12/2011Concepts / Modèles Les concepts sont les résultats de la fouille de données Ils montrent les relations dans les données ou groupent des éléments fondés sur leur ressemblance Structures: Arbres de décision Règles Réseaux de neurones Équations mathématiques… Parfois, pas de réelles structures Exemples / Instances Regroupements (clusters) 15Exemples de modèles Vue classique: Si salaire annuel >= 30,000 et années de service >= 5 et propriétaire = vrai alors risque de défaut de paiement = faux Age(X, “jeune”) et Salaire(X,”élevé”) ⇒ Classe(X, A ) Classe(X,”A”) Vue probabilistique: La plupart des personnes qui ont un bon crédit sont propriétaires 16 8
  9. 9. 30/12/2011Exemples de modèles Vue exemplaire: Un exemple est déterminé comme une instance d’un concept Les exemples suivants sont considérés comme ayant un bon crédit: Salaire = 32,000, années = 6, propriétaire é é Salaire = 52,000, années = 16, locataire 17Exemples de modèles Les exemples peuvent être présentés par des tables: Age Salaire Classe Total Jeune Elevé A 1402 Jeune Bas B 1038 Agé Elevé C 786 18 9
  10. 10. 30/12/2011Exemples de modèles Diagrammes: Histogramme Camembert Arbre d dé i i A b de décision Cube de données 19Applications: GrandeDistribution Vente par Définition de correspondance profils des clients Analyse du Prédiction des taux de réponses à des listes de panier de la diffusions ménagère g Optimisation des p réapprovisionnements Analyse des Propositions spécifiques données liées au de services à des paiement individus profilés (adresse, sexe…) Élimination des “mauvais” clients 20 10
  11. 11. 30/12/2011Application: Assurances Assurances Définition des profils des clients Analyse des données Élimination des personnelles (sexe, age, “mauvais” clients profession…) Analyse des données Tarification du sur les éléments à contrat assurer (type de voiture, Évaluation des puissance…) risques Analyse des sinistres Détection des fraudes 21Application: Banques Banques Définition des profils des clients Analyse de la Élimination des situation bancaire “mauvais” clients (solde, produits Autorisation de bancaires …) crédits aux “bons” Analyse de données clients supplémentaires Propositions (sexe, profession, spécifiques de situation familiale…) services 22 11
  12. 12. 30/12/2011Application: Banques Banques Détection des évolutions de profils Analyse de la situation Détection de la lassitudebancaire (solde, produits d’un client (possibilité debancaires possédés…) trouver de nouvelles Analyse des données propositions plussupplémentaires adaptées)(situation familiale, Détection deprofession…) l’amélioration ou de la détérioration de la situation bancaire 23Application: Banques Banques Détection de comportements particuliers Analyse de la situation Détection des bancaire (solde, produits bancaires possédés…) fraudes Analyse des données (utilisation supplémentaires anormale des (situation familiale, profession…) systèmes de paiement) 24 12
  13. 13. 30/12/2011Application: Bourse Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursières 25Application: ProductionIndustrielle Production Prédiction et industrielle détection Analyse du Optimisation de la fonctionnement de la production chaîne de production Adéquation au marché Analyse des produits Anticipation des défauts Analyse des ventes Diagnostics de pannes Di ti d Analyse de questionnaires (prospectifs, satisfaction…) 26 13
  14. 14. 30/12/2011Application: Internet Internet Détermination d’un thème, d’un sujet Analyse Aide à l’organisation automatique de des messages reçus sites toile Moteur de recherche évolué Analyse (design des automatique du systèmes) courrier Décision de électronique marketing Espionnage 27Application: Sport Le système SCOUT d’IBM analyse les matches de baskets de la NBA pour faire gagner les Knicks de New York 28 14
  15. 15. 30/12/2011FDD: Sur quelles données? (1) Base de données relationnelles Base de données transactionnelles Base de données orientées objets Base de données relationnelles objets Base B d de d données t é temporellesll Exemple: Bourse 29FDD: Sur quelles données? (2) Base de données spatiales Exemples: Images provenant de satellites, cartes géographiques Base de données hétérogènes Base de données “héréditaires” Entrepôts de données* p Base de données textuelles Les données sont décrites par des mots Exemples: La toile, le courrier électronique, les pages html/xml 30 15
  16. 16. 30/12/2011FDD: Sur quelles données? (3) Base de données multimédia Des techniques de recherche et de stockage avancées sont nécessaires La toile / Internet Besoins de techniques particulières à chaque type de données pour la fouille de données 31On ne peut pas tout faire…et tout n’est pas de la FDDLa FDD offre des outils et des méthodologiesqui peuvent aider à comprendre les donnéeset faire des prédictionsMais: Il n’y a pas de solution générale et complètement automatique Les t h i L techniques doivent être adaptées au problème d i t êt d té blè considéré La FDD doit être comprise La FDD ne remplace pas les experts, mais les assiste 32 16
  17. 17. 30/12/2011 FDD: Vrai ou faux? Liste des produits vendus pendant le premier semestre 2011 par le supermarché «Carrefour» Total des ventes de produits de «Carrefour» en 2011 Les personnes qui achètent un ordinateur ac ète t parfois une p a te en ê e achètent pa o s u e imprimante e même temps Les personnes de moins de 25 ans répondent aux offres «A» avec une probabilité de 90% 33 Les fonctions de la FDD: Classification et PrédictionClassification et prédiction p Diviser / grouper les instances dans des classes spécifiques pour des prédictions futures Prédire des valeurs (classes) inconnues ou manquantesExemples: Les clients loyaux / les clients non-loyaux Les transactions frauduleuses / les transactions générales Prédire les taux de réponses à une offre é éAlgorithmes: Arbres de décision, règles de classification, classification Bayésienne, algorithmes génétiques, algorithme des k plus proches voisins, l’approche Rough Sets, régression linéaire et non linéaire 34 17
  18. 18. 30/12/2011Les fonctions de la FDD:Regroupement (Cluster)Regroupement d’éléments de proche en ééproche fondé sur leur ressemblanceLes classes sont inconnues, et sont donccrééesExemple: Segmentation du marchéAlgorithmes: K-moyennes Réseaux neuronaux 35Les fonctions de la FDD:AssociationsMise en relation des données éExemples: Le panier de la ménagère: Les personnes qui achètent des chips achètent aussi du coca-cola Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒ Achete(X,”PC”) A h (X ”PC”) [ support = 2%, confidence = 2% fid 60%]L’algorithme A Priori pour obtenir des règlesd’association 36 18
  19. 19. 30/12/2011Les fonctions de la FDD:Caractérisation et Discrimination Caractérisation: Généralise l données d’une C té i ti Gé é li les d é d’ classe Exemple: Général profil des régions pluvieuses Discrimination: Compare les données d’une classe avec une ou plusieurs classes (de comparaison) Gestion des anomalies Exemple: Les ventes de logiciels qui ont augmenté de 10% par rapport à celles qui ont augmente de 30% 37Logiciels Logiciels très sophistiqués Weka DBMiner XLMiner SQL Server S … 38 19
  20. 20. 30/12/2011Recherche en FDD (1) Méthodologies de FDD et interaction avec l’utilisateur: Découvrir différentes sortes de connaissances dans les données La FDD interactive Incorporation d’un ensemble de connaissances particulières Langage de FDD (tel que SQL, DMQL) Présentation et visualisation des résultats Traitement du bruit et des données incomplètes Évaluation du modèle 39Recherche en FDD (2) Performance Efficacité et adaptabilité des algorithmes de FDD Algorithmes incrémentaux et parallèles Diversité des types de données yp Données relationnelles et données complexes Bases de données hétérogènes… 40 20
  21. 21. 30/12/2011Références J. Han, J Han and M Kamber Data Mining M. Kamber. Concepts and Techniques. Morgan Kaufmann Publishers, 2006. Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2006. 2006 41 21

×