La data n’a pas besoin d’être « big » pour générer de la valeur
Cours fouille de donn+®es part1
1. 30/12/2011
Introduction à la fouilles
de données
Partie 1
1
Informatique décisionnelle
Chargement périodique des données
é é
Pas de modifications des données
Interrogations non régulières, planifiées, parfois
longues des systèmes d’information décisionnels
Exemples de questions:
Quelles sont les ventes du produit X pendant le
trimestre A de l'année B dans la région C ?
i d l' é d l é i
Comment se comporte le produit X par rapport au
produit Y?
Quel type de client peut acheter le produit X?
Exemple: OLAP (Codd)
2
1
2. 30/12/2011
Exemples
http://www.amazon.fr
http://www amazon fr
Le panier de la ménagère
Connaissez-vous?
3
Questions
Est ce
Est-ce une bonne idée de faire de la publicité
de musique rap dans des magazines pour
personnes âgées?
Est-ce que vous saviez que les compagnies
de cartes de crédit peuvent suspecter un vol
de carte, même si le propriétaire de la carte
n’est pas encore au courant?
Est-ce que vous savez pourquoi les
entreprises liées à la bourse sponsorisent les
tournois de golfs télévisés?
4
2
3. 30/12/2011
Plan et objectifs
Comprendre ce qu’est la FDD?
KDD
Modèles
Applications de la FDD
pp ca o s a
Recherche en FDD
5
Plan et objectifs
Définition du Data Mining
Pourquoi le Data Mining ?
Description du processus KDD
(Knowledge Data Discovery)
Applications
Tâches et Techniques du Data Mining
6
3
4. 30/12/2011
Données et information
Les entreprises produisent des quantités
énormes de données
Sources: affaires, science, géographie,
environnement…
Les données sont des ressources de valeur
Besoin de techniques pour analyser les
données et extraire d i f
d é t t i des informations /
ti
connaissances automatiquement
Données = faits
Information = modèle / motif (pattern) dans les
données
7
Fouille de données (FDD)
Fouille / découverte de connaissances dans
les données ou création d’un modèle des
données
Processus qui emploie des techniques
d’apprentissage automatiques et intelligentes
pour analyser et extraire des connaissances,
de grandes quantités de données
98% de ce que les humains apprennent
proviennent de reconnaissance des formes
[Kurzwell]
8
4
5. 30/12/2011
Pourquoi la FDD maintenant?
Des machines plus puissantes
Existence d’algorithmes de fouille de données
Collections et sauvegardes des données
améliorées
Domaine à la confluence de différents
domaines: base de données, statistiques,
, q ,
intelligence artificielle, visualisation,
parallélisme…
Domaine pluridisciplinaire
9
KDD*
Découverte de connaissances dans les
données (KDD)
Application de méthodes scientifiques à la
fouille de données
Le processus de KDD est composé de:
Sélection des données
Pré-traitement des données
Transformation des données
La fouille de données
Interprétation et évaluation des modèles
10
5
6. 30/12/2011
Systèmes pour la FDD*
Composition:
Bases de données, entrepôts de données…
Serveurs de bases de données ou
d’entrepôts de données
Bases de connaissances
Engins de fouille de données
Modules d’évaluation du modèle
Interfaces graphiques pour l’utilisateur
11
Apprendre
Apprendre quelque chose de nouveau
Faits (vrais ou faux)
Concepts
Ensembles de symboles, objets et évènements
groupés parce qu’ils partagent les mêmes
caractéristiques
Procédures
Cours d’actions réalisées é
é é étape par é étape pour
atteindre un but
Principes
Plus haut niveau d’abstraction
Règles ou vérités qui sont les bases pour d’autres
vérités 12
6
7. 30/12/2011
Apprentissage supervisé
Modèle inductif où l’apprenant considère un
l apprenant
ensemble d’exemples, et infère
l’appartenance d’un objet à une classe en
considérant les similarités entre l’objet et les
éléments de la classe
Les classes sont étiquetées préalablement
(sports et loisirs art et culture )
loisirs, culture…)
La plupart des algorithmes (classification,
estimation, prédiction) utilisent
l’apprentissage supervisé
13
Apprentissage non supervisé
Construction d un modèle et découverte des
d’un
relations dans les données sans référence à
d’autres données
On ne dispose d'aucune autre information
préalable que la description des exemples
La segmentation, le regroupement (cluster)
segmentation (cluster),
la méthode des k-moyennes et les
associations sont des méthodes
d’apprentissage non supervisées
14
7
8. 30/12/2011
Concepts / Modèles
Les concepts sont les résultats de la fouille de
données
Ils montrent les relations dans les données ou
groupent des éléments fondés sur leur ressemblance
Structures:
Arbres de décision
Règles
Réseaux de neurones
Équations mathématiques…
Parfois, pas de réelles structures
Exemples / Instances
Regroupements (clusters) 15
Exemples de modèles
Vue classique:
Si salaire annuel >= 30,000 et années de
service >= 5 et propriétaire = vrai
alors risque de défaut de paiement = faux
Age(X, “jeune”) et Salaire(X,”élevé”) ⇒
Classe(X, A )
Classe(X,”A”)
Vue probabilistique:
La plupart des personnes qui ont un bon
crédit sont propriétaires
16
8
9. 30/12/2011
Exemples de modèles
Vue exemplaire:
Un exemple est déterminé comme une
instance d’un concept
Les exemples suivants sont considérés
comme ayant un bon crédit:
Salaire = 32,000, années = 6, propriétaire
é é
Salaire = 52,000, années = 16, locataire
17
Exemples de modèles
Les exemples peuvent être présentés par
des tables:
Age Salaire Classe Total
Jeune Elevé A 1402
Jeune Bas B 1038
Agé Elevé C 786
18
9
10. 30/12/2011
Exemples de modèles
Diagrammes:
Histogramme
Camembert
Arbre d dé i i
A b de décision
Cube de données
19
Applications: Grande
Distribution
Vente par Définition de
correspondance profils des
clients
Analyse du Prédiction des taux de
réponses à des listes de
panier de la diffusions
ménagère
g Optimisation des
p
réapprovisionnements
Analyse des
Propositions spécifiques
données liées au de services à des
paiement individus profilés
(adresse, sexe…) Élimination des
“mauvais” clients
20
10
11. 30/12/2011
Application: Assurances
Assurances Définition des
profils des
clients
Analyse des données Élimination des
personnelles (sexe, age, “mauvais” clients
profession…)
Analyse des données Tarification du
sur les éléments à contrat
assurer (type de voiture, Évaluation des
puissance…)
risques
Analyse des sinistres
Détection des
fraudes
21
Application: Banques
Banques Définition des
profils des
clients
Analyse de la Élimination des
situation bancaire “mauvais” clients
(solde, produits Autorisation de
bancaires …) crédits aux “bons”
Analyse de données clients
supplémentaires Propositions
(sexe, profession, spécifiques de
situation familiale…) services
22
11
12. 30/12/2011
Application: Banques
Banques Détection des
évolutions de
profils
Analyse de la situation Détection de la lassitude
bancaire (solde, produits d’un client (possibilité de
bancaires possédés…) trouver de nouvelles
Analyse des données propositions plus
supplémentaires adaptées)
(situation familiale, Détection de
profession…) l’amélioration ou de la
détérioration de la
situation bancaire
23
Application: Banques
Banques Détection de
comportements
particuliers
Analyse de la situation Détection des
bancaire (solde, produits
bancaires possédés…) fraudes
Analyse des données (utilisation
supplémentaires anormale des
(situation familiale,
profession…) systèmes de
paiement)
24
12
13. 30/12/2011
Application: Bourse
Analyse du cours de la bourse pour
pouvoir passer des ordres automatiques
de transactions boursières
25
Application: Production
Industrielle
Production Prédiction et
industrielle détection
Analyse du Optimisation de la
fonctionnement de la production
chaîne de production Adéquation au marché
Analyse des produits Anticipation des défauts
Analyse des ventes Diagnostics de pannes
Di ti d
Analyse de
questionnaires
(prospectifs,
satisfaction…)
26
13
14. 30/12/2011
Application: Internet
Internet Détermination
d’un thème,
d’un sujet
Analyse Aide à l’organisation
automatique de des messages reçus
sites toile Moteur de
recherche évolué
Analyse (design des
automatique du systèmes)
courrier Décision de
électronique marketing
Espionnage 27
Application: Sport
Le système SCOUT d’IBM analyse les
matches de baskets de la NBA pour
faire gagner les Knicks de New York
28
14
15. 30/12/2011
FDD: Sur quelles données? (1)
Base de données relationnelles
Base de données transactionnelles
Base de données orientées objets
Base de données relationnelles objets
Base
B d
de d
données t
é temporellesll
Exemple: Bourse
29
FDD: Sur quelles données? (2)
Base de données spatiales
Exemples: Images provenant de satellites, cartes
géographiques
Base de données hétérogènes
Base de données “héréditaires”
Entrepôts de données*
p
Base de données textuelles
Les données sont décrites par des mots
Exemples: La toile, le courrier électronique, les
pages html/xml
30
15
16. 30/12/2011
FDD: Sur quelles données? (3)
Base de données multimédia
Des techniques de recherche et de
stockage avancées sont nécessaires
La toile / Internet
Besoins de techniques particulières à
chaque type de données pour la fouille
de données
31
On ne peut pas tout faire…
et tout n’est pas de la FDD
La FDD offre des outils et des méthodologies
qui peuvent aider à comprendre les données
et faire des prédictions
Mais:
Il n’y a pas de solution générale et complètement
automatique
Les t h i
L techniques doivent être adaptées au problème
d i t êt d té blè
considéré
La FDD doit être comprise
La FDD ne remplace pas les experts, mais les
assiste
32
16
17. 30/12/2011
FDD: Vrai ou faux?
Liste des produits vendus pendant le premier
semestre 2011 par le supermarché «Carrefour»
Total des ventes de produits de «Carrefour» en
2011
Les personnes qui achètent un ordinateur
ac ète t parfois une p a te en ê e
achètent pa o s u e imprimante e même
temps
Les personnes de moins de 25 ans répondent
aux offres «A» avec une probabilité de 90%
33
Les fonctions de la FDD:
Classification et Prédiction
Classification et prédiction
p
Diviser / grouper les instances dans des classes
spécifiques pour des prédictions futures
Prédire des valeurs (classes) inconnues ou manquantes
Exemples:
Les clients loyaux / les clients non-loyaux
Les transactions frauduleuses / les transactions générales
Prédire les taux de réponses à une offre
é é
Algorithmes:
Arbres de décision, règles de classification, classification
Bayésienne, algorithmes génétiques, algorithme des k
plus proches voisins, l’approche Rough Sets, régression
linéaire et non linéaire
34
17
18. 30/12/2011
Les fonctions de la FDD:
Regroupement (Cluster)
Regroupement d’éléments de proche en
éé
proche fondé sur leur ressemblance
Les classes sont inconnues, et sont donc
créées
Exemple:
Segmentation du marché
Algorithmes:
K-moyennes
Réseaux neuronaux
35
Les fonctions de la FDD:
Associations
Mise en relation des données
é
Exemples:
Le panier de la ménagère:
Les personnes qui achètent des chips achètent aussi du
coca-cola
Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒
Achete(X,”PC”)
A h (X ”PC”) [ support = 2%, confidence =
2% fid
60%]
L’algorithme A Priori pour obtenir des règles
d’association
36
18
19. 30/12/2011
Les fonctions de la FDD:
Caractérisation et Discrimination
Caractérisation: Généralise l données d’une
C té i ti Gé é li les d é d’
classe
Exemple:
Général profil des régions pluvieuses
Discrimination: Compare les données d’une
classe avec une ou plusieurs classes (de
comparaison)
Gestion des anomalies
Exemple:
Les ventes de logiciels qui ont augmenté de 10%
par rapport à celles qui ont augmente de 30% 37
Logiciels
Logiciels très sophistiqués
Weka
DBMiner
XLMiner
SQL Server
S
…
38
19
20. 30/12/2011
Recherche en FDD (1)
Méthodologies de FDD et interaction avec
l’utilisateur:
Découvrir différentes sortes de connaissances
dans les données
La FDD interactive
Incorporation d’un ensemble de connaissances
particulières
Langage de FDD (tel que SQL, DMQL)
Présentation et visualisation des résultats
Traitement du bruit et des données incomplètes
Évaluation du modèle
39
Recherche en FDD (2)
Performance
Efficacité et adaptabilité des algorithmes
de FDD
Algorithmes incrémentaux et parallèles
Diversité des types de données
yp
Données relationnelles et données
complexes
Bases de données hétérogènes…
40
20
21. 30/12/2011
Références
J. Han,
J Han and M Kamber Data Mining
M. Kamber.
Concepts and Techniques. Morgan
Kaufmann Publishers, 2006.
Ian H. Witten and Eibe Frank. Data Mining:
Practical Machine Learning Tools and
Techniques, Morgan Kaufmann Publishers,
2006.
2006
41
21