Cours fouille de donn+®es part1

30/12/2011

Introduction à la fouilles
de données

Partie 1

1

Informatique décisionnelle
Chargement périodique des données
é é
Pas de modifications des données
Interrogations non régulières, planifiées, parfois
longues des systèmes d’information décisionnels
Exemples de questions:
Quelles sont les ventes du produit X pendant le
trimestre A de l'année B dans la région C ?
i d l' é d l é i
Comment se comporte le produit X par rapport au
produit Y?
Quel type de client peut acheter le produit X?
Exemple: OLAP (Codd)
2

1

30/12/2011

Exemples
http://www.amazon.fr
http://www amazon fr
Le panier de la ménagère
Connaissez-vous?

3

Questions
Est ce
Est-ce une bonne idée de faire de la publicité
de musique rap dans des magazines pour
personnes âgées?
Est-ce que vous saviez que les compagnies
de cartes de crédit peuvent suspecter un vol
de carte, même si le propriétaire de la carte
n’est pas encore au courant?
Est-ce que vous savez pourquoi les
entreprises liées à la bourse sponsorisent les
tournois de golfs télévisés?
4

2

30/12/2011

Plan et objectifs

Comprendre ce qu’est la FDD?
KDD
Modèles
Applications de la FDD
pp ca o s a
Recherche en FDD

5

Plan et objectifs

Définition du Data Mining
Pourquoi le Data Mining ?
Description du processus KDD
(Knowledge Data Discovery)
Applications
Tâches et Techniques du Data Mining

6

3

30/12/2011

Données et information
Les entreprises produisent des quantités
énormes de données
Sources: affaires, science, géographie,
environnement…
Les données sont des ressources de valeur
Besoin de techniques pour analyser les
données et extraire d i f
d é t t i des informations /
ti
connaissances automatiquement
Données = faits
Information = modèle / motif (pattern) dans les
données
7

Fouille de données (FDD)
Fouille / découverte de connaissances dans
les données ou création d’un modèle des
données
Processus qui emploie des techniques
d’apprentissage automatiques et intelligentes
pour analyser et extraire des connaissances,
de grandes quantités de données
98% de ce que les humains apprennent
proviennent de reconnaissance des formes
[Kurzwell]
8

4

30/12/2011

Pourquoi la FDD maintenant?
Des machines plus puissantes
Existence d’algorithmes de fouille de données
Collections et sauvegardes des données
améliorées
Domaine à la confluence de différents
domaines: base de données, statistiques,
, q ,
intelligence artificielle, visualisation,
parallélisme…
Domaine pluridisciplinaire

9

KDD*
Découverte de connaissances dans les
données (KDD)
Application de méthodes scientifiques à la
fouille de données
Le processus de KDD est composé de:
Sélection des données
Pré-traitement des données
Transformation des données
La fouille de données
Interprétation et évaluation des modèles
10

5

30/12/2011

Systèmes pour la FDD*
Composition:
Bases de données, entrepôts de données…
Serveurs de bases de données ou
d’entrepôts de données
Bases de connaissances
Engins de fouille de données
Modules d’évaluation du modèle
Interfaces graphiques pour l’utilisateur

11

Apprendre
Apprendre quelque chose de nouveau
Faits (vrais ou faux)
Concepts
Ensembles de symboles, objets et évènements
groupés parce qu’ils partagent les mêmes
caractéristiques
Procédures
Cours d’actions réalisées é
é é étape par é étape pour
atteindre un but
Principes
Plus haut niveau d’abstraction
Règles ou vérités qui sont les bases pour d’autres
vérités 12

6

30/12/2011

Apprentissage supervisé
Modèle inductif où l’apprenant considère un
l apprenant
ensemble d’exemples, et infère
l’appartenance d’un objet à une classe en
considérant les similarités entre l’objet et les
éléments de la classe
Les classes sont étiquetées préalablement
(sports et loisirs art et culture )
loisirs, culture…)
La plupart des algorithmes (classification,
estimation, prédiction) utilisent
l’apprentissage supervisé
13

Apprentissage non supervisé
Construction d un modèle et découverte des
d’un
relations dans les données sans référence à
d’autres données
On ne dispose d'aucune autre information
préalable que la description des exemples
La segmentation, le regroupement (cluster)
segmentation (cluster),
la méthode des k-moyennes et les
associations sont des méthodes
d’apprentissage non supervisées
14

7

30/12/2011

Concepts / Modèles
Les concepts sont les résultats de la fouille de
données
Ils montrent les relations dans les données ou
groupent des éléments fondés sur leur ressemblance
Structures:
Arbres de décision
Règles
Réseaux de neurones
Équations mathématiques…
Parfois, pas de réelles structures
Exemples / Instances
Regroupements (clusters) 15

Exemples de modèles
Vue classique:
Si salaire annuel >= 30,000 et années de
service >= 5 et propriétaire = vrai
alors risque de défaut de paiement = faux
Age(X, “jeune”) et Salaire(X,”élevé”) ⇒
Classe(X, A )
Classe(X,”A”)
Vue probabilistique:
La plupart des personnes qui ont un bon
crédit sont propriétaires
16

8

30/12/2011

Vue exemplaire:
Un exemple est déterminé comme une
instance d’un concept
Les exemples suivants sont considérés
comme ayant un bon crédit:
Salaire = 32,000, années = 6, propriétaire
é é
Salaire = 52,000, années = 16, locataire

17

Les exemples peuvent être présentés par
des tables:

Age Salaire Classe Total
Jeune Elevé A 1402

Jeune Bas B 1038

Agé Elevé C 786

18

9

30/12/2011


Diagrammes:
Histogramme
Camembert
Arbre d dé i i
A b de décision
Cube de données

19

Applications: Grande
Distribution
Vente par Définition de
correspondance profils des
clients
Analyse du Prédiction des taux de
réponses à des listes de
panier de la diffusions
ménagère
g Optimisation des
p
réapprovisionnements
Analyse des
Propositions spécifiques
données liées au de services à des
paiement individus profilés
(adresse, sexe…) Élimination des
“mauvais” clients
20

10

30/12/2011

Application: Assurances
Assurances Définition des
profils des
clients
Analyse des données Élimination des
personnelles (sexe, age, “mauvais” clients
profession…)
Analyse des données Tarification du
sur les éléments à contrat
assurer (type de voiture, Évaluation des
puissance…)
risques
Analyse des sinistres
Détection des
fraudes
21

Application: Banques
Banques Définition des
profils des
clients
Analyse de la Élimination des
situation bancaire “mauvais” clients
(solde, produits Autorisation de
bancaires …) crédits aux “bons”
Analyse de données clients
supplémentaires Propositions
(sexe, profession, spécifiques de
situation familiale…) services
22

11

30/12/2011

Banques Détection des
évolutions de
profils
Analyse de la situation Détection de la lassitude
bancaire (solde, produits d’un client (possibilité de
bancaires possédés…) trouver de nouvelles
Analyse des données propositions plus
supplémentaires adaptées)
(situation familiale, Détection de
profession…) l’amélioration ou de la
détérioration de la
situation bancaire
23

Banques Détection de
comportements
particuliers
Analyse de la situation Détection des
bancaire (solde, produits
bancaires possédés…) fraudes
Analyse des données (utilisation
supplémentaires anormale des
(situation familiale,
profession…) systèmes de
paiement)

24

12

30/12/2011

Application: Bourse

Analyse du cours de la bourse pour
pouvoir passer des ordres automatiques
de transactions boursières

25

Application: Production
Industrielle
Production Prédiction et
industrielle détection
Analyse du Optimisation de la
fonctionnement de la production
chaîne de production Adéquation au marché
Analyse des produits Anticipation des défauts
Analyse des ventes Diagnostics de pannes
Di ti d
Analyse de
questionnaires
(prospectifs,
satisfaction…)

26

13

30/12/2011

Application: Internet
Internet Détermination
d’un thème,
d’un sujet
Analyse Aide à l’organisation
automatique de des messages reçus
sites toile Moteur de
recherche évolué
Analyse (design des
automatique du systèmes)
courrier Décision de
électronique marketing
Espionnage 27

Application: Sport

Le système SCOUT d’IBM analyse les
matches de baskets de la NBA pour
faire gagner les Knicks de New York

28

14

30/12/2011

FDD: Sur quelles données? (1)
Base de données relationnelles
Base de données transactionnelles
Base de données orientées objets
Base de données relationnelles objets
Base
B d
de d
données t
é temporellesll
Exemple: Bourse

29

Base de données spatiales
Exemples: Images provenant de satellites, cartes
géographiques
Base de données hétérogènes
Base de données “héréditaires”
Entrepôts de données*
p
Base de données textuelles
Les données sont décrites par des mots
Exemples: La toile, le courrier électronique, les
pages html/xml
30

15

30/12/2011

Base de données multimédia
Des techniques de recherche et de
stockage avancées sont nécessaires
La toile / Internet
Besoins de techniques particulières à
chaque type de données pour la fouille
de données

31

On ne peut pas tout faire…
et tout n’est pas de la FDD
La FDD offre des outils et des méthodologies
qui peuvent aider à comprendre les données
et faire des prédictions
Mais:
Il n’y a pas de solution générale et complètement
automatique
Les t h i
L techniques doivent être adaptées au problème
d i t êt d té blè
considéré
La FDD doit être comprise
La FDD ne remplace pas les experts, mais les
assiste
32

16

30/12/2011

FDD: Vrai ou faux?
Liste des produits vendus pendant le premier
semestre 2011 par le supermarché «Carrefour»
Total des ventes de produits de «Carrefour» en
2011
Les personnes qui achètent un ordinateur
ac ète t parfois une p a te en ê e
achètent pa o s u e imprimante e même
temps
Les personnes de moins de 25 ans répondent
aux offres «A» avec une probabilité de 90%

33

Les fonctions de la FDD:
Classification et Prédiction
Classification et prédiction
p
Diviser / grouper les instances dans des classes
spécifiques pour des prédictions futures
Prédire des valeurs (classes) inconnues ou manquantes
Exemples:
Les clients loyaux / les clients non-loyaux
Les transactions frauduleuses / les transactions générales
Prédire les taux de réponses à une offre
é é
Algorithmes:
Arbres de décision, règles de classification, classification
Bayésienne, algorithmes génétiques, algorithme des k
plus proches voisins, l’approche Rough Sets, régression
linéaire et non linéaire
34

17

30/12/2011

Regroupement (Cluster)
Regroupement d’éléments de proche en
éé
proche fondé sur leur ressemblance
Les classes sont inconnues, et sont donc
créées
Exemple:
Segmentation du marché
Algorithmes:
K-moyennes
Réseaux neuronaux

35

Associations
Mise en relation des données
é
Exemples:
Le panier de la ménagère:
Les personnes qui achètent des chips achètent aussi du
coca-cola
Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒
Achete(X,”PC”)
A h (X ”PC”) [ support = 2%, confidence =
2% fid
60%]
L’algorithme A Priori pour obtenir des règles
d’association

36

18

30/12/2011

Caractérisation et Discrimination
Caractérisation: Généralise l données d’une
C té i ti Gé é li les d é d’
classe
Exemple:
Général profil des régions pluvieuses
Discrimination: Compare les données d’une
classe avec une ou plusieurs classes (de
comparaison)
Gestion des anomalies
Exemple:
Les ventes de logiciels qui ont augmenté de 10%
par rapport à celles qui ont augmente de 30% 37

Logiciels
Logiciels très sophistiqués
Weka
DBMiner
XLMiner
SQL Server
S
…

38

19

30/12/2011

Recherche en FDD (1)
Méthodologies de FDD et interaction avec
l’utilisateur:
Découvrir différentes sortes de connaissances
dans les données
La FDD interactive
Incorporation d’un ensemble de connaissances
particulières
Langage de FDD (tel que SQL, DMQL)
Présentation et visualisation des résultats
Traitement du bruit et des données incomplètes
Évaluation du modèle
39

Recherche en FDD (2)
Performance
Efficacité et adaptabilité des algorithmes
de FDD
Algorithmes incrémentaux et parallèles
Diversité des types de données
yp
Données relationnelles et données
complexes
Bases de données hétérogènes…

40

20

30/12/2011

Références
J. Han,
J Han and M Kamber Data Mining
M. Kamber.
Concepts and Techniques. Morgan
Kaufmann Publishers, 2006.
Ian H. Witten and Eibe Frank. Data Mining:
Practical Machine Learning Tools and
Techniques, Morgan Kaufmann Publishers,
2006.
2006

41

21

Cours fouille de donn+®es part1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Cours fouille de donn+®es part1

Similar to Cours fouille de donn+®es part1 (20)

Cours fouille de donn+®es part1