SlideShare a Scribd company logo
1 of 27
Download to read offline
Data Mining
Exposés logiciels, systèmes et réseaux.

Damien Jubeau IR3

Lundi 19 novembre 2012
Damien Jubeau 19/11/2012
2
Plan
Data mining : définition, utilisations et concepts
Wolfram|Alpha : extraction de données d'un compte Facebook
Le problème du « badge » avec Weka

Damien Jubeau 19/11/2012
3
I – Data mining : définition, utilisations et
concepts

Damien Jubeau 19/11/2012
4
I – Data mining : définition, utilisations et concepts
Définition
se traduit par
Exploration de données
ou encore
Extraction de connaissances à partir de données
« Processus non-trivial d'identification de structures inconnues, 
valides et potentiellement exploitables dans les bases de données »
(Fayyad, 1996)

Damien Jubeau 19/11/2012
5
I – Data mining : définition, utilisations et concepts
Définition
Analyse de données et statistiques exploratoires existent depuis plus de
30 ans.
On peut voir le Data mining comme un prolongement :
- ajout de techniques d'IA
- données non structurées
- caractère business marqué
Big Data : 4ème révolution industrielle ?

Damien Jubeau 19/11/2012
6
I – Data mining : définition, utilisations et concepts
Domaines d'application
Scroring (réduction du coût d'acquisition ou de conservation d'un client –
assurances, banques, opérateurs téléphoniques...)
Prévention du crime
Reconnaissance vocale
Recherche médicale
Détection de fraudes
Poker !
...etc

Damien Jubeau 19/11/2012
7
I – Data mining : définition, utilisations et concepts
Domaines d'application
Les recherches Google :
- Google spell checker
- Autocomplétion
- Recherche locale
« Storing and analyzing logs of user searches is how Google's algorithm
learns to give you more useful results. Just as data availability has driven
progress of search in the past, the data in our search logs will certainly be
a critical component of future breakthroughs. »
Log
IP – Cookie – Recherche – Date & heure
http://www.google.org/flutrends
Damien Jubeau 19/11/2012
8
I – Data mining : définition, utilisations et concepts
Démarche
Mode projet
+ importance de l'objectif
+ Préparation des données en vue du traitement
structurées (base de données, fichiers tabulaires...) ou non
structurées (textes, images...)
+ Élaboration, choix des modèles à appliquer (monde des
statistiques ou de l'apprentissage automatique)
+ Évaluation et validation des connaissances extraites

Damien Jubeau 19/11/2012
9
I – Data mining : définition, utilisations et concepts
Des outils issus des statistiques et de l'IA
2 familles d'algorithmes :
Les méthodes descriptives permettent d'organiser, de simplifier et
d'aider à comprendre l'information à partir des sources de données.
Recherche d'associations / Recherche de séquences similaires ...etc
Les méthodes prédictives visent à expliquer ou prévoir plusieurs
phénomènes observables et effectivement mesurés. On cherche à prédire la
valeur d'une variable cible à partir des valeurs de prédicteurs.
Régression linéaire multiple / Réseaux de neurones / Arbres de régression...

Damien Jubeau 19/11/2012
10
I – Data mining : définition, utilisations et concepts
Problèmes et limites
Hétérogénéité des données
→ importance de la préparation des données
Volume des données
→ calcul distribué (Hadoop)
Risque d'apporter une réponse hors scope
→ problème éthique
Danger pour la vie privée
→ explosion des données personnelles sur Internet

Damien Jubeau 19/11/2012
11
II – Extraction de données d'un compte Facebook

Damien Jubeau 19/11/2012
12
II – Extraction de données d'un compte Facebook
Présentation de Wolfram|Alpha
Outil de calcul en langage universel – lancé 2009
Analyse des données (10 milliards d'informations) issues de disciplines très
variées (mathématiques, physique, chimie, nouvelles technologies, données
socio-écononomiques...)
Utilisé par Bing, DuckDuckGo et Siri.

Damien Jubeau 19/11/2012
13
II – Extraction de données d'un compte Facebook
Présentation de Wolfram|Alpha
Outil de calcul en langage universel – lancé 2009
Analyse des données (10 milliards d'informations) issues de disciplines très
variées (mathématiques, physique, chimie, nouvelles technologies, données
socio-écononomiques...)
Utilisé par Bing, DuckDuckGo et Siri.

Damien Jubeau 19/11/2012
14
II – Extraction de données d'un compte Facebook
Publications de l'utilisateur

Damien Jubeau 19/11/2012
15
II – Extraction de données d'un compte Facebook
Taille des statuts

Damien Jubeau 19/11/2012
16
II – Extraction de données d'un compte Facebook
Réseau de connaissances

Damien Jubeau 19/11/2012
17
II – Extraction de données d'un compte Facebook
Analyse d'un compte Facebook
Et bien d'autres : opinions politiques, mots les plus utilisés...
Facebook possède des données similaires
pour plus d'un milliard d'utilisateurs...
...et si le modèle de l'outil intégrait des recoupements ?

Problématique Data mining / vie privée évidente
Utilisation commerciale ? Surveillance abusive des gouvernements ?

Damien Jubeau 19/11/2012
18
III – Le problème du « badge »

Damien Jubeau 19/11/2012
19
III – Le problème du « badge »
Contexte
En 1994, chaque participant à une conférence sur l'apprentissage
automatique (Machine Learning) s'est vu remettre un badge « + » ou « - ».
Le but était pour un participant de découvrir la fonction d'attribution des
badges, sachant qu'elle était basée uniquement sur les noms des participants.
Pour cela la liste des participants et des badges attribués étaient fournie.

Utilisation de Weka, logiciel libre de Data Mining

Damien Jubeau 19/11/2012
20
III – Le problème du « badge »
Préparation des données
Attribute name, and type
name {...}
length numeric
even_odd {0,1}
first_char_vowel {0,1}
second_char_vowel {0,1}
vowels numeric
consonants numeric
vowel_consonant_ratio numeric
spaces numeric
dots numeric
initials
words numeric
class {+,-}

Explanation
all the names (given in the original)
length of name
length of name even or odd?
is first character a vowel?
is second character a vowel?
number of vowels in the name
number of consonants
the ratio of vowels / consonant
number of spaces
number of "." in the name, i.e. name
number of words, i.e number of names
the badge labels (given in the original)

Ex : Ameur Foued, 11 , 0 , 1 , 0 , 6 , 4 , 1.50 , 1 , 0 , 2 , Damien Jubeau 19/11/2012
21
III – Le problème du « badge »
Utilisation du logiciel Weka

Classification
Simple : + ou -

Damien Jubeau 19/11/2012
22
III – Le problème du « badge »
Utilisation du logiciel Weka

Cas simple : on
cherche une
association forte : elle
est systématique

Damien Jubeau 19/11/2012
23
III – Le problème du « badge »
Visualisation des résultats

Damien Jubeau 19/11/2012
24
III – Le problème du « badge »
D'autres cas d'application

http://ftp.ics.uci.edu/pub/machine-learning-databases/

Damien Jubeau 19/11/2012
25
Conclusion
De nombreux logiciels mais nécessitent une expertise
Des techniques qui vont se développer et se démocratiser
De grandes avancées potentielles (médicales...)
Des dangers sans cadre légal

Damien Jubeau 19/11/2012
26
Data Mining
Exposés logiciels, systèmes et réseaux.

Damien Jubeau IR3

Lundi 19 novembre 2012

More Related Content

What's hot

La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataNicolas Peene
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data businessVincent de Stoecklin
 
SmartData for Lead - Enjeux et traitement de la qualité de données
SmartData for Lead - Enjeux et traitement de la qualité de donnéesSmartData for Lead - Enjeux et traitement de la qualité de données
SmartData for Lead - Enjeux et traitement de la qualité de donnéesSmartData for Lead
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
 

What's hot (20)

La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
 
SmartData for Lead - Enjeux et traitement de la qualité de données
SmartData for Lead - Enjeux et traitement de la qualité de donnéesSmartData for Lead - Enjeux et traitement de la qualité de données
SmartData for Lead - Enjeux et traitement de la qualité de données
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Big data : défis & technologies
Big data : défis & technologiesBig data : défis & technologies
Big data : défis & technologies
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Big data
Big dataBig data
Big data
 
Bi
BiBi
Bi
 
Final
FinalFinal
Final
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 

Viewers also liked

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Data mining slides
Data mining slidesData mining slides
Data mining slidessmj
 
Syllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningSyllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningChristophe Tricot
 
Data mining (lecture 1 & 2) conecpts and techniques
Data mining (lecture 1 & 2) conecpts and techniquesData mining (lecture 1 & 2) conecpts and techniques
Data mining (lecture 1 & 2) conecpts and techniquesSaif Ullah
 
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPetit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPhilippe YONNET
 
Fouille de données pour des grands graphes
Fouille de données pour des grands graphesFouille de données pour des grands graphes
Fouille de données pour des grands graphestuxette
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Bruno Teboul
 
E book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociauxE book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociauxYouSeeMii
 
Google enterprise business intelligence 1
Google enterprise business intelligence 1Google enterprise business intelligence 1
Google enterprise business intelligence 1audreyyzerd
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligencecrazytechnet
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsJean-Michel Franco
 

Viewers also liked (20)

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Data mining
Data miningData mining
Data mining
 
Image Mining
Image MiningImage Mining
Image Mining
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Data mining slides
Data mining slidesData mining slides
Data mining slides
 
Syllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningSyllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data mining
 
Data mining (lecture 1 & 2) conecpts and techniques
Data mining (lecture 1 & 2) conecpts and techniquesData mining (lecture 1 & 2) conecpts and techniques
Data mining (lecture 1 & 2) conecpts and techniques
 
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPetit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
 
Mining vocabulary
Mining vocabularyMining vocabulary
Mining vocabulary
 
Image mining
Image miningImage mining
Image mining
 
Fouille de données pour des grands graphes
Fouille de données pour des grands graphesFouille de données pour des grands graphes
Fouille de données pour des grands graphes
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.
 
E book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociauxE book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
 
Google enterprise business intelligence 1
Google enterprise business intelligence 1Google enterprise business intelligence 1
Google enterprise business intelligence 1
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succès
 

Similar to Datamining damien-jubeau

Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ? Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ? Sylvie Dalbin
 
4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdfAzedineSariye
 
Recherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDRecherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDFafinouche
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes theseAssociationAF
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Amélie Marian
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)Mathieu d'Aquin
 
La technologie des mégadonnées (big data)
La technologie des mégadonnées (big data)La technologie des mégadonnées (big data)
La technologie des mégadonnées (big data)Nicolae Sfetcu
 
Analyse et conception des systèmes d’information (d’outils et modèles pour le...
Analyse et conception des systèmes d’information (d’outils et modèles pour le...Analyse et conception des systèmes d’information (d’outils et modèles pour le...
Analyse et conception des systèmes d’information (d’outils et modèles pour le...HB1-Sela
 
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasInfographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasEnjoyDigitAll by BNP Paribas
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Garlann Nizon
 
Gestion des donnees personnelles.
Gestion des donnees personnelles.Gestion des donnees personnelles.
Gestion des donnees personnelles.olivier
 
Comportements de diffusion sur les médias sociaux à travers le prisme de la p...
Comportements de diffusion sur les médias sociaux à travers le prisme de la p...Comportements de diffusion sur les médias sociaux à travers le prisme de la p...
Comportements de diffusion sur les médias sociaux à travers le prisme de la p...omsrp
 

Similar to Datamining damien-jubeau (20)

Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ? Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
 
4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf
 
Big Data
Big DataBig Data
Big Data
 
Recherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDRecherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSED
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes these
 
cours_CSI.pdf
cours_CSI.pdfcours_CSI.pdf
cours_CSI.pdf
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
 
Introduction
IntroductionIntroduction
Introduction
 
La technologie des mégadonnées (big data)
La technologie des mégadonnées (big data)La technologie des mégadonnées (big data)
La technologie des mégadonnées (big data)
 
Genie lo
Genie loGenie lo
Genie lo
 
Analyse et conception des systèmes d’information (d’outils et modèles pour le...
Analyse et conception des systèmes d’information (d’outils et modèles pour le...Analyse et conception des systèmes d’information (d’outils et modèles pour le...
Analyse et conception des systèmes d’information (d’outils et modèles pour le...
 
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasInfographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07
 
Big data & Data mining : Opportunités et Menaces
Big data & Data mining : Opportunités et MenacesBig data & Data mining : Opportunités et Menaces
Big data & Data mining : Opportunités et Menaces
 
Gestion des donnees personnelles.
Gestion des donnees personnelles.Gestion des donnees personnelles.
Gestion des donnees personnelles.
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Comportements de diffusion sur les médias sociaux à travers le prisme de la p...
Comportements de diffusion sur les médias sociaux à travers le prisme de la p...Comportements de diffusion sur les médias sociaux à travers le prisme de la p...
Comportements de diffusion sur les médias sociaux à travers le prisme de la p...
 

Datamining damien-jubeau

  • 1. Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012
  • 3. Plan Data mining : définition, utilisations et concepts Wolfram|Alpha : extraction de données d'un compte Facebook Le problème du « badge » avec Weka Damien Jubeau 19/11/2012 3
  • 4. I – Data mining : définition, utilisations et concepts Damien Jubeau 19/11/2012 4
  • 5. I – Data mining : définition, utilisations et concepts Définition se traduit par Exploration de données ou encore Extraction de connaissances à partir de données « Processus non-trivial d'identification de structures inconnues,  valides et potentiellement exploitables dans les bases de données » (Fayyad, 1996) Damien Jubeau 19/11/2012 5
  • 6. I – Data mining : définition, utilisations et concepts Définition Analyse de données et statistiques exploratoires existent depuis plus de 30 ans. On peut voir le Data mining comme un prolongement : - ajout de techniques d'IA - données non structurées - caractère business marqué Big Data : 4ème révolution industrielle ? Damien Jubeau 19/11/2012 6
  • 7. I – Data mining : définition, utilisations et concepts Domaines d'application Scroring (réduction du coût d'acquisition ou de conservation d'un client – assurances, banques, opérateurs téléphoniques...) Prévention du crime Reconnaissance vocale Recherche médicale Détection de fraudes Poker ! ...etc Damien Jubeau 19/11/2012 7
  • 8. I – Data mining : définition, utilisations et concepts Domaines d'application Les recherches Google : - Google spell checker - Autocomplétion - Recherche locale « Storing and analyzing logs of user searches is how Google's algorithm learns to give you more useful results. Just as data availability has driven progress of search in the past, the data in our search logs will certainly be a critical component of future breakthroughs. » Log IP – Cookie – Recherche – Date & heure http://www.google.org/flutrends Damien Jubeau 19/11/2012 8
  • 9. I – Data mining : définition, utilisations et concepts Démarche Mode projet + importance de l'objectif + Préparation des données en vue du traitement structurées (base de données, fichiers tabulaires...) ou non structurées (textes, images...) + Élaboration, choix des modèles à appliquer (monde des statistiques ou de l'apprentissage automatique) + Évaluation et validation des connaissances extraites Damien Jubeau 19/11/2012 9
  • 10. I – Data mining : définition, utilisations et concepts Des outils issus des statistiques et de l'IA 2 familles d'algorithmes : Les méthodes descriptives permettent d'organiser, de simplifier et d'aider à comprendre l'information à partir des sources de données. Recherche d'associations / Recherche de séquences similaires ...etc Les méthodes prédictives visent à expliquer ou prévoir plusieurs phénomènes observables et effectivement mesurés. On cherche à prédire la valeur d'une variable cible à partir des valeurs de prédicteurs. Régression linéaire multiple / Réseaux de neurones / Arbres de régression... Damien Jubeau 19/11/2012 10
  • 11. I – Data mining : définition, utilisations et concepts Problèmes et limites Hétérogénéité des données → importance de la préparation des données Volume des données → calcul distribué (Hadoop) Risque d'apporter une réponse hors scope → problème éthique Danger pour la vie privée → explosion des données personnelles sur Internet Damien Jubeau 19/11/2012 11
  • 12. II – Extraction de données d'un compte Facebook Damien Jubeau 19/11/2012 12
  • 13. II – Extraction de données d'un compte Facebook Présentation de Wolfram|Alpha Outil de calcul en langage universel – lancé 2009 Analyse des données (10 milliards d'informations) issues de disciplines très variées (mathématiques, physique, chimie, nouvelles technologies, données socio-écononomiques...) Utilisé par Bing, DuckDuckGo et Siri. Damien Jubeau 19/11/2012 13
  • 14. II – Extraction de données d'un compte Facebook Présentation de Wolfram|Alpha Outil de calcul en langage universel – lancé 2009 Analyse des données (10 milliards d'informations) issues de disciplines très variées (mathématiques, physique, chimie, nouvelles technologies, données socio-écononomiques...) Utilisé par Bing, DuckDuckGo et Siri. Damien Jubeau 19/11/2012 14
  • 15. II – Extraction de données d'un compte Facebook Publications de l'utilisateur Damien Jubeau 19/11/2012 15
  • 16. II – Extraction de données d'un compte Facebook Taille des statuts Damien Jubeau 19/11/2012 16
  • 17. II – Extraction de données d'un compte Facebook Réseau de connaissances Damien Jubeau 19/11/2012 17
  • 18. II – Extraction de données d'un compte Facebook Analyse d'un compte Facebook Et bien d'autres : opinions politiques, mots les plus utilisés... Facebook possède des données similaires pour plus d'un milliard d'utilisateurs... ...et si le modèle de l'outil intégrait des recoupements ? Problématique Data mining / vie privée évidente Utilisation commerciale ? Surveillance abusive des gouvernements ? Damien Jubeau 19/11/2012 18
  • 19. III – Le problème du « badge » Damien Jubeau 19/11/2012 19
  • 20. III – Le problème du « badge » Contexte En 1994, chaque participant à une conférence sur l'apprentissage automatique (Machine Learning) s'est vu remettre un badge « + » ou « - ». Le but était pour un participant de découvrir la fonction d'attribution des badges, sachant qu'elle était basée uniquement sur les noms des participants. Pour cela la liste des participants et des badges attribués étaient fournie. Utilisation de Weka, logiciel libre de Data Mining Damien Jubeau 19/11/2012 20
  • 21. III – Le problème du « badge » Préparation des données Attribute name, and type name {...} length numeric even_odd {0,1} first_char_vowel {0,1} second_char_vowel {0,1} vowels numeric consonants numeric vowel_consonant_ratio numeric spaces numeric dots numeric initials words numeric class {+,-} Explanation all the names (given in the original) length of name length of name even or odd? is first character a vowel? is second character a vowel? number of vowels in the name number of consonants the ratio of vowels / consonant number of spaces number of "." in the name, i.e. name number of words, i.e number of names the badge labels (given in the original) Ex : Ameur Foued, 11 , 0 , 1 , 0 , 6 , 4 , 1.50 , 1 , 0 , 2 , Damien Jubeau 19/11/2012 21
  • 22. III – Le problème du « badge » Utilisation du logiciel Weka Classification Simple : + ou - Damien Jubeau 19/11/2012 22
  • 23. III – Le problème du « badge » Utilisation du logiciel Weka Cas simple : on cherche une association forte : elle est systématique Damien Jubeau 19/11/2012 23
  • 24. III – Le problème du « badge » Visualisation des résultats Damien Jubeau 19/11/2012 24
  • 25. III – Le problème du « badge » D'autres cas d'application http://ftp.ics.uci.edu/pub/machine-learning-databases/ Damien Jubeau 19/11/2012 25
  • 26. Conclusion De nombreux logiciels mais nécessitent une expertise Des techniques qui vont se développer et se démocratiser De grandes avancées potentielles (médicales...) Des dangers sans cadre légal Damien Jubeau 19/11/2012 26
  • 27. Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012