• Save
Ph.D Defence
Upcoming SlideShare
Loading in...5
×
 

Ph.D Defence

on

  • 1,783 views

Claudia Marinica

Claudia Marinica
26/10/2010

Statistics

Views

Total Views
1,783
Views on SlideShare
1,766
Embed Views
17

Actions

Likes
0
Downloads
0
Comments
0

2 Embeds 17

http://www.linkedin.com 14
https://www.linkedin.com 3

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Ph.D Defence Ph.D Defence Presentation Transcript

  • LOGO Association Rule Interactive Post-processing using Rule Schemas and Ontologies - ARIPSO - Claudia MARINICA Le Mardi 26 Octobre 2010 Ecole polytechnique de l’Université de Nantes LINA UMR CNRS 6241 Equipe COnnaissances et Décision
  • CODLOGO Equipe Plan de la Présentation 1 Introduction 2 Approches existantes 3 L’approche ARIPSO 4 Réalisations et expérimentations 5 Conclusions et Perspectives 2/47
  • CODLOGO Equipe Introduction 1 Introduction Contexte Problématique et contributions de la thèse 2 Approches existantes 3 L’approche ARIPSO 4 Réalisations et expérimentations 5 Conclusions et Perspectives 3/47
  • Introduction CODLOGO  Contexte Equipe Contexte et Axe de la thèse Cette thèse s’articule autour de deux domaines :  L’Extraction des Connaissances à partir de Données (ECD)  L’Ingénierie des Connaissances (IC) : Les Ontologies Axe : Intégrer les connaissances de l’expert (IC) dans le processus de fouille de données (ECD) 4/47
  • Introduction CODLOGO  Contexte Equipe Extraction des Connaissances à partir de Données « … l’extraction dinformations originales, auparavant inconnues, potentiellement utiles à partir des données. » Pré-traitement Fouille Post-traitement [Fayyad et al., 1996] 5/47
  • Introduction CODLOGO  Contexte Equipe Extraction des Connaissances à partir de Données « … l’extraction dinformations originales, auparavant inconnues, potentiellement utiles à partir des données. » Pré-traitement Fouille Post-traitement Utilisateur : - connaissances - croyances [Fayyad et al., 1996] - attentes - actions 5/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Fouille de données: Les règles d’association [10% 80%] Définition [Agrawal and Srikant, 1994; Ganascia, 1987] : X → Y [s%, c%] I – ensemble d’items X, Y – itemsets X, Y ⊆ I and X ∩ Y = ∅ s% – support c% – confiance Exemples/contre-exemples : XY / X ¬Y 6/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Fouille de données: Problématique des règles d’association Avantages : Technique non supervisée, résultats lisibles, ensemble complet Limites : Grand volume et qualité faible des règles extraites :  invalides statistiquement leek → bread  redondantes : R1: leek, St Jacques → Bergerac [c] leek → Bergerac [c1] St Jacques → Bergerac [c2] c1>c ou c2>c => R1 est redondante  connues par l’expert apple → pear  inutiles pour l’expert apple → skirt  Difficulté d’analyse manuelle Besoins :  Eliminer les règles inintéressantes  Cibler les règles de qualité 7/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993]Définition formelle «Lintroduction dune ontologie dans un système dinformationO = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle et terminologique et à tendre vers une compréhension partagée pour améliorer la communication, le partage, linteropérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993]Définition formelle «Lintroduction dune ontologie dans un système dinformationO = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelleConcepts – éléments du domaine et terminologique et à tendre vers une compréhension partagée pour améliorer la communication, le partage, linteropérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies is-a is-a « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993]Définition formelle «Lintroduction dune ontologie dans un système dinformationO = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelleConcepts – éléments du domaine et terminologique et à tendre vers une compréhensionGraphe de concepts – relation is-a partagée pour améliorer la communication, le partage, linteropérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993]Définition formelle «Lintroduction dune ontologie dans un système dinformationO = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelleConcepts – éléments du domaine et terminologique et à tendre vers une compréhensionGraphe de concepts – relation is-a partagée pour améliorer la communication,Instances – les individus des concepts le partage, linteropérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993]Définition formelle «Lintroduction dune ontologie dans un système dinformationO = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelleConcepts – éléments du domaine et terminologique et à tendre vers une compréhensionGraphe de concepts – relation is-a partagée pour améliorer la communication,Instances – les individus des concepts le partage, linteropérabilité et le degré dePropriétés – relations entre les concepts réutilisation possible. » [Gandon, 2006] 8/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Le Web Sémantique « Le Web sémantique est une extension du Web courant dans lequel linformation est définie sémantiquement, permettant aux machines et aux utilisateurs de mieux travailler ensemble. » [Berners-Lee et al., 2001] Langages de représentation de connaissances :  RDF, OWL, …  OWL-DL basé sur la logique de description est un formalisme précis et décidable Raisonneurs :  Actions - classification de concepts, test de cohérence et test d’instanciation  Fact, Racer, Pellet, …  Langage de requête : SPARQL 9/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Les objectifs de la thèse Améliorer la phase de post-traitement des règles d’association :  Intégrer les connaissances de l’expert – ontologies : langages + raisonneur  Augmenter l’interactivité avec l’expert : description graduelle des connaissances 10/47
  • Introduction CODLOGO  Problématique et contributions de la thèse Equipe Contributions i. Un modèle pour représenter les connaissances de l’expert ii. Une nouvelle approche interactive de post-traitement – ARIPSO iii. 2 implémentations - ARIPSO et ARLIUS iv. Etude expérimentale sur les données de Nantes Habitat 11/47
  • CODLOGO Equipe Plan de la Présentation 1 Introduction 2 Approches existantes Les techniques de post-traitement Les techniques subjectives Les Ontologies dans l’ECD Conclusions 3 L’approche ARIPSO 4 Réalisations et expérimentations 5 Conclusions et Perspectives 12/47
  • Approches existantes CODLOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000] Technique de post-traitement RA Filtrées Techniques sélection DM Database [Silbershatz et Tuzilin, 1995] 13/47
  • Approches existantes CODLOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%] 13/47
  • Approches existantes CODLOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%]  Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996] Fruit apple → pork Fuit → pork pear → pork pear apple 13/47
  • Approches existantes CODLOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%]  Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996] Fruit apple → pork Fuit → pork pear → pork pear apple  Groupement [An et al., 2003] 13/47
  • Approches existantes CODLOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%]  Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996] Fruit apple → pork Fuit → pork pear → pork pear apple  Groupement [An et al., 2003]  Visualisation [Blanchard et al., 2003] 13/47
  • Approches existantes CODLOGO  Les techniques de post-traitement Equipe Les mesures d’intérêt Caractéristiques des règles à sélectionner [Silberschatz et Tuzhilin, 1995] :  Unexpectedness – l’inattendu : règles surprenantes; contredisent les connaissances de l’expert  Actionability – l’actionabilité : règles utiles; permettent à l’expert de prendre de décisions Mesures d’intérêt : indicateurs de la qualité d’une règle d’association [Freitas, 1999]  Mesures Objectives  Mesures Subjectives Les mesures objectives (orientées données) [Piatetsky-Shapiro, 1991; Guillet and Hamilton, 2007]  Indicateurs statistiques de la force d’une règle sur les données  Avantages : Facilité d’application - mesures non-supervisées  Inconvénients : Ne sont pas adaptées aux demandes 14/47
  • Approches existantes CODLOGO  Les techniques subjectives Equipe Description Les mesures subjectives [Silberschatz et Tuzhilin, 1995] :  Mesurent l’importance d’une règle pour un expert  Dépendent des objectifs, croyances, attentes et connaissances de l’expert Avantages :  Sélectionnent les règles pertinentes pour l’expert Inconvénients :  Difficulté d’élaborer un model de connaissances  Unicité du model (expert) 15/47
  • Approches existantes CODLOGO  Les techniques subjectives Equipe Templates (patrons) [Klemettinen et al., 1994] Principe : l’expert définit ses attentes et les règles correspondantes sont sélectionnées Représentation attentes de l’expert : Patrons inclusifs (PI) et Patrons exclusifs (PE) Technique de sélection : syntaxique ⊕ Sélection/élagage ⊖ Choix d’action limité Exemple : (PI) : Fruit, Dairy_Products → Meat (PE) : pear, Dairy_Products → Meat R1: Pear, Milk → Pork R2: Apple, Milk → Chicken R3: Beef, Milk → Grape  R2 sélectionnée 16/47
  • Approches existantes CODLOGO  Les techniques subjectives Equipe Impressions Générales [Liu et al., 1999] Connaissances – 3 niveaux de spécification :  Impressions Générales (GI) + (RPC, PK) gi(< S1, . . . , Sm >) [support, confidence] Objectifs : représenter les impressions vagues de l’expert Technique de sélection : syntaxique ⊕ Description plus puissante ⊖ Expressions syntaxique complexe Exemple : gi(< { cheese, milk }, Meat∗, pear >) R1 : cheese → pear R2 : pork → pear, apple R1 est sélectionnée R3 : milk, pear → pork 17/47
  • Approches existantes CODLOGO  Les techniques subjectives Equipe Etude comparative 25 techniques classées par dégrée d’intégration croissante des connaissances :  Formes implicatives/Patrons/ Langages de requête ⊕ Syntaxe simple ⊖ Choix des actions Représentation Mesures d’intérêt Année Application Métrique Subjective connaissances Silberchatz and Tuzilin,3 1995 association rules probabilistic unexpectedness Beliefs 1995, Beliefs Imielinski et al., 1996, M-6 1996 association rules queries M-SQL, query language SQL Kamber et al., 1997, multi-dimensional7 1997 syntactic unexpectedness Metarules Metarules association rules Baralis and Psaila, 1997, Scenario Templates, Query9 1997 association rules syntactic Scenario Templates Languages Ng et al., 1998,10 1998 association rules syntactic syntactic Constrained Association Queries Constrained Queries Adomavicius and Tuzhilin, rule grouping novelty11 1999 profile rules Templates 1999, Web Profiling syntactic actionability Padmanabhan and Tuzhilin,12 1999 association rules logical statistic unexpectedness Beliefs 1998, Logical Contradiction Nazeri and Bloedorn, 2004,18 2004 association rules syntactic unexpectedness Facts, Beliefs/Preferences Facts, Beliefs 18/49Manque d’interactivité avec l’expert
  • Approches existantes CODLOGO  Les techniques subjectives Equipe Etude comparative 25 techniques classées par dégrée d’intégration croissante des connaissances :  Formes implicatives/Patrons/ Langages de requête  Formes implicatives+Taxonomies ⊕ Représentation hiérarchique ⊖ Faible expressivité Représentation Mesures d’intérêt Année Application Métrique Subjective connaissances Klementinen et al., 1994,2 1994 association rules syntactic unexpectedness Templates Templates Hierarchical Gen. Trees, A-R Anand et al., 1995, EDM classification4 1995 syntactic unexpectedness Rules, Framework rules Environment Constraints Liu et al., 1996, Fuzzy classification5 1996 syntactic unexpectedness Fuzzy rules Matching rules Liu et al., 1999, actionability8 1997 association rules syntactic General Impressions, RPC, PK General Impressions unexpectedness 28/49
  • Approches existantes COD LOGO  Les techniques subjectives Equipe Etude comparative 25 techniques classées par dégrée d’intégration croissante des connaissances :  Formes implicatives/Patrons/ Langages de requête  Formes implicatives+Taxonomies  Taxonomies ou Ontologies ⊕ Représentation hiérarchique ⊖ Sans raisonneur Représentation Mesures d’intérêt Année Application Métrique Subjective connaissances Chen et al., 2003,14 2003 association rules generalization actionability Ontologies Raising An et al., 2003, association rules semantic15 2003 unexpectedness Taxonomy, Semantic Networks Semantic Groups groups distance Shekar and Natarajan, 2004, similarity17 2004 association rules unexpectedness Taxonomy Item-relatedness distance Domingues and Rezende, 2005,19 2005 association rules generalization actionability Taxonomies Taxonomy-based Generalization class22 Kotsifakos et al., 2007 2007 association rules actionability Ontologies membership semantical23 Antunes, 2007 2007 association rules actionability Ontologies, Constraints distance syntactic Ontologies, Pruning Constraints,24 Bellandi et al., 2007 2007 association rules based, unexpectedness Abstraction Constraints constraints semantic distance,25 Garcia et al., 2008 2008 association rules actionability Ontologies, Item Weight relevance assessment 29/49
  • Approches existantes CODLOGO  Les techniques subjectives Equipe Mesures et distances sémantiques Objectifs général [Blanchard et al., 2005; Gandon, 2008] :  Mesurer la proximité de deux éléments dans un graphe Utilisation pour les règles d’association : Lien de parenté entre les items (IRF) [Shekar et Natarajan, 2004]  La distance sémantique entre deux items  Règle impliquant des items proches sémantiquement => inutile Fruit Est-elle la règle distance(pear, apple)=2 +1 +1 R : apple → pear  interet(R)=2 connue/triviale ? pear apple  règle triviale 19/47
  • Approches existantes CODLOGO  Ontologies dans l’ECD Equipe Les Ontologies et l’ECD  Ontologies pour le processus d’ECD [Cespivova et al., 2004; Cannataro and Comito, 2003]  Choisir la tâche/méthode plus pertinente  Ontologies de métadonnées décrivent [Srikant and Agrawal, 1995; Bellandi et al., 2008]  Le processus de construction d’items [Hilario et al., 2009]  Ontologies pour les connaissances du domaine  Description du domaine  Acquisition de connaissances: ENIGME [Ganascia et al., 1993] 20/47
  • Approches existantes CODLOGO  Conclusions Equipe Conclusions Patrons :  Limités à patrons inclusifs et exclusifs => nouvelles actions  Langage limité, non évolutif Impressions générales :  Langage plus développé, mais moins pratique pour les non-scientifiques  Taxonomies - expressivité limitée Manque d’interactivité avec l’expert Combiner les mesures :  objectives + subjectives + sémantiques Ontologies :  Représentation de connaissances  Puissance raisonneur 21/47
  • CODLOGO Equipe Plan de la Présentation 1 Introduction 2 Etat de l’art 3 L’approche ARIPSO Principes généraux Le model de connaissances L’interactivité avec l’expert Les autres filtres 4 Réalisations et expérimentations 5 Conclusions et Perspectives 22/47
  • L’approche ARIPSO CODLOGO  Principes généraux Equipe Description Générale Approche composée de 3 parties : i. La fouille de règles d’association : extraction classique ii. Le modèle de connaissances : enrichissement du model par l’expert iii. La phase de post-traitement ARIPSO : application des méthodes d’élagage/sélection ii. Modèle de Connaissances Fouille de Règles Traitement ECD règles d’association ARIPSO d’association sélectionnées i. iii. 23/47
  • L’approche ARIPSO CODLOGO  Principes généraux Equipe Motivations R1 : nashi → steak_beef_100 R2 : green_apple → milk_100 gi (< {milk, cheese}*; Fruit+, steak_beef_100>) R1 : nashi → steak_beef_100 24/47
  • L’approche ARIPSO CODLOGO  Principes généraux Equipe Motivations R1 : nashi → steak_beef_100 R2 : green_apple → milk_100 Comment trouver les associations entre rpc(< {red_apple, green_apple, chicken_wings}* les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >) produits écologiques ? Difficile à construire (très laborieux) ! 24/47
  • L’approche ARIPSO CODLOGO  Principes généraux Equipe Motivations R1 : nashi → steak_beef_100 R2 : green_apple → milk_100 Comment trouver les associations entre rpc (< {red_apple, green_apple, chicken_wings}* les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >) produits écologiques ? Difficile à construire (très laborieux) ! Construction de deux concepts : DietProducts ≡ FoodItems ⊓ isDiet hasValue TRUE EcologicalProducts ≡ FoodItems ⊓ isEcological hasValue TRUE DietProducts → EcologicalProducts 24/47
  • L’approche ARIPSO CODLOGO  Le modèle de connaissances Equipe Intégration des connaissances de l’expert  Connaissances du domaine - ontologie  Attentes – schémas de règles  Actions - opérateurs Connaissances du domaine Attentes Actions C1 Elagage (P) C2 C3 C2 C3  C1 Surprise (U) SCHEMAS DE ONTOLOGIES REGLES OPERATEURS 25/47
  • L’approche ARIPSO CODLOGO  Le modèle de connaissances Equipe Connaissances du domaine : Connexion Ontologie-Base de données f : C → P(I) grape_espagne nashi red_apple green_apple milk_100 steack_beef_100 chicken_wings 1 1 0 0 1 1 0 0 2 0 1 0 0 0 1 1 3 0 1 1 0 0 0 0 26/47
  • L’approche ARIPSO CODLOGO  Le modèle de connaissances Equipe Attentes - Schémas de Règles Syntaxe : RS ( < C1, C2, … (→) … Cn > ) où Ci ∈ C Exemple : RS(< Fruits → EcologicalProducts >) Exemple conformité Concept ontologie: Fruit f(Fruit) = {grape_espagne, red_apple, nashi, green_apple} conf(X1, Fruit)=TRUE X1: red_apple, steak_beef_100 conf(X2, Fruit)=FALSE X2: milk_100, chicken_wings conf(X3, Fruit)=TRUE X3: grape_espagne 27/47
  • L’approche ARIPSO CODLOGO  Le modèle de connaissances Equipe Actions/décisions - Opérateurs Opérateurs – appliqués sur les schémas de règles RS(< Fruits → EcologicalProducts >)  Elagage (Pruning - P)  Sélection: Conformité (Conforming - C) C(RS) : grape_espagne → milk_100, nashi Inattendu (Unexpectedness - U) Prémisse (Up) Up(RS) : chicken_wings → steack_beef_100 Conclusion (Uc) Uc(RS) : grape_espagne → nashi Exception (E) E(RS) : nashi, steack beef_100 → grape_espagne Opérateurs complémentaires : Augmentation minimale Lien de parenté entre les items 28/47
  • L’approche ARIPSO CODLOGO  Le modèle de connaissances Equipe Actions/décisions - Opérateurs Evaluation :  raisonneur => instances de RS(< Fruits → EcologicalProducts >) chaque concept Opérateur Conformité règle – schéma :  basé sur l’opérateur de conformité itemset – concept ontologie grape_espagne → milk_100, nashi 29/47
  • L’approche ARIPSO CODLOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • L’approche ARIPSO CODLOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • L’approche ARIPSO CODLOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • L’approche ARIPSO CODLOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • L’approche ARIPSO CODLOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • L’approche ARIPSO CODLOGO  Conclusion Equipe ARIPSO/ARLIUS Deux approches de ciblage de règles d’association :  ARIPSO  ARLIUS Technique Model de Connaissances Avantages Fouille locale Schémas de ARLIUS Fouille locale Opérateurs => réduction du temps Règles d’exécution Utilisation Schémas de ARIPSO Post-traitement Ontologies Opérateurs d’ontologies Règles => plus d’expressivité 31/47
  • CODLOGO Equipe Plan de la Présentation 1 Introduction 2 Approches existantes 3 L’approche ARIPSO 4 Réalisations et expérimentations Réalisations logicielles Expérimentations Analyse de l’interactivité et de la qualité des règles sélectionnées Analyse de l’efficacité 5 Conclusions et Perspectives 32/47
  • Réalisations et expérimentations CODLOGO  Réalisations logicielles Equipe L’outil ARIPSO Caractéristiques :  Java  7 packages  35 classes Fonctions :  Chargement des fichiers OWL et PMML  Création/management des schémas de règles  Sélection opérateurs  Résultats sous forme de règles 33/47
  • Réalisations et expérimentations COD LOGO  Réalisations logicielles Equipe L’outil ARIPSO – capture écran 2 Ontologie et Options 1 OngletPost-traitement 3 Schéma de Règles 34/47
  • Réalisations et expérimentations CODLOGO  Expérimentations Equipe Objectifs des expérimentations Objectifs :  évaluer la performance d’ARIPSO  évaluer son comportement avec différents opérateurs  répondre à un problème réel Evaluations :  Réduction du nombre de règles  Interactivité avec l’expert  Qualité des règles sélectionnées Collaboration directe avec l’expert Nantes Habitat 35/47
  • Réalisations et expérimentations CODLOGO  Expérimentations Equipe Etude « Nantes Habitat » Base de données de questionnaire sur la satisfaction des clients concernant leur logement  Etude annuelle (depuis 2003) sur 1500 clients  67 questions avec 4 réponses de 1 à 4: satisfaction … insatisfaction Exemple : q1=1 => question q1=« Le transport dans le quartier est pratique? » avec la réponse 1 = satisfaction Besoin Nantes Habitat :  trouver dans liens d’insatisfaction Extraction des règles : q17= 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.6%, C = 92.8%]  Technique classique – Apriori q16 = 4, q17 = 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.5%, C = 92.5%] q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S = 2.9%, C = 80.5%]  Support : min = 2%, max = 30% q15 = 4, q17 = 4, q97 = 4 → q26 = 4, q28 = 4 [S = 2.9%, C = 80.5%] Confiance = 80% q17 = 4, q97 = 4 → q16 = 4 [S = 3.5%, C = 86.7%] q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S = 2.0%, C = 100%]  358.072 règles d’association q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%] q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%] => Comment les analyser ? 36/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologie 37/47
  • Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologiePlusieurs phases :  Construction initiale 37/47
  • Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologiePlusieurs phases :  Construction initiale  Ajout informations supplémentaires:DissatisfactionComAreas ≡ ComAreas ⊓ (hasAnswer hasValue 3 OR hasAnswer hasValue 4) 37/47
  • Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologiePlusieurs phases :  Construction initiale  Ajout informations supplémentaires:DissatisfactionComAreas ≡ ComAreas ⊓ (hasAnswer hasValue 3 OR hasAnswer hasValue 4)  Raisonneur – organisation concepts + instances + cohérence Caractéristiques :  7 niveaux  130 concepts: 113 concepts primitives et 17 concepts de restriction 37/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 1: Entrée – 358.072 Sortie – 1008 / 96 Schémas de règles RS2 : RS(< DissatisfactionCalmDistrict>) RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 1: Entrée – 358.072 Sortie – 1008 / 96 Schémas de règles RS2 : RS(< DissatisfactionCalmDistrict>) RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS2) => 1008 règles C(RS3) => 96 règles 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 1: Entrée – 358.072 Sortie – 1008 / 96 Schémas de règles RS2 : RS(< DissatisfactionCalmDistrict>) RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS2) => 1008 règles C(RS3) => 96 règles Interprétation q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%] q16=4, q17=4, q26=4, q97=4 → q28=4 [S=2.5%, C=92.5%] q15=4, q17=4, q97=4 → q28=4 [S=1.9%, C=80.5%] q15=4, q17=4, q97=4 → q25=4, q28=4 [S=1.9%, C=80.5%]  Non validation 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 2: Entrée – 358.072 Sortie – 27.602 Opérateurs Augmentation minimale (MICF) => 27.602 règles 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 2: Entrée – 358.072 Sortie – 27.602 Opérateurs Augmentation minimale (MICF) => 27.602 règles Interprétation  Validation 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 3: Entrée – 27.602 Sortie - 50 Schémas de règles RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 3: Entrée – 27.602 Sortie - 50 Schémas de règles RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS3) => 50 règles 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 3: Entrée – 27.602 Sortie - 50 Schémas de règles RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS3) => 50 règles Interprétation q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%] q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S=1.9%, C=80.5%]  Validation du MICF q17 = 4, q97 = 4 → q16 = 4 [S=3.5% , C=86.7%] q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S=2.0% , C=100%]  Impliquent items de EntryHall et CloseSurrounding 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 4: Entrée – 50 Sortie - 15 Schémas de règles RS5: RS<EntryHall → CloseSurrounding>) RS6: RS(<Stairwell → EntryHall>) RS7: RS(<CloseSurrounding → EntryHall>) RS8: RS(<EntryHall → Stairwell>) 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 4: Entrée – 50 Sortie - 15 Schémas de règles RS5: RS<EntryHall → CloseSurrounding>) RS6: RS(<Stairwell → EntryHall>) RS7: RS(<CloseSurrounding → EntryHall>) RS8: RS(<EntryHall → Stairwell>) Opérateurs P(RS5-RS8) => 15 règles 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 4: Entrée – 50 Sortie - 15 Schémas de règles RS5: RS<EntryHall → CloseSurrounding>) RS6: RS(<Stairwell → EntryHall>) RS7: RS(<CloseSurrounding → EntryHall>) RS8: RS(<EntryHall → Stairwell>) Opérateurs P(RS5-RS8) => 15 règles Interprétation q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%] q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]  Impliquent items décrits par des instances très proches dans l’ontologie  IRF 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 5: Entrée – 15 Sortie - 3 Opérateurs IRF => 3 règles 38/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 5: Entrée – 15 Sortie - 3 Opérateurs IRF => 3 règles Interprétation q15 = 4, q16 = 4, q97 = 4 → q9 = 4 Support = 2.3% Confidence = 79.1% 38/47
  • Réalisations et expérimentations COD LOGO  Analyse de l’efficacité Equipe Résultats des méthodes d’élagage Taux d’élagage de chaque méthode Notation Explication MICF Augmentation minimale Nb MICF IRF P(RS) Règles IRF Lien de parenté entre les items 1 358.072 (100%) Opérateur d’élagage sur les Schémas 2  27.602 (7.7%) PRS de Règles Rule 3  103.891 (29%) Le nombre de règles restantes number 4  207.196 (57%) Schéma de Règles Opérateur 5   16.473 (4.6%)RS5 < EnteryHall → CloseSurrounding > Elagage 6   21.822 (7.7%)RS6 < Stairwell → EnteryHall > Elagage 7   73.091 (20%)RS7 < CloseSurrounding → EnteryHall > Elagage 8    13.382 (3.7%)RS8 < EnteryHall → Stairwell > ElagageRS9 < CommonAreas → GarbageRoom > ElagageRS10 < TechnicalMaintenance→TechnicalMaintenance > Elagage 39/47
  • Réalisations et expérimentations CODLOGO  Analyse de l’efficacité Equipe Résultats des méthodes de sélection Taux de sélection des opérateurs de sélection C(RS1) C(RS2) C(RS3) Up(RS4) E(RS4) Aucun opérateur d’élagage 185 1.008 96 1399 98 Tous les opérateurs 3 3 3 11 3 d’élagage Schéma de Règles Opérateur RS1 < DissatisfactionPrice > Conformité RS2 < DissatisfactionCalmDistrict > Conformité RS3 < DissatisfactionPrice, DissatisfactionCommonAreas > Conformité < DissatisfactionPrice → DissatisfactionCommonAreas > Surprise RS4 Exception 40/47
  • CODLOGO Equipe Plan de la Présentation 1 Introduction 2 Etat de l’art 3 ARIPSO et ARLIUS 4 Réalisations et expérimentations 5 Conclusions et Perspectives 41/47
  • Conclusions et perspectives CODLOGO  Conclusions Equipe Conclusions i. Un modèle pour représenter la connaissance de l’expert :  Attentes, connaissances du domaine et actions ii. Une nouvelle approche de post-traitement – ARIPSO :  Intégration du modèle de connaissances  Processus interactif iii. Implémentations :  Implémentation en post-traitement – ARIPSO  Implémentation en local - ARLIUS iv. Etude expérimentale :  Évaluation de la réduction et de la qualité des règles filtrées  Etude réalisée en collaboration avec l’expert et résultats validés 42/47
  • Conclusions et perspectives CODLOGO  Perspectives Equipe Perspectives  Appliquer ARIPSO sur des données séquentielles Pattern connu : <{Enfants, Mariage}, {Diovrce}>  Appliquer ARIPSO sur des graphes Prof Etud 43/47
  • LOGOKOD Team
  • CODLOGO Equipe Références Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. Procedings of 20th International Conference Very Large Data Bases, VLDB, pages 487–499, 1994. B. Baesens, S. Viaene, and J. Vanthienen. Post-processing of association rules. Workshop on Post-Processing in Machine Learning and Data Mining: Interpretation, visualization, integration, and related topics with in Sixth ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 20–23, 2000. Roberto J. Bayardo Jr., Rakesh Agrawal, and Dimitrios Gunopulos. Constraintbased rule mining in large, dense databases. ICDE ’99: Proceedings of the 15th International Conference on Data Engineering, pages 188–197, 1999. Andrea Bellandi, Barbara Furletti, Valerio Grossi, and Andrea Romei. Ontological support for association rule mining. In Proceedings of the 26th IASTED International Conference on Artificial Intelligence and Applications, pages 110–115. ACTA Press, 2008. Berners-Lee, Tim; James Hendler and Ora Lassila (May 17, 2001). "The Semantic Web". Scientific American Magazine. Retrieved March 26, 2008. Sergey Brin, Rajeev Motwani, and Craig Silverstein. Beyond market baskets: Generalizing association rules to correlations. SIGMOD Record, 26(1):265–276, 1997. Emmanuel Blanchard, Mounira Harzallah, Henri Briand and Pascale Kuntz. A typology of ontology-based semantic measures. In Proccedings of the Workshop EMOI-INTEROP at CAISE, 2005. C. H. Cai, A. W. C. Fu, C. H. Cheng, and W. W. Kwong. Mining association rules with weighted items. In IDEAS ’98: Proceedings of the 1998 International Symposium on Database Engineering & Applications, page 68. IEEE Computer Society, 1998. Julien Blanchard, Fabrice Guillet, and Henri Briand. A user-driven and qualityoriented visualization for mining association rules. Proceedings of the Third IEEE International Conference on Data Mining, pages 493–496, 2003. Mario Cannataro and Carmela Comito. A data mining ontology for grid programming. In Proceedings of the First International Workshop on Semantics in Peer-to-Peer and Grid Computing (SemPGrid2003), 2003. Hana Cespivova, Jan Rauch, Vojtech Svatek, Martin Kejkula, and Marie Tomeckova. Roles of medical ontology in association mining crisp-dm cycle. Knowledge Discovery and Ontologies (KDO) at ECML/PKDD, 2004. W. J. Frawley, G. Piatetsky-Shapiro et C. J. Matheus, “Knowledge discovery in databases : An overview”, Knowledge Discovery in Databases, AAAI/MIT Press, 1992, p. 57–70. Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI Magazine, 17:37 – 54, 1996. E. Feigenbaum and P. McCorduck. The fifth generation: articial intelligence and Japans computer challenge to the world. Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA, 1983. Jean-Gabriel Ganascia. Charade: a rule system learning system. In Proceedings of the 10th International Joint Conference on Artificial Intelligence, pages 345–347, San Francisco, CA, USA, 1987. Morgan Kaufmann Publishers Inc. Fabien Gandon. Ontologies informatiques, May 2006. Fabien Gandon. Graphes RDF et leur Manipulation pour la Gestion de Connaissances. HDR thesis, INRIA Sophia-Antipolis, 2008. Fabien Gandon, Olivier Corby, Ibrahmina Diop and Moussa Lo. Distances sémantiques dans des applications de gestion d’information utilisant le web sémantique. In Semantic Similarity Workshop in EGC2008, 2008. Ana Cristina Bicharra Garcia and Adriana S. Vivacqua. Does ontology help make sense of a complex world or does it create a biased interpretation? Sensemaking Workshop in CHI 2008 Conference on Human Factors in Computing Systems, 2008.
  • CODLOGO Equipe Références Liqiang Geng and Howard J. Hamilton. Interestingness measures for data mining: A survey. ACM Computing Surveys, 38(3), 2006. F. Guillet and H. Hamilton. Quality Measures in Data Mining. Studies in Computational Intelligence, 2007. Thomas R. Gruber, “Toward principles for the design of ontologies used for knowledge sharing”, In Nicola Guarino and Roberto Poli, editors, Formal Ontology in Conceptual Analysis and Knowledge Representation. Kluwer Academic Publishers, 1993. Jiawei Han and Jian Pei. Mining frequent patterns by pattern-growth: methodology and implications. ACM SIGKDD Explorations Newsletter, Special issue on Scalable data mining algorithms, 2000(2):14–20, 2. Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules. International Conference on Information and Knowledge Management (CIKM), pages 401–407, 1994. Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engineering, pages 817–832, 1999. Bing Liu, Wynne Hsu, and Yiming Ma. Pruning and summarizing the discovered associations. In KDD ’99: Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 125–134. ACM, 1999. H.O. Nigro, S.E. Gonzalez Cisaro, and D.H. Xodo. Data Mining With Ontologies: Implementations, Findings and Frameworks. Idea Group Inc., 2007. Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24:25–46, 1999. Jian Pei, Jiawei Han, and Runying Mao. Closet: An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, pages 21–30, 2000. B. Shekar and Rajesh Natarajan. A framework for evaluating knowledge-based interestingness of association rules. Fuzzy Optimization and Decision Making, 3(2):157–185, 2004. G. Piatetsky-Shapiro. Knowledge Discovery in Databases, chapter Discovery, Analysis, and Presentation of Strong Rules, page 229248. AAAI/MIT Press, 1991. Abraham Silberschatz and Alexander Tuzhilin. What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge and Data Engineering, 8:970–974, 1996. Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. Knowledge Discovery and Data Mining (KDD), pages 275– 281, 1995. Ramakrishnan Srikant and Rakesh Agrawal. Mining generalized association rules. Proceedings of the 21st International Conference on Very Large Databases, (2– 3):407–419, 1995. Mohammed J. Zaki and Ching J. Hsiao. Charm: An efficient algorithm for closed itemset mining. In Proceedings of SIAM’02, 2002.
  • Conclusions et perspectives CODLOGO  Conclusions Equipe Sélection de publications- Revues internationales C. Marinica et F. Guillet. Knowledge Interactive Postmining of Association Rules Using Ontologies. Revue IEEE Transactions on Knowledge and Data Engineering (TKDE), volume 22, numéro 6, pages: 784-797.- Conférences internationalesC. Marinica, F. Guillet. Improving Post-Mining of Association Rules with Ontologies. Proceedings of the XIIIth International Confenrece “Applied Stochastic Models and Data Analysis” (AMSDA2009), pages: 76-80, 2009.C. Marinica, A. Olaru, F. Guillet. User-driven Association Rule Mining Using a Local Algorithm. Proceedings of the 11th International Conference on Enterprise Information Systems (ICEIS2009), pages: 200-205, 2009.A. Olaru, C. Marinica, F. Guillet. Local Mining of Association Rules with Rule Schemas. Proceedings of the IEEE Symposium on Computational Intelligence and Data Mining (IEEE CIDM 2009), pages: 118 – 124, 2009.C. Marinica, F. Guillet, H. Briand. Post-Processing of Discovered Association Rules using Ontologies. IEEE ICDM Workshops - The Second International Workshop on Domain Driven Data Mining (DDDM 2008) en conjunction avec IEEE International Conference on Data Mining series (ICDM 2008), pages : 126-133, 2008.