Your SlideShare is downloading. ×
Intégration incrémentale de données (Valenciennes juin 2010)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Intégration incrémentale de données (Valenciennes juin 2010)

520
views

Published on

An invited talk at the University of Valenciennes-France on

An invited talk at the University of Valenciennes-France on

Published in: Business

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
520
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Intégra(on  Incrémentale  de  Données   Basée  sur  les  Retours  U(lisateur     Khalid Belhajjame Université de Manchester Royaume Uni 18  juin  2010   Valenciennes   1  
  • 2. Intégra(on  de  Données   Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?     Chercheur        Schéma        central   Mappings   PedroDB   PepSeeker   Pride   GPMDB   18  juin  2010   Valenciennes   2  
  • 3. Intégra(on  Incrémentale  de  Données     Intégra(on  de  Données   –  La  spécifica(on  de  mappings  est  une  ac(vité  couteuse  qui  requière   une  connaissance  profonde  des  sources  de  données  aussi  bien  que  les   besoins  des  u(lisateurs.     Dataspaces:  Pay-­‐as-­‐you-­‐go  Data  Integra3on  [Franklin  et  al.  2005]   –  Réduire  le  temps  d’installa(on  du  système  d’intégra(on  de  données.     –  Améliore  les  services  fournis  par  le  system  d’une  façon  incrémentale   en  interagissant  avec  les  u(lisateurs.   M.  J.  Franklin,  A.  Y.  Halevy,  and  D.  Maier.  From  databases  to  dataspaces:  a  new  abstrac(on  for  informa(on   management.  SIGMOD  Record,  34(4):27–33,  2005.   18  juin  2010   Valenciennes   3  
  • 4. Intégra(on  Incrémentale  de  Données   Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?     Chercheur   Schéma   central   Bootstrap   Dataspaces   Mappings   PedroDB   PepSeeker   Pride   GPMDB   Objec(ve:     Étudiez  l'annota(on,  la  sélec(on  et  le  raffinement  incrémental  des  mappings   18  juin  2010   Valenciennes   4  
  • 5. Pay-­‐as-­‐you-­‐go  Data  Integra(on    Nous  considérons  que  les  schémas  des  sources  et  le  schéma  central  sont   rela(onels,  et  que  les  mappings  u(lisés  pour  peupler  les  éléments  du  schéma   central  sont  glabal-­‐as-­‐view  de  la  forme  suivante  : ⟨r,qs⟩ r est une relation du schéma central et qs est une requête spécifiée en terme de sources.  Une  rela(on  du  schéma  central  peut  être  associée  avec  plusieurs  mappings   candidates  pour  sa  popula(on  :  Nous  considérons  une  configura(on  dans   laquelle  mul(ple  mécanismes  de  matching  et  de  mapping  de  schémas  sont   u(lisés. 18  juin  2010   Valenciennes   5  
  • 6. Plan     Retour  U(lisateur  (feedback)     Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   6  
  • 7. Retour  U(lisateur     Requête:  Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?       Results:   Feedback   ✔   ✖   ✖   ✔   18  juin  2010   Valenciennes   7  
  • 8. Retour  U(lisateur  (cont.)     Considérons  m  un  mapping,  et  UF  un  ensemble  de  retours  u(lisateur   (feedback  instances):       tp(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  sont  retournés   par  le  mapping  m.     fp(m,UF):  les  tuples  qui  ne  sont  pas  prévus  par  l'u(lisateur  et  qui  sont   retournés  par  le  mapping  m.       fn(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  ne  sont  pas   retournés  par  le  mapping  m.   18  juin  2010   Valenciennes   8  
  • 9. Plan    Retour  U(lisateur  (feedback)     Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   9  
  • 10. Annota(on  de  Mappings   On  peut  u(liser  un  schéma  d’annota(on  simple  pour  é(queter   les  mappings  comme:    Correct      Incorrect     L'ensemble  de  mappings  peut  être  incomplete,  et,  par   consequent,  nous  allows  tout  simplement  annoter  tout  les   mappings  comme  incorrect,  ce  qui  est  inu(le.   Pour  ceme  raison,  nous  u(lisons  un  schéma  plus  fine  pour   l’annota(on  de  mappings.   18  juin  2010   Valenciennes   10  
  • 11. Annota(on  de  Mappings  (cont.)   Nous  avons  u(lisé  et  adapté  les  no(ons  de  précision  et  de  rappel   u(lisés  dans  la  recherche  d'informa(on  pour  mesurer  la  qualité   d'un  mapping.    Precision:      Rappel:      F  mésure:     18  juin  2010   Valenciennes   11  
  • 12. Annota(on  de  Mappings:  Valida(on   Ques(ons:     –  Combien  de  retours  u(lisateur  (feedback  instances)  faut-­‐il   pour  rapprocher  la  précision  et  le  rappel  réels,  c'est  à  dire   calculés  on  se  basant  sur  la  connaissance  complète  des   résultats  prévues?   –  Est  ce  que  la  philosophie  “pay-­‐as-­‐you-­‐go”  préconisée  par  la   vision  espaces  de  données  (dataspaces)  est  valide  dans  ce   context?   18  juin  2010   Valenciennes   12  
  • 13. Annota(on  de  Mappings:  Valida(on   (cont.)   Expérience:     Données:   –  Deux  collec(ons  de  données:  la  base  de  données  géographiques   Mondial  et  la  base  de  données  bibliographique  amalgames.   –  Les  mappings  candidats:  créés  en  u(lisant  IBM  InfoSphere  Data   Architect.       Processus:  nous  avons  appliqué  le  processus  illustrées  ci-­‐dessous  pour  de   mul(ples  itéra(ons.   1.  Générer  un  échan(llon  de  retours  u(lisateur  (feedback  instances).   2.  Calculer  la  précision  et  le  rappel  des  mappings  candidats  en  u(lisant   le  retours  u(lisateur  cumulés.   18  juin  2010   Valenciennes   13  
  • 14. Annota(on  de  Mappings:     Error   Erreur  dans  la  Precision   18  juin  2010   Valenciennes   14  
  • 15. Mapping  Annota(on:     Error   Erreur  dans  le  rappel   18  juin  2010   Valenciennes   15  
  • 16. Plan    Retour  U(lisateur  (feedback)    Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   16  
  • 17. Sélec(on  de  Mappings     La  sélec(on  de  mappings  doit  être  adaptée  pour  répondre  aux  besoins  des   u(lisateurs.     Nous  u(lisons  une  méthode  de  sélec(on  qui  vise  à  maximiser  le  rappel  de  telle   sorte  que  la  précision  des  résultats  est  supérieur  à  un  seuil  de  précision  donnée.     Nous  avons  défini  ceme  méthode    comme  un  problème  d’op(misa(on  qui  vise  à   maximiser  la  fonc(on  d'u(lité  suivantes:   D.  A.  Menascé  and  V.  Dubey.  U(lity-­‐based  qos  brokering  in  service  oriented  architectures.  In  ICWS,  pages   422–430.  IEEE  CS,  2007.   18  juin  2010   Valenciennes   17  
  • 18. Sélec(on  de  Mappings:  Precision   Est-­‐ce  que  ceme  méthode  permet  de  respecter  la  précision   spécifiée  par  l'u(lisateur?   18  juin  2010   Valenciennes   18  
  • 19. Sélec(on  de  Mappings:  Rappel   Est-­‐ce  que  ceme  méthode  permet  de  maximiser  le  rappel?   18  juin  2010   Valenciennes   19  
  • 20. Plan    Retour  U(lisateur  (feedback)    Annota(on  de  Mappings    Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     raffinement  de  Mappings     18  juin  2010   Valenciennes   20  
  • 21. raffinement  de  Mappings     Nous  dis(nguons  deux  types  de  Raffinement:     Raffinement  de  mappings  qui  vise  à  réduire  le  nombre  de  faux  posi(fs     Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête   source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  réduit.       Raffinement  de  mappings  qui  vise  à  accroître  le  nombre  de  vrais  posi(fs     Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête   source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  accrue.     18  juin  2010   Valenciennes   21  
  • 22. Mapping  Refinement:  Exemple   Je veux les proteins de mouche de fruit Schéma Protein cebtral Accession name gene m = <Protein, ProteinEntry> Schéma source 18  juin  2010   Valenciennes   22  
  • 23. Raffinement  de  Mappings:     l'espace  des  solu(ons   L'espace  des  solu(ons  est  composé  des  mappings  qui  peuvent  être   construits  à  par(r  des  mappings  candidats  ini(aux.  Plus  précisément,  les   mappings  obtenu  en:   i. appliquant  la  jointure  à  la  requête  source  d’un  mapping,     ii. augmentant  la  requête  source  d'un  mapping  avec  une  condi(on  de     sélec(on,   iii. assouplissant  la  condi(on  de  sélec(on  de  la  requête  source  d’un     mapping,   iv. combinant  les  requêtes  sources  de  deux  ou  plusieurs  mappings  en     u(lisant  l'Union,  la  différence  et  intersec(on.   18  juin  2010   Valenciennes   23  
  • 24. Explora(on  de  l'Espace  des  Solu(ons     L'espace  des  mappings  qui  peuvent  être  obtenus  par  raffinement   est  poten(ellement  large.     Un  algorithme  de  recherche  qui  explore  tout  l'espace  des  mappings   possibles  peut  ne  pas  être  en  mésure  de  trouver  une  solu(on  dans   un  temps  limité.     Dans  le  cadre  du  présent  travail,  nous  avons  u(lisé  un  algorithme   évolu(onnaire  pour  explorer  l'espace  de  mappings  qui  peuvent  être   obtenus  par  raffinement.   18  juin  2010   Valenciennes   24  
  • 25. Algorithm  pour  le  Raffinement  de   Mappings   18  juin  2010   Valenciennes   25  
  • 26. Raffinement  de  Mappings:   Valida(on     Ques(on:     Est-­‐ce  qu’on  peut  améliorer  la  qualité  des  mappings   candidats  iniDaux  par  raffinement,  et,  si  c’est  le  cas,  à  quel   prix,  à  savoir,  combien  de  retours  uDlisateur  sont  requis?         Expérience:  Pour  répondre  à  la  ques(on  ci-­‐dessus,  nous  avons   appliqué  le  processus  suivant  pour  de  mul(ples  itéra(ons.   1) Générer  un  échan(llon  de  retours  u(lisateur   2) Annoter  l'ensemble  des  mappings  candidats.   3) Raffiner  les  mappings  candidats.   18  juin  2010   Valenciennes   26  
  • 27. Raffinement  de  Mappings:  Valida(on  (cont.)   18  juin  2010   Valenciennes   27  
  • 28. Conclusions     Annota(on  incrémentale  de  Mappings     Nous  avons  montré  comment  les  mappings  peuvent  être  annoter   progressivement  en  fonc(on  des  retours  u(lisateurs.     Nous  avons  également  montré  à  travers  un  exercice  d'évalua(on  que  plus   de  retours  u(lisateur  nous  avons,  meilleur  est  la  qualité  des  annota(ons   calculées.       Applica(on:  Sélec(on  et  Raffinement  des  mappings     Les  annota(ons  calculées  sont  u(lisées  comme  entrée  pour  permemre  la   sélec(on  et  le  raffinement  de  mappings.     Les  exercices  d'évalua(on  ont  également  montré  que  le  raffinement   mappings  est  plus  rentable  (cost-­‐effec(ve)  dans  les  itéra(ons  premiers.   18  juin  2010   Valenciennes   28  
  • 29. Travaux  en  Cours     Propaga(on  de  retour  u(lisateur  et  des  annota(ons.     Retours  u(lisateur  inconsistant.   18  juin  2010   Valenciennes   29  
  • 30. Intégra(on  Incrémentale  de  Données   Basée  sur  les  Retours  U(lisateur   Khalid Belhajjame Université de Manchester Royaume Uni 18  juin  2010   Valenciennes   30