Presentacio projecte de tesi doctoral

440 views

Published on

Proposta de projecte per desenvolupar tesi doctoral

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
440
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Presentacio projecte de tesi doctoral

  1. 1. Projecte de tesis: UN MODEL GENEALÒGIC BASAT EN ONTOLOGIES Alumne: Joan Campanyà Artés Direcció: Enric Mayol (UPC) i Jordi Conesa (UOC) Novembre 2011
  2. 2. Introducció <ul><li>La situació : es generalitza l'ús de serveis web com eina de construcció d'arbres genealògics personals. Tanmateix, la ciència genealògica passa a l'àmbit de l'interès social
  3. 3. Inconvenients : dades distribuïdes en sistemes d'informació tancats (no es facilita l'exportació massiva de dades). Tant l'estructura com els formats de les dades segueixen sovint patrons particulars als diferents serveis
  4. 4. La proposta : dissenyar el model conceptual així com l'arquitectura d'un sistema d'informació que permeti utilitzar aquesta informació dispersa com una única font de coneixement </li></ul>
  5. 5. Models de referencia <ul><li>GEDCOM (v. 5.5, 1996) [1]. Es tracta d'un format de fitxer per intercanviar dades, no d'un model conceptual. Dificultat d'integrar dades de diferents repositoris
  6. 6. GENTECH (2000) [2]. Model conceptual que, malgrat sense continuïtat en desenvolupament/implementació, ha estat una referència reconeguda. Interessant com es modelen els esdeveniments genealògics, que recorda el triplet ontològic <subject, predicate, object> . Pensat per ser implementat en una base de dades relacional, està sobrecarregat de tipus d'entitat especialitzats que el fan poc flexible. </li></ul>
  7. 7. Estat de l'art: articles científics <ul><li>Distributed Family Tree (DFT), Hilton Campbell (BYU, 11/2006) [3]. Proposta teòrica d'implementar sobre serveis web un arbre genealògic global basat en ontologies. Proposa l'ús d'agents intel·ligents per detectar dinàmicament les duplicitats. No fa cap proposta de model conceptual
  8. 8. Automatic extraction from and reasoning about genealogical records, Charla Woodbury (BYU, 8/2010) [4]. Es proposa un model basat en ontologies especialitzades. S'incorpora un conjunt d'etiquetes en SWRL que defineixen les regles i restriccions d'integritat pròpies de les entitats de l'àmbit genealògic. L'estudi es completa amb la simulació i avaluació de resultats, partint d'una mostra significativa de dades primàries. </li></ul>
  9. 9. Particularitats del domini <ul><li>Dos classes d'entitat centren l'interès: </li><ul><li>Les persones
  10. 10. Els esdeveniments </li></ul><li>Dificultats en la identificació de les instàncies: </li><ul><li>Noms i toponímia evolucionant en el temps
  11. 11. Dates sovint imprecises o errònies
  12. 12. Dades incompletes o amb referències implícites </li></ul><li>Fonts d'informació no estructurades </li><ul><li>Format de dades heterogeni (calendaris, formació dels noms, manca d'identificadors) </li></ul></ul>
  13. 13. Els models relacionals: limitacions <ul><li>Dificultat de consensuar un model que s'avingui amb la multiplicitat d'interessos de la comunitat genalògica
  14. 14. Impossibilitat de definir una estructura de la informació compatible amb els tipus emprats al llarg del temps o de diferents contextos geogràfics
  15. 15. No sempre és possible definir identificadors unívocs per les classes d'entitat (claus primàries)
  16. 16. Inferència de coneixement limitada a l'existència de registres referenciats en l'extensió de la BBDD
  17. 17. Dificultat d'integrar recursos d'informació provinents de diferents models (el mapeig no és sempre possible) </li></ul>
  18. 18. El paradigma ontològic: l'alternativa <ul><li>Flexibilitat en l'estructura de la informació (en tot moment es pot estendre l'esquema conceptual sense afectar a les entitats i relacions prèviament definides)
  19. 19. Capacitat d'inferir coneixement a partir de dades no connectades directament per relacions predefinides
  20. 20. Possibilitat de registrar instàncies d'entitat (“fets”) sense declarar un identificador. La posterior inferència de coneixement podria establir relacions amb altres instàncies ja reconegudes.
  21. 21. Facilitat d'integrar el model amb altres ontologies, tesaurus, sinònims, etc., augmentant la capacitat de raonament </li></ul>
  22. 22. ELS REPTES (I): decidibilitat i complexitat computacional <ul><li>Dificultat de declarar regles de la Lògica Descriptiva (DL) en el llenguatge ontològic. </li><ul><li>Exemple: </li></ul></ul>brotherOf(x, y) ∧ parentOf(y, z) -> uncleOf(x, z) L'ús d'aquestes regles pot portar a solucions incompletes, no deterministes o bé computacionalment intractables <ul><li>El llenguatge ontològic OWL ens ofereix dues opcions: </li><ul><li>Introduir regles SWRL [5] restringides al subconjunt DL-safe, que combinat amb OWL-DL condueix a sistemes decidibles i computables en temps polinòmic
  23. 23. Utilitzar les noves possibilitats que ofereix la revisió OWL-2 [6] </li></ul></ul>
  24. 24. ELS REPTES (II): atomització i dispersió d'entitats <ul><li>En el paradigma ontològic, les entitats i les seves propietats es determinen mitjançant unitats semàntiques elementals inspirades en la lògica de primer ordre, les tripletes <subject, predicate, object> </li></ul>En RDF, un registre matrimonial podria representar-se per: <Event “Event_10”>, <AssignementPredicate ”set”>, <Group “ParentsFamily_20”> <Group “ParentsFamily_20&quot;>, <GenealogicalPredicate ”father”>, <Person &quot;Person_30”> <Group “ParentsFamily_20&quot;>, <GenealogicalPredicate ”mother”>, <Person &quot;Person_31”> <ul><li>Inconvenients : </li><ul><li>Aquests components atòmics ( Event , Group , Person a l'exemple) poden referir-se a instàncies de diferents ontologies
  25. 25. Entre ells s'interposa l' Event , dificultant d'inferir directament els vincles entre les entitats d'interès genealògic ( Person i Group ) </li></ul></ul>
  26. 26. ELS REPTES (III): reconeixement d'identitats (evitar duplicitats) <ul><li>Integrar dades genealògiques comporta haver de conjugar instàncies (entitats, esdeveniments) de diverses fonts i materialitzades en diferents ontologies
  27. 27. Dificultats : </li><ul><li>No disposem d'identificadors unívocs
  28. 28. Tanmateix, alguns atributs que podrien ajudar a la identificació no són completament fiables (per exemple, el nom d'una persona pot aparèixer en diferents formes segons la font)
  29. 29. L'atomització i dispersió de la informació agreuja el problema </li></ul><li>Una opció: la possible aplicació d'algorismes de reconeixement propis de la intel·ligència artificial, combinat amb agents distribuïts supervisant els repositoris de dades </li></ul>
  30. 30. ELS REPTES (IV): arquitectura de servei web <ul><li>L'objectiu és obtenir un sistema obert, escalable, extensible i comprensible pels sistemes d'informació
  31. 31. La tendència previsible és de que les entitats genealògiques facilitin serveis web semàntics, proporcionant una descripció dels seus serveis i del model conceptual mitjançant una ontologia pròpia.
  32. 32. La integració de diferents aplicacions requereix d'una arquitectura i uns llenguatges de modelat comuns, el que es coneix com coreografia de serveis . És el camp dels meta-models, Meta Object Facility (MOF) [7] </li></ul>
  33. 33. Objectius i aportacions preteses amb aquest projecte <ul><li>Es proposa desenvolupar un model conceptual coherent i extensible per l'àmbit genealògic, inspirat en el paradigma ontològic. Això comporta tanmateix el plantejament de les regles i restriccions pròpies del domini
  34. 34. L'elecció d'una arquitectura basada en ontologies pel suport del coneixement és fruit d'una acurada reflexió sobre els avantatges que ens pot proporcionar respecte altres dissenys. Tanmateix dins el model podran cooperar diverses ontologies especialitzades.
  35. 35. El model haurà de ser viable amb els medis i tecnologies actuals. Es a dir, l'extracció d'informació i la inferència de nou coneixement s'hauria d'aconseguir en temps computacionalment acceptable.
  36. 36. No obstant no formar part dels objectius d'aquest projecte la seva posterior implementació, implícitament s'està pensant en la web semàntica, amb la intervenció d'agents intel·ligents gestionant les actualitzacions de dades. </li></ul>
  37. 37. Notes bibliogràfiques [1] GEDCOM http://homepages.rootsweb.ancestry.com/%7Epmcbride/gedcom/ [2] Gentech-GDM Reference Model Autor: Stanley Mitchell. Publicació: 2003 http://freepages.history.rootsweb.com/~mitchellsharp/gdmref/gdmref-01.pdf [3] Enabling the Distributed Family Tree Autor: Hilton Campbel. Publicació: Department of Computer Science - BYU . Nov 2006 http://www.dftproject.org/blog/thesis-proposal/ [4] A utomatic extraction from and reasoning about genealogical records Autor: Charla Woodbury. Publicació: Brigham Young University (BYU, Utah – EEUU). Agost 2010 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.167.8352&rep=rep1&type=pdf [5] SWRL: A Semantic Web Rule Language Combining OWL and RuleML Autor: Ian Horrocks i altres. Publicació: W3C Member Submission 21 May 2004 http://www.w3.org/Submission/SWRL/ [6] OWL 2 Web Ontology Language - Profiles Autor: Boris Motik i altres. Publicació: W3C Recommendation 27 October 2009 http://www.w3.org/TR/2009/REC-owl2-profiles/ [7] OMG's MetaObject Facility http://www.omg.org/mof/

×