Projecte de tesi: Model genealògic i ontologies

369 views

Published on

Proposta de desenvolupament projecte de tesi doctoral. UPC/UOC

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
369
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
7
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Projecte de tesi: Model genealògic i ontologies

  1. 1. Projecte de tesis: UN MODEL GENEALÒGIC BASAT EN ONTOLOGIES Alumne: Joan Campanyà Artés Novembre 2011
  2. 2. Introducció <ul><li>La situació : es generalitza l'ús de serveis web com eina de construcció d'arbres genealògics personals. Tanmateix, la ciència genealògica passa a l'àmbit de l'interès social
  3. 3. Inconvenients : dades distribuïdes en sistemes d'informació tancats (no es facilita l'exportació massiva de dades). Tant l'estructura com els formats de les dades segueixen sovint patrons particulars als diferents serveis
  4. 4. La proposta : dissenyar el model conceptual així com l'arquitectura d'un sistema d'informació que permeti utilitzar aquesta informació dispersa com una única font de coneixement </li></ul>
  5. 5. Models de referencia <ul><li>GEDCOM (v. 5.5, 1996) [1]. Es tracta d'un format de fitxer per intercanviar dades, no d'un model conceptual. Dificultat d'integrar dades de diferents repositoris
  6. 6. GENTECH (2000) [2]. Model conceptual que, malgrat sense continuïtat en desenvolupament/implementació, ha estat una referència reconeguda. Interessant com es modelen els esdeveniments genealògics, que recorda el triplet ontològic <subject, predicate, object> . Pensat per ser implementat en una base de dades relacional, està sobrecarregat de tipus d'entitat especialitzats que el fan poc flexible. </li></ul>
  7. 7. Estat de l'art: articles científics <ul><li>Distributed Family Tree (DFT), Hilton Campbell (BYU, 11/2006) [3]. Proposta teòrica d'implementar sobre serveis web un arbre genealògic global basat en ontologies. Proposa l'ús d'agents intel·ligents per detectar dinàmicament les duplicitats. No fa cap proposta de model conceptual
  8. 8. Automatic extraction from and reasoning about genealogical records, Charla Woodbury (BYU, 8/2010) [4]. Es proposa un model basat en ontologies especialitzades. S'incorpora un conjunt d'etiquetes en SWRL que defineixen les regles i restriccions d'integritat pròpies de les entitats de l'àmbit genealògic. L'estudi es completa amb la simulació i avaluació de resultats, partint d'una mostra significativa de dades primàries. </li></ul>
  9. 9. Particularitats del domini <ul><li>Dos classes d'entitat centren l'interès: </li><ul><li>Les persones
  10. 10. Els esdeveniments </li></ul><li>Dificultats en la identificació de les instàncies: </li><ul><li>Noms i toponímia evolucionant en el temps
  11. 11. Dates sovint imprecises o errònies
  12. 12. Dades incompletes o amb referències implícites </li></ul><li>Fonts d'informació no estructurades </li><ul><li>Format de dades heterogeni (calendaris, formació dels noms, manca d'identificadors) </li></ul></ul>
  13. 13. Els models relacionals: limitacions <ul><li>Dificultat de consensuar un model que s'avingui amb la multiplicitat d'interessos de la comunitat genalògica
  14. 14. Impossibilitat de definir una estructura de la informació compatible amb els tipus emprats al llarg del temps o de diferents contextos geogràfics
  15. 15. No sempre és possible definir identificadors unívocs per les classes d'entitat (claus primàries)
  16. 16. Inferència de coneixement limitada a l'existència de registres referenciats en l'extensió de la BBDD
  17. 17. Dificultat d'integrar recursos d'informació provinents de diferents models (el mapeig no és sempre possible) </li></ul>
  18. 18. El paradigma ontològic: l'alternativa <ul><li>Flexibilitat en l'estructura de la informació (en tot moment es pot estendre l'esquema conceptual sense afectar a les entitats i relacions prèviament definides)
  19. 19. Capacitat d'inferir coneixement a partir de dades no connectades directament per relacions predefinides
  20. 20. Possibilitat de registrar instàncies d'entitat (“fets”) sense declarar un identificador. La posterior inferència de coneixement podria establir relacions amb altres instàncies ja reconegudes.
  21. 21. Facilitat d'integrar el model amb altres ontologies, tesaurus, sinònims, etc., augmentant la capacitat de raonament </li></ul>
  22. 22. ELS REPTES (I): decidibilitat i complexitat computacional <ul><li>Dificultat de declarar regles de la Lògica Descriptiva (DL) en el llenguatge ontològic. </li><ul><li>Exemple: </li></ul></ul>brotherOf(x, y) ∧ parentOf(y, z) -> uncleOf(x, z) L'ús d'aquestes regles pot portar a solucions incompletes, no deterministes o bé computacionalment intractables <ul><li>El llenguatge ontològic OWL ens ofereix dues opcions: </li><ul><li>Introduir regles SWRL [5] restringides al subconjunt DL-safe, que combinat amb OWL-DL condueix a sistemes decidibles i computables en temps polinòmic
  23. 23. Utilitzar les noves possibilitats que ofereix la revisió OWL-2 [6] </li></ul></ul>
  24. 24. ELS REPTES (II): atomització i dispersió d'entitats <ul><li>En el paradigma ontològic, les entitats i les seves propietats es determinen mitjançant unitats semàntiques elementals inspirades en la lògica de primer ordre, les tripletes <subject, predicate, object> </li></ul>En RDF, un registre matrimonial podria representar-se per: <Event “Event_10”>, <AssignementPredicate ”set”>, <Group “ParentsFamily_20”> <Group “ParentsFamily_20&quot;>, <GenealogicalPredicate ”father”>, <Person &quot;Person_30”> <Group “ParentsFamily_20&quot;>, <GenealogicalPredicate ”mother”>, <Person &quot;Person_31”> <ul><li>Inconvenients : </li><ul><li>Aquests components atòmics ( Event , Group , Person a l'exemple) poden referir-se a instàncies de diferents ontologies
  25. 25. Entre ells s'interposa l' Event , dificultant d'inferir directament els vincles entre les entitats d'interès genealògic ( Person i Group ) </li></ul></ul>
  26. 26. ELS REPTES (III): reconeixement d'identitats (evitar duplicitats) <ul><li>Integrar dades genealògiques comporta haver de conjugar instàncies (entitats, esdeveniments) de diverses fonts i materialitzades en diferents ontologies
  27. 27. Dificultats : </li><ul><li>No disposem d'identificadors unívocs
  28. 28. Tanmateix, alguns atributs que podrien ajudar a la identificació no són completament fiables (per exemple, el nom d'una persona pot aparèixer en diferents formes segons la font)
  29. 29. L'atomització i dispersió de la informació agreuja el problema </li></ul><li>Una opció: la possible aplicació d'algorismes de reconeixement propis de la intel·ligència artificial, combinat amb agents distribuïts supervisant els repositoris de dades </li></ul>
  30. 30. ELS REPTES (IV): arquitectura de servei web <ul><li>L'objectiu és obtenir un sistema obert, escalable, extensible i comprensible pels sistemes d'informació
  31. 31. La tendència previsible és de que les entitats genealògiques facilitin serveis web semàntics, proporcionant una descripció dels seus serveis i del model conceptual mitjançant una ontologia pròpia.
  32. 32. La integració de diferents aplicacions requereix d'una arquitectura i uns llenguatges de modelat comuns, el que es coneix com coreografia de serveis . És el camp dels meta-models, Meta Object Facility (MOF) [7] </li></ul>
  33. 33. La persona: eix central del domini <ul><li>L'estudi genealògic té com a principal objectiu identificar els vincles familiars directes o indirectes entre persones, tot superant les distàncies geogràfiques i temporals
  34. 34. L'entitat Persona es relaciona principalment amb: </li><ul><li>Altres entitats Persona amb les que hi pot haver tingut vincles
  35. 35. Els Esdeveniments , dels que haurem de ressaltar els de caràcter vital (naixement, òbit, matrimoni, etc.)
  36. 36. El Grup : la persona pertanyerà a una família, comunitat religiosa, nacional, cultural, política, etc.
  37. 37. Les Característiques particulars, que en molts casos poden ser decisives en la recerca genealògica: ser l'hereu, tenir propietats, la professió, un càrrec oficial, una característica física, etc. </li></ul></ul>
  38. 38. La persona: nucli del model El triplet (materialitzat en relació ternària): Persona i Entity (persona, esdeveniment, grup o característica) a través d'un Predicate (especificitat de la relació) <subject, predicate, object>
  39. 39. Desplegament en tres ontologies <ul><li>Fets : conjunt extens d'entitats i declaracions que es desprenen de fonts documentals. Possible indicibilitat (per complexitat computacional)
  40. 40. EsdevenimentsPersones : subconjunt de l'ontologia “ Fets ”. Es suprimeixen referencies a les fonts d'informació. Evita la indicibilitat
  41. 41. Recursos : associats a projectes de recerca, fonts documentals i col·laboradors </li></ul>Ontologia “ Fets ” Ontologia “Esdeveniments Persones ” Ontologia “ Recursos ” <includes> <uses>
  42. 42. L'ontologia Fets
  43. 43. L'ontologia EsdevenimentsPersones
  44. 44. L'ontologia Recursos (1/2)
  45. 45. L'ontologia Recursos (2/2)
  46. 46. Conclusions <ul><li>Es presenta un model conceptual coherent i extensible per l'àmbit genealògic, inspirat en el paradigma ontològic
  47. 47. Aquest s'estructura en tres ontologies, Fets , EsdevenimentsPersones i Recursos
  48. 48. EsdevenimentsPersones és un subconjunt de Fets , contenint el coneixement bàsic de l'existència de les persones (relacions entre elles, els esdeveniments i característiques personals). L'objectiu és aconseguir decidibilitat en la inferència de nou coneixement i que l'extracció d'informació es pugui obtenir en temps computacionalment acceptable.
  49. 49. Per tal d'evitar inconsistències entre aquestes dues ontologies es fa necessari preveure un mecanisme d'actualització simultània, que podrien portar a terme agents intel·ligents
  50. 50. De forma implícita, per tant, es pensa en una implementació basada en les tecnologies de l'anomenada web semàntica </li></ul>
  51. 51. Futures línies de treball <ul><li>Formalitzar el model conceptual. Definir les regles pròpies del domini així com les seves restriccions: podem optar per expressar-les en SWRL o amb les extensions que proporciona OWL 2
  52. 52. Estudiar alternatives que mantinguin l'equilibri entre les necessitats expressives i l'obtenció d'un sistema decidible i computacionalment viable
  53. 53. Estudiar algorismes i mètriques pel reconeixement de duplicitats i equivalències entre entitats. Preveure procediments de verificació semiautomàtica (exemple: creació de noves instàncies de Persona )
  54. 54. Raonador semàntic i problemàtica inherent a una lògica distribuïda. Propagació de les actualitzacions i detecció d'inconsistències
  55. 55. Disseny del sistema de serveis integrats amb ontologies distribuïdes. Configuració i rols dels agents, comunicació entre ells i interacció amb l'usuari </li></ul>
  56. 56. Notes bibliogràfiques [1] GEDCOM http://homepages.rootsweb.ancestry.com/%7Epmcbride/gedcom/ [2] Gentech-GDM Reference Model Autor: Stanley Mitchell. Publicació: 2003 http://freepages.history.rootsweb.com/~mitchellsharp/gdmref/gdmref-01.pdf [3] Enabling the Distributed Family Tree Autor: Hilton Campbel. Publicació: Department of Computer Science - BYU . Nov 2006 http://www.dftproject.org/blog/thesis-proposal/ [4] A utomatic extraction from and reasoning about genealogical records Autor: Charla Woodbury. Publicació: Brigham Young University (BYU, Utah – EEUU). Agost 2010 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.167.8352&rep=rep1&type=pdf [5] SWRL: A Semantic Web Rule Language Combining OWL and RuleML Autor: Ian Horrocks i altres. Publicació: W3C Member Submission 21 May 2004 http://www.w3.org/Submission/SWRL/ [6] OWL 2 Web Ontology Language - Profiles Autor: Boris Motik i altres. Publicació: W3C Recommendation 27 October 2009 http://www.w3.org/TR/2009/REC-owl2-profiles/ [7] OMG's MetaObject Facility http://www.omg.org/mof/

×