Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Detrás de un gran dataset siempre hay un gran vocabulario

1,009 views

Published on

Qué son las ontologías y cómo desarrollarlas (guía 101).

Published in: Engineering

Detrás de un gran dataset siempre hay un gran vocabulario

  1. 1. Detrás de un gran dataset siempre hay un gran vocabulario María Poveda Villalón mpoveda@fi.upm.es ETSI Informaticos Universidad Politécnica de Madrid Campus de Montegancedo s/n 28660 Boadilla del Monte, Madrid, Spain Twitter: @MariaPovedaV 7 Mayo 2016, Madrid Jornadas Periodismo de Datos
  2. 2. Context – Ontology Engineering Group / ODI Madrid Directors: A. Gómez-Pérez, O. Corcho Position: 8th in the UPM ranking (200 groups) Founded: 1994 Ø ResearchGroup (30 people) Ø Experience on 1. Ontologies, Semantic Web, Linked Open Data 2. Semantic E-science 3. Multilingualism Ø ODI Madrid : Madrid Node of the Open Data Institute Ø Projects § 27 EU projects (7 as coordinator) § 54 National Projects § 27 contracts with companies Ø Standardization activities § >25 @ W3C, ISO, OASIS, etc. Ø Impact of publications H-index (scholar) § Asunción Gómez-Pérez (h:50, citations 14852) § Oscar Corcho García (h: 36, citations 8152) Ø Services to the Spanish community § esDbpedia § linkeddata.es § vocab.linkeddata.es http://www.oeg-upm.net/ https://github.com/oeg-upm @oeg-upm 170+ Past Collaborators 50+ Past Visitors Transparencia de “Open Data” by A. Gómez-Pérez” 2
  3. 3. License • This work is licensed under the Creative Commons Attribution – Non Commercial – Share Alike License • You are free: • to Share — to copy, distribute and transmit the work • to Remix — to adapt the work • Under the following conditions • Attribution — You must attribute the work by inserting • “[source http://www.oeg-upm.net/]” at the footer of each reused slide • a credits slide stating: “Detrás de un gran dataset siempre hay un gran vocabulario” by M. Poveda Villalón” • Non-commercial • Share-Alike 3
  4. 4. Vocabularios ¿Por qué? 4
  5. 5. ¿Quién cumple años? Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5
  6. 6. ¿Quién cumple años? Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5 de Noviembre 2015 6
  7. 7. Pista 1 London 7
  8. 8. ¿Quién cumple años? Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5 de Noviembre 2015 8
  9. 9. ¿Quién cumple años? Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5 de Noviembre 2015 ¡Feliz cumpleaños Oliver! 9
  10. 10. Pista 2 10
  11. 11. ¿Quién cumple años? Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5 de Noviembre 2015 11
  12. 12. ¿Quién cumple años? Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5 de Noviembre 2015 ¡Feliz cumpleaños Linda! 12
  13. 13. Describiendo los datos Linda nació el 11/05/1983 Oliver nació el 05/11/1986 5 de Noviembre 2015 U.K date format DD/MM/YYYY U.S. date format MM/DD/YYYY 13
  14. 14. Describiendo los datos Linda nació el 11/05/1983 Oliver nació el 05/11/1986 U.K date format DD/MM/YYYY U.S. date format MM/DD/YYYY ¡Feliz cumpleaños Linda y Oliver! 5 de Noviembre 2015 14
  15. 15. Describir los datos de forma precisa previene errores durante su integración o reutilización 15
  16. 16. No es una simple anotación Puedes seguir describiendo Linda nació el 11/05/1983 Oliver nació el 05/11/1986 U.K date format DD / MM / YYYY U.S. date format MM MM / DD / YYYY DDYYYY MM ISO 8601 16
  17. 17. No es una simple anotación Puedes seguir describiendo Linda nació el 11/05/1983 Oliver nació el 05/11/1986 U.K date format DD / MM / YYYY U.S. date format MM MM / DD / YYYY DDYYYY MM ISO 8601 17
  18. 18. No es una simple anotación Puedes seguir describiendo Linda nació el 11/05/1983 Oliver nació el 05/11/1986 U.K date format DD / MM / YYYY U.S. date format MM MM / DD / YYYY DDYYYY MM ISO 8601 18
  19. 19. Datos reales sin descripción 19
  20. 20. Además • Proporcionar semántica / contexto • Facilita la reutilización • Facilita la integración de datos • Distintos formatos, fuentes, esquemas, idiomas… • Desambiguación, prevención de errores • Facilita el mantenimiento de los datos • Razonamiento, inferencia • Mecanismo utilizado en la web de datos enlazados 20
  21. 21. La web 21 INEAEMET Datos expuestos en la Web via HTML
  22. 22. La web 22 INEAEMET Datos expuestos en la Web via HTML ¿Municipios con menor población en los que más nieva?
  23. 23. Publicando datos enlazdos 23 INE AEMET Municipio Medición N Medicion Medicion Medición1 Cota de nieve Pobación medido en tiene poblaciónpropiedad
  24. 24. Datos enlazados • El término Datos Enlazados se refiere a un conjunto de buenas prácticas para la publicación y conexión estructurada de datos en la web. • Princpiales tecnologías : • URIs: para identificar conceptos y recursos • HTTP: protocolo universal para recuperar información sobre recursos en la web • RDF: modelo de datos para describir recursos 24 http://linkeddata.org Sujeto Objetopredicado
  25. 25. Vocabularios ¿Qué? 25
  26. 26. Los Vocabularios definen los conceptos y las relaciones utilizadas para describir y representar un área de interés. Definición adaptada de: http://www.w3.org/standards/semanticweb/ontology Vocabularios (ontologías) 26
  27. 27. Ontologías: Conocimientos y Datos Ontología Instancias Nivel de Conocimientos Conceptos Taxonomías Relaciones Atributos Axiomas Nivel de Datos Instancias de conceptos Instancias de relaciones Transparencia de “Vocabularios” by A. Gómez-Pérez” 27
  28. 28. FOAF - Una parte del modelo Extracto del modelo de FOAF foaf:Person foaf:Document foaf:knows foaf:Imagefoaf:publications - foaf:firstName - foaf:surname owl:Thing foaf:mbox foaf:Agent foaf:Group foaf:Organization - foaf:familyname wgs_84:SpatialThing foaf:based_near foaf:homepage foaf:img foaf:depiction 28
  29. 29. FOAF- modelo e instancias oeg:Asun foaf:Person foaf:Document foaf:knows foaf:Imagefoaf:publications - foaf:firstName - foaf:surname owl:Thing foaf:mbox foaf:Agent foaf:Group foaf:Organization - foaf:familyname wgs_84:SpatialThing foaf:based_near foaf:homepage foaf:img oeg:MCfoaf:knows asun@fi.upm.es foaf:mbox http://oeg-upm.net/ foaf:homepage foaf:depiction http://.../people/asun_oeg.png foaf:img http://www.springer.com/.../978-3-642-24793 foaf:publications foaf:publications foaf:firstName foaf:surname foaf:firstName foaf:surname “Mari Carmen” “Suárez de Figueroa” “Asunción” “Gómez-Pérez” http://springer.com/…/images/NeOnBook.tif foaf:depiction instanceOf instanceOf instanceOf instanceOf instanceOf instanceOf instanceOf 29
  30. 30. Vocabularios ¿Cómo? 30
  31. 31. Extracción de requisitos Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction 31 Document
  32. 32. • Buscadores • Vocabularios populares o Sensores: SSN o Estadística: datacube, scovo, etc o Geo: wsg_84, geonames, etc Búsqueda de vocabularios Linked Open Vocabularies Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction 32 Document
  33. 33. Vocabularios del OEG 33 http://vocab.linkeddata.es/ http://vocab.linkeddata.es/datosabiertos/
  34. 34. Selección • Algunos criterios de la metodología NeOn: o Documentación o Facilidad de integración § Lenguaje de implementación § Mantenibilidad de la consistencia § Razonamiento § Necesidad de términos “puente” o Fiabilidad § Decisiones de diseño § Disponibilidad de tests § Evaluación § Reputación del proveedor § Popularidad • Disponibilidad on-line • Utilización en Datos Enlazados • Reutilización en otros vocabularios • Reutilización en data sets • Enlaces a otros vocabularios Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction 34 Document
  35. 35. Integración • Entornos de edición de vocabularios • Distinción entre • Ontologías conectadas • Red de ontologías Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction 35 Document
  36. 36. ssn:Property DUL:Quality time:DateTimedescription ssn:Sensor ssn:Observation DUL:Situation aemet:Province ssn:featureOfInterest ssn:hasProperty ssn:FeatureOfInterest ssn:onPlatform ssn:Platform wsg84_pos:SpatialThing - alt - long - lat ¿Cubre el vocabulario los datos? Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction ¿Relaciones entre conceptos? ¿Propiedades específicas? 36 Document
  37. 37. aemet:EnvironmentalProperty ssn:Property DUL:Quality time:DateTimedescription ssn:Sensor aemet:HumidityEnvironmentalProperty aemet:PrecipitationEnvironmentalProperty aemet:PressureEnvironmentalProperty aemet:RadiationEnvironmentalProperty aemet:TemperatureEnvironmentalProperty aemet:WindEnvironmentalProperty ssn:Observation DUL:Situation aemet:Province aemet:coordinatesLocation aemet:captures / aemet:isCapturedBy aemet:observedInInterval ssn:featureOfInterest ssn:hasProperty aemet:locatedInProvince ssn:FeatureOfInterest ssn:onPlatform aemet:WeatherStation ssn:Platform wsg84_pos:SpatialThing - alt - long - lat Completar el modelo Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction 37 Document
  38. 38. Evaluación Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction • Entorno de desarrollo • Razonor: • Pellet • Fact • Hermit • etc + Buscar errores comunes en vocabularios Identificar inconsistencias lógicas http://oops.linkeddata.es 38 Document
  39. 39. Evaluación Can you represent all your data? Yes No Evaluate Use & Publish New data? Select Integrate Complete Search Data-driven approach Data BBDD .text … sensors Term extraction 39 Document https://github.com/dgarijo/Widoco/ http://aemet.linkeddata.es/ontology/
  40. 40. Vocabularios ¿Ejemplos? 40
  41. 41. http://aemet.linkeddata.es (pasado) 41
  42. 42. datos.bne.es 42 Person (bne:C1005) Work (bne:C1001) Expression (bne:C1002) Manifestation (bne:C1003) Item (bne:C1004) creator of (OP5001) realized through (OP1002) realization of (OP2002) materialized in (OP2001) materialization of (OP3002) exemplified by (OP3001) exemplar of (OP4001) created by (OP1005) is subject (OP1007) has subject (OP1006) Work (bne:C1001) Concept (skos:Concept) has subject (OP1010) has subject (OP3008) is subject (OP5003) has subject (OP1008)
  43. 43. Otros ejemplos 43
  44. 44. Vocabularios Para terminar 44
  45. 45. Conclusiones • No sólo de datos vive el hombre 45
  46. 46. Conclusiones • No sólo de datos vive el hombre • Describir datos mediante vocabularios consensuados Datos Información Conoci- miento 46
  47. 47. Conclusiones • No sólo de datos vive el hombre • Describir datos mediante vocabularios consensuados • ¡Publica y documenta los vocabularios! Datos Información Conoci- miento 47
  48. 48. Gracias ¡Pregunta! 48
  49. 49. Detrás de un gran dataset siempre hay un gran vocabulario María Poveda Villalón mpoveda@fi.upm.es ETSI Informaticos Universidad Politécnica de Madrid Campus de Montegancedo s/n 28660 Boadilla del Monte, Madrid, Spain Twitter: @MariaPovedaV 7 Mayo 2016, Madrid Jornadas Periodismo de Datos

×