Proposal for extending new Linked Data rules for the Semantic Web

  • 612 views
Uploaded on

Presentación congreso IWINAC 2011. …

Presentación congreso IWINAC 2011.
versión en español

More in: Technology , Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
612
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
6
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica Especificaciones SHA-2 (oct 2008) http://csrc.nist.gov/publications/fips/fips180-3/fips180-3_final.pdf
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica
  • Consorcio Regional de Transportes de Madrid (CRTM) Area de Innovación Tecnológica

Transcript

  • 1. Rafael Martínez Tomás and Luis Criado-Fernández Proposal for extending new Linked Data rules for the Semantic Web
  • 2. Linked Data. Rules. [1] Four rules 1 Utilizar URIs (Uniform Resource Identifiers) para identificar los recursos publicados en la Web. 2 Usar el protocolo HTTP para nombrar y determinar la localización de los datos identificados con esos URIs. 4 Incluir enlaces a otras URIs para localizar más datos enlazados (linked data). 3 Proporcionar información de un recurso usando RDF.
  • 3. Linked Data. Linked Data
  • 4. Evolución de Linked Data. Linked Data octubre 2007
  • 5. Reflexión 1. Sobre la autoría de los enlaces Reflexiones La forma de producir datos vinculados consiste en utilizar un archivo, un URI que apunta a otro. Se puede utilizar identificadores locales dentro del mismo, de manera que podríamos referirnos a los identificadores #albert, #brian y #carol. Ejemplo: http://example.criado.info/smith#carol Ejemplo extraído de: http://www.w3.org/DesignIssues/LinkedData.htm l
  • 6. Reflexión 1. Sobre la autoría de los enlaces Reflexiones Simplemente con esto tenemos una Web Semántica básica en el sentido de que los datos semánticos están enlazados por el autor de los contenidos.
      • Como reflexión se puede argumentar que este modelo es un reflejo exacto de las páginas web tradicionales , donde los enlaces los deciden y establecen los autores de los contenidos.
      • La arquitectura actual de la WWW proporciona un identificador global &quot;http://example.criado.info/smith#albert&quot; para “Carol”, es decir, cualquiera puede usar este identificador para referirse a “Carol” y dar así más información. Por ejemplo, en el documento <http://example.criado.info/jones> alguien podría escribir:
  • 7. Reflexión 2. Sobre la anotación embebida Reflexiones Actualmente, la tendencia es enfocar la anotación semántica, de manera embebida . Estándares como HTML 5 , RDFa y “XHTML+RDFa 1.1” , apoyan este procedimiento embebido, e implementaciones como Linkator [2], la adopción de ontologías como GoodRelations por Google basado en el uso de “snippet” confirman, sin lugar a dudas, la firmeza de esta propuesta de la W3C. El actor que consume o explota datos con semántica, por ejemplo, un buscador semántico, debe tener la certeza que las anotaciones que procesa son coherentes con el contenido original. Si la anotación es embebida, entonces …….
    • ¿que ocurre si cambia algo en el contenido que afecta a la anotación embebida?
    • ¿qué ocurre si cambia algo en el contenido que no afecta a la anotación embebida?
    Para contestar a estas preguntas hablemos antes de las funciones hash
  • 8. Funciones HASH La funciones hash sirven para garantizar la integridad de los textos El código ASCII asigna un valor numérico a cada letra o símbolo Funciones Hash
  • 9. Funciones Hash Funciones HASH De manera, que podemos substituir cada letra de un texto por su código ASCII Podemos utilizar los códigos ASCII de un texto para hacer cualquier cálculo. Supongamos que establecemos la función Hash siguiente: cada tres caracteres, con sus códigos ASCII, se opera (1º-2º) * 3º
  • 10. Funciones HASH Cambiemos la “W” de la palabra “Web” a minúsculas. El valor HASH ha pasado de -18.746 a -21.978 Funciones Hash
  • 11. Funciones HASH Una función Hash (o función de resumen) es sólo en un sentido. Es decir, a partir de su resultado no se puede obtener el texto. Las funciones Hash deben tener una salida relativamente larga, como mínimo 128 bits, de otra forma sería mas probable que dos textos distintos produzcan el mismo resumen. Los algoritmos más utilizados son:
    • MD5 de 128 bits (16 bytes, 32 dígitos hexadecimal)
    • Familia SHA-2; conocidos como SHA-256 (32 bytes) y SHA-512 (64 bytes)
    La salida de cualquiera de estos algoritmos es fija a la longitud que establece cada uno de ellos, con independencia del tamaño de la entrada. Funciones Hash
  • 12. Reflexión 2. Sobre la anotación embebida Reflexiones Entonces, si utilizamos una función Hash, podemos saber si el contenido de una página web determinada ha cambiado respecto a la situación anterior. Supongamos que hemos anotado formalmente parte del contenido de esa página web y lo hemos insertado en ella misma. La anotación esta autocontenida en la propia página web. Lo que implica que la propia anotación cambia el resultado de la función Hash del contenido a partir del cual se generó. De manera que la anotación no puede referirse mediante un hash al contenido al que se refiere. Dicho de otra manera. Cuando un buscador semántico explote esta páqina web, extraerá anotaciones semánticas que no garantizan la coherencia con el contenido que representa. Como reflexión, la anotación embebida presenta el inconveniente de no poder garantizar la coherencia entre el contenido y lo que formalmente se ha expresado en RDFa . En consecuencia parece poco acertado plantear la evolución de la Web Semántica en un modelo tan débil en este aspecto de la inconsistencia.
  • 13. Reflexión 3. Sobre la frecuencia de generación o actualización de datos semánticos. Reflexiones Los datos semánticos no deben ser obsoletos respecto al contenido de la Web actual.
    • Por ejemplo, la penúltima versión de DBpedia, en el momento de redactar el artículo para IWINAC 2011 ( enero 2011), era DBpedia 3.5 que formaliza datos de la Wikipedia hasta marzo de 2010 y ha estado activa hasta la primera quincena de enero 2011 ( aproximadamente 10 meses de desfase respecto a la Wikipedia ) y la versión DBpedia 3.6 se lanza en la segunda quincena de enero del 2011 e incorpora los datos hasta Noviembre 2010. A 30 de mayo continua vigente esta versión, es decir, casi 6 meses de desfase
    Una Web Semántica tan desactualizada con respecto a la Web actual, no puede competir con la Web actual Los datos semánticos, deben generarse lo antes posible, idealmente al mismo tiempo que el contenido, de forma, que esto nos lleva a cuestionar quién debe generar los datos semánticos.
  • 14. Reflexión 3. Sobre la frecuencia de generación o actualización de datos semánticos. Reflexiones Los datos semánticos, deben generarse lo antes posible, idealmente al mismo tiempo que el contenido, de forma, que esto nos lleva a cuestionar quién debe generar los datos semánticos. Reflexión 2. Sobre la anotación embebida Reflexión 1. Sobre la autoría de los enlaces
      • Los enlaces los deciden y establecen los autores de los contenidos.
    La anotación embebida no poder garantizar la coherencia entre el contenido y lo que formalmente se ha expresado
  • 15. Ampliación reglas Propuesta de nuevas reglas de Linked Data Regla 5: La anotación semántica debe garantizar la coherencia entre el contenido y anotación con la mayor frecuencia posible de actualización. (reflexión 2 y 3) Una forma sencilla de hacer esto es disponer de un mecanismo de generación de URIs basadas en funciones hash derivadas de la página HTML sobre la que se desea anotar formalmente su contenido. Regla 6: Impulsar el enlazado no explicito o dinámico de datos, el enlazado ABOX-TBOX. (reflexión 1) En un entorno donde es posible representar formalmente los datos y donde los datos se clasifican en conceptos (clases) que se definen por unas características (propiedades) y por las relaciones de todos estos elementos (restricciones), es posible el auto-enlazado de algunos datos semánticos en su explotación, en concreto el enlazado entre instancias y clases (ABOX-TBOX), dejando el enlazado entre instancias (ABOX-ABOX) al propio autor del contenido (regla 4). La regla 6 es complementaria a la regla 4, incluso podría verse como un matiz de ampliación a la regla 4.
  • 16. Ampliación reglas Propuesta de nuevas reglas de Linked Data Veamos con un ejemplo, el significado de estas reglas 1 2 4 3 Supongamos que de una página web “Mascotas”[1] anotamos formalmente que “bengala” es un “gato”. La anotación se realiza en base a una ontología llamada “Vertebrados”. [1] http://www.mascotas.org/tag/el-gato-bengala [2] http://www.criado.info/owl/vertebrados_es.owl
      • Para cumplir con la regla 5, aplicamos la función hash MD5 y obtenemos: a509d1fdbeba807da648b83d45fd8903.
    Realizamos una anotación en OWL no embebida
  • 17. Ampliación reglas Propuesta de nuevas reglas de Linked Data row 01: <rdf:RDF row 02: xmlns:j.0=&quot;http://www.criado.info/owl/vertebrados_es.owl#&quot; row 03: xmlns:protege=&quot;http://protege.stanford.edu/plugins/owl/protege#&quot; row 04: xmlns:rdf=&quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#&quot; row 05: xmlns:xsd=&quot;http://www.w3.org/2001/XMLSchema#&quot; row 06: xmlns:rdfs=&quot;http://www.w3.org/2000/01/rdf-schema#&quot; row 07: xmlns:owl=&quot;http://www.w3.org/2002/07/owl#&quot; row 08: xmlns=&quot;http://www.mascotas.org/tag/el-gato-bengala#&quot; row 09: xml:base=&quot;http://example.criado.info/a509d1fdbeba807da648b83d45fd8903.owl&quot;> row 10: <owl:Ontology rdf:about=&quot;&quot;> row 11: <owl:imports rdf:resource=&quot;http://www.criado.info/owl/vertebrados_es.owl#&quot;/> row 12: </owl:Ontology> row 13: <j.0:gato rdf:ID=&quot; bengala &quot;/> row 14: <owl:AllDifferent> row 15: <owl:distinctMembers rdf:parseType=&quot;Collection&quot;> row 16: < gato rdf:about=&quot;#bengala&quot;/> row 17: </owl:distinctMembers> row 18: </owl:AllDifferent> row 19: </rdf:RDF> regla 1: row 09 regla 5: row 09, MD5 derivado de la página row 8 regla 2: row 08
  • 18. Ampliación reglas Propuesta de nuevas reglas de Linked Data Para continuar con el ejemplo, necesitamos otro fichero similar para mostrar el enlazado de datos de tipo ABOX-TBOX row 01: <rdf:RDF row 02: xmlns:j.0=&quot;http://www.criado.info/owl/vertebrados_es.owl#&quot; row 03: xmlns:protege=&quot;http://protege.stanford.edu/plugins/owl/protege#&quot; row 04: xmlns:rdf=&quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#&quot; row 05: xmlns:xsd=&quot;http://www.w3.org/2001/XMLSchema#&quot; row 06: xmlns:rdfs=&quot;http://www.w3.org/2000/01/rdf-schema#&quot; row 07: xmlns:owl=&quot;http://www.w3.org/2002/07/owl#&quot; row 08: xmlns=&quot;http://mascotas.facilisimo.com/reportajes/gatos/razas-de-gatos/korat-el-gato-de-la-buena-suerte_185682.html#&quot; row 09: xml:base=&quot;http://example.criado.info/f83b88b700dd7389b31887f34a4dde7d.owl&quot;> row 10: <owl:Ontology rdf:about=&quot;&quot;> row 11: <owl:imports rdf:resource=&quot;http://www.criado.info/owl/vertebrados_es.owl#&quot;/> row 12: </owl:Ontology> row 13: <j.0:gato rdf:ID=&quot; korat &quot;/> row 14: <owl:AllDifferent> row 15: <owl:distinctMembers rdf:parseType=&quot;Collection&quot;> row 16: < gato rdf:about=&quot;#korat&quot;/> row 17: </owl:distinctMembers> row 18: </owl:AllDifferent> row 19: </rdf:RDF>
  • 19. Ampliación reglas Propuesta de nuevas reglas de Linked Data Con ambos ficheros, podríamos ejecutar la consulta SPARQL siguiente: Obteniendo las razas de gatos de dos sitios web distintos que no han establecido ningún enlace de datos semánticos explícitos, pero que un tercero (en este ejemplo, nosotros) al explotarlo hemos enlazado los ABOX-TBOX. De manera que con algo así se cumple la regla 6. Y por supuesto la regla 3.
  • 20. Conclusiones En esta ponencia: Hemos reflexionado sobre problemas en torno a los conceptos de Linked Data y de la Web Semántica. En consecuencia, se identifica que: 1 2 3 Se debe buscar la inmediatez en la anotación semántica . Se requiere mecanismos que garanticen la coherencia entre la anotación semántica y el contenido que representa . Es posible que los enlaces no sólo lo decidan los autores sino también terceros. Una posible solución Es adoptar una estrategia de anotación NO EMBEBIDA
  • 21. Referencias [1] Christian Bizer, Tom Heath and Tim Berners-Lee (2009) Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems, Vol. 5(3), pp 1-22. DOI: 10.4018/jswis.2009081901 [2] S. Araujo, G.J. Houben, and D. Schwabe. Linkator: Enriching Web Pages by Automatically Adding Dereferenceable Semantic Annotations. B. Benatallah et al. (Eds.): ICWE 2010, LNCS 6189, pp. 355–369, 2010. Springer-Verlag Berlin Heidelberg 2010 [3] L. Criado. Tesis doctoral, Procedimiento semi-automático para transformar la Web en Web Semántica, dirigida por el Dr. Rafael Martinez Tomás. Universidad Nacional de Educación a Distancia. Escuela Técnica Superior de Ingeniería Informática. Madrid, España. 2009. on line http://e-spacio.uned.es/fez/view.php?pid=tesisuned:IngInf-Lcriado [4] Martin Hepp. GoodRelations: An Ontology for Describing Products and Services Offers on the Web, Proceedings of the 16th International Conference on Knowledge Engineering and Knowledge Management (EKAW2008), Acitrezza, Italy, September 29 - October 3, 2008, Springer LNCS, Vol 5268, pp. 332-347. [5] R. Isele, J. Umbrich, C. Bizer, and A. Harth. LDSpider: An open-source crawling framework for the Web of Linked Data. Poster at the International Semantic Web Conference (ISWC2010), Shanghai, November, 2010. on line http:// www.wiwiss.fu - berlin.de /en/ institute /pwo/ bizer / research / publications / IseleHarthUmbrichBizer - LDspider - Poster -ISWC2010. pdf [iwinac] Luis Criado, Rafael Martínez-Tomás. The Problem of Constructing General-Purpose Semantic Search Engines. 3th Internacional Work-Conference on the Interplay between Natural and Artificial Computation (IWINAC), Santiago de Compostela, 22-26/06/2009. Published in Lecture Notes on Computer Science, vol 5601, 366-374, Springer, 2009.