Charla Biblioteca Nacional, 24 de julio de 2014

522 views

Published on

Presentación realizada en Salón Ercilla de la Biblioteca Nacional, Santiago, 24 de julio de 2014

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
522
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Charla Biblioteca Nacional, 24 de julio de 2014

  1. 1. Conceptos de datos abiertos, datos enlazados y ontologías 24 de julio de 2014 Christian Sifaqui
  2. 2. Introducción Estamos en el año 2014 Celulares, computadores… Web, internet… Mucha información está disponible…
  3. 3. Introducción Web Repleta de información Orientada al ser humano: para comprender el contenido de una página para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  4. 4. Introducción Si quiero saber algo (y estoy solito)... wikipedia algún blog algún foro ¿Calidad de la información? ¿es confiable? ¿Licencia de la información? ¿es reutilizable?
  5. 5. Introducción Originalmente la web fue creada para compartir “documentos”
  6. 6. Introducción Estándares: Documento  “Bolsa” de palabras Links entre documentos Palabras y enlaces como el centro del universo Lenguajes y protocolos: HTML y HTTP
  7. 7. Introducción Web Buscadores actuales funcionan bien, pero orientados al keyword Análisis de palabras y textos Análisis de los enlaces ¿y la semántica? Ejemplo: “diputados o senadores cuyos hermanos hayan sido jueces”
  8. 8. Introducción Lo que “entiende” Lo que “entiende” un programa un ser humano
  9. 9. Introducción Un problema es la heterogeneidad de la información incluso en las diferentes capas • Codificación (ASCII, UNICODE, etc.) • Lenguaje natural utilizado • Disposición de la información en la página web
  10. 10. Introducción Soluciones • ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  11. 11. Introducción Estándares Grafos Árboles
  12. 12. Introducción Tablas Árboles Grafos --------------------- ------------- ------------- BD relacional XML RDF SQL XQUERY SPARQL
  13. 13. Introducción Datos abiertos (open data) es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo
  14. 14. Introducción Datos enlazados (linked data): es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  15. 15. Introducción Modelo web clásica Use HTTP Use URI Use HTML Navegue y siga links Buscador: proveedor lo hace por usted
  16. 16. Introducción Modelo datos abiertos Publique datos en formatos estándares para que sean asequibles Indique licencias Y nada más
  17. 17. Introducción Modelo datos enlazados Use URIs para expresar “cosas” Use HTTP URIs para que estas “cosas” puedan ser referenciadas por personas y programas Proporcione información útil acerca de la “cosa” (cuando se acceda a la URI) usando estándares como RDF o SPARQL Incluya enlaces a otras “cosas” (usando sus URIs)
  18. 18. Introducción ★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta ★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada ★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel ★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas ★★★★★ enlace sus datos a otros datos para proveer contexto Esquema de las 5 estrellas
  19. 19. Ejemplos Buenos ejemplos: http://datos.gob.cl (septiembre 2011) http://datos.bcn.cl (mayo 2011) http://data.worldbank.org/ (abril 2010) http://data.gov.uk/ (enero 2010) http://www.data.gov/ (mayo 2009)
  20. 20. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014) No hay licencia explícita No hay manuales Usa diversas variedades de tecnologías (algunas ya arcaicas) No hay posibilidad de contacto Estamos en Chile… ¿porqué “opendata”?
  21. 21. Algunos detalles Pero la web originalmente fue concebida para documentos… ¿cómo llegar a una web de datos?
  22. 22. Algunos detalles Algunos caminos: Agregar metadatos a los documentos, y que estos metadatos estén en el modelo de datos enlazados, o Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u Otra manera
  23. 23. Algunos detalles Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente Ejemplo: El <Río>Mapocho</Río> es el principal curso de agua de <Ciudad>Santiago</Ciudad>.
  24. 24. Algunos detalles Una forma de lograr lo anterior es mediante la “representación del conocimiento”
  25. 25. Algunos detalles Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias Ontología: define los objetos, que existen en un dominio particular Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real
  26. 26. Algunos detalles Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente
  27. 27. Algunos detalles Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos
  28. 28. StringString Artista Obra EsculturaEscultor Pintor Cuadro Técnica Museo Cubista Flamenca StringString StringString StringString StringString nombre nombre nombre utiliza pintado_por pinta talla tallado_por producida_por produce expuesta_en nombre apellido
  29. 29. Algunos detalles Conceptos, clases Tipos Instancias Relaciones Herencia Axiomas
  30. 30. PabloPablo Garçon à la pipeGarçon à la pipe PicassoPicasso utiliza talla pinta nombre apellido Óleo sobre lienzoÓleo sobre lienzonombre TizianoTiziano VecelliVecelli nombre apellido pinta Fuga in EgittoFuga in Egitto nombre Miguel ÁngelMiguel Ángel BuonarrotiBuonarroti nombre apellido Museo del HermitageMuseo del Hermitage Joven en cuclillasJoven en cuclillas nombre expuesta_en expuesta_en nombre Pintor:I1 nombre Cuadro:I2 Pintor:I4 Escultor:I7 Técnica:I3 Cuadro:I5 Museo:I6 Escultura:I8 utiliza
  31. 31. Algunos detalles Lenguajes para ontologías: RDF-Schema (extiende RDF con un vocabulario de esquema y permite inferencias) OWL (añade mayor expresividad) DAML+OIL Topic Maps F-Logic WSML KIF …
  32. 32. Algunos detalles RDF Resource Description Framework (1998) Descripción de recursos Recurso = identificado por una URI Se basa en tripletas Sujeto  Predicado Objeto
  33. 33. Algunos detalles Tripletas RDF Sujeto •URI •Nodo anónimo Sujeto •URI •Nodo anónimo Predicado •URI Predicado •URI Objeto •URI •Literal •Nodo anónimo Objeto •URI •Literal •Nodo anónimo Un colegioUn colegio Tiene como nombre/etiqueta Tiene como nombre/etiqueta Un literalUn literal
  34. 34. Algunos detalles Tripletas RDF Un colegioUn colegio Tiene como nombre/etiqueta Tiene como nombre/etiqueta Un literalUn literal
  35. 35. Algunos detalles Tripletas RDF Un colegioUn colegio Tiene como nombre/etiqueta Tiene como nombre/etiqueta Un literalUn literal http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School”
  36. 36. Algunos detalles Tripletas RDF Un colegioUn colegio Tiene como nombre/etiqueta Tiene como nombre/etiqueta Un literalUn literal http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School” http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 http://www.w3.org /2000/01/rdf- schema#label http://www.w3.org /2000/01/rdf- schema#label “Cardiff High School” “Cardiff High School”
  37. 37. Aplicación LeyChile, liberado en 2008 Idea: añadirle Datos abiertos enlazados (linked open data) - http://dl.acm.org/citation.cfm?id=2063529 - h ttp://conference.ifla.org/conference/past/ifla78/21
  38. 38. Aplicación Paso 1: Use URIs para expresar “cosas” ¿Cómo definir estas URIs? Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000 ¿Decretos? Se requiere: número, fecha y organismo Decreto 341 del 11 de noviembre de 2008 del Ministerio de Educación http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/3
  39. 39. Aplicación Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial
  40. 40. Aplicación Paso 3: Recurso http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 Versión original http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07 Última versión
  41. 41. Aplicación Ontología
  42. 42. Aplicación Paso 4: Relaciones a otros datasets: países (tratados internacionales) DBPedia, Geonames Reutilizar vocabularios/ontologías SKOS, DC, FOAF, DBPedia, ORG
  43. 43. PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) } ORDER BY (?pubDate) PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) } ORDER BY (?pubDate) Aplicación Consulta compleja usando SPARQL Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005
  44. 44. Aplicación Visualizaciones
  45. 45. Aplicación Visualizaciones
  46. 46. Aplicación Reseñas biográficas
  47. 47. Aplicación Reseñas biográficas
  48. 48. Aplicación http://datos.bcn.cl/recurso/persona/2376
  49. 49. Aplicación Visualizaciones
  50. 50. Aplicación Visualizaciones
  51. 51. Bibliotecas Kungliga biblioteket https://github.com/libris/librisxl/ Library of Congress British Library Bibliothèque nationale de France Deutsche Nationalbibliothek Biblioteca Nacional de España
  52. 52. Bibliotecas Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned. Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.
  53. 53. Bibliotecas Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico
  54. 54. Bibliotecas Oferta de acervo desde el punto de vista literario Sarah Bartlett, 2010Sarah Bartlett, 2010
  55. 55. Bibliotecas Pablo Neruda http://datos.bcn.cl/recurso/persona/2559 http://id.worldcat.org/fast/34660 http://dbpedia.org/page/Pablo_Neruda https://www.freebase.com/m/066c_ http://viaf.org/viaf/95126958/ http://d-nb.info/gnd/118587005 http://www.idref.fr/027337960
  56. 56. Finalmente Dos mundos • Mundo de documentos  para el ser humano • Mundo de datos  para las máquinas
  57. 57. ¿Futuro? Documentos • OCR • aplicación de algoritmos Named-entity Recognition • Enlaces a ontologías • Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria
  58. 58. Referencias http://users.dcc.uchile.cl/~cgutierr/sw/ http://manzanamecanica.org/2014/07/open_data_en_el_congres o_chileno_lo_bueno_lo_malo_y_lo_feo.html http://de.wikipedia.org/wiki/Ontologie_(Informatik) http://www.slideshare.net/der42 http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

×