Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

657 views

Published on

Presentación realizada para la 9a Jornada de Usuarios Ex-Libris, Universidad Gabriela Mistral, 1 de octubre de 2014

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

  1. 1. De documentos a datos 9ª jornada de usuarios Ex-Libris 2014 30 de septiembre de 2014 Christian Sifaqui
  2. 2. Introducción Algunos conceptos
  3. 3. Introducción Web Repleta de información Orientada al ser humano: para comprender el contenido de una página para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  4. 4. Introducción Originalmente la web fue creada para compartir “documentos”
  5. 5. Introducción Estándares: Documento  “Bolsa” de palabras Links entre documentos Palabras y enlaces como el centro del universo Lenguajes y protocolos: HTML y HTTP
  6. 6. Introducción Lo que “entiende” Lo que “entiende” un programa un ser humano
  7. 7. Introducción Web Buscadores actuales funcionan bien, pero orientados al keyword Análisis de palabras y textos Análisis de los enlaces ¿y la semántica? Ejemplo: “diputados o senadores cuyos hermanos hayan sido jueces”
  8. 8. Introducción Soluciones • ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  9. 9. Introducción Estándares
  10. 10. Introducción Estándares Grafos Árboles
  11. 11. Introducción Tablas Árboles Grafos --------------------- ------------- ------------- BD relacional XML RDF SQL XQUERY SPARQL
  12. 12. Introducción Datos abiertos (open data) es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo
  13. 13. Introducción Datos enlazados (linked data): es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  14. 14. Introducción Modelo web clásica Use HTTP Use URI Use HTML Navegue y siga links Buscador: proveedor lo hace por usted
  15. 15. Introducción Modelo datos abiertos Publique datos en formatos estándares para que sean asequibles Indique licencias Y nada más
  16. 16. Introducción Modelo datos enlazados Use URIs para expresar “cosas” Use HTTP URIs para que estas “cosas” puedan ser referenciadas por personas y programas Proporcione información útil acerca de la “cosa” (cuando se acceda a la URI) usando estándares como RDF o SPARQL Incluya enlaces a otras “cosas” (usando sus URIs)
  17. 17. Introducción Esquema de las 5 estrellas ★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta ★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada ★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel ★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas ★★★★★ enlace sus datos a otros datos para proveer contexto
  18. 18. Ejemplos Buenos ejemplos: http://datos.gob.cl (septiembre 2011) http://datos.bcn.cl (mayo 2011) http://data.worldbank.org/ (abril 2010) http://data.gov.uk/ (enero 2010) http://www.data.gov/ (mayo 2009)
  19. 19. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014)
  20. 20. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014) No hay licencia explícita No hay manuales Usa diversas variedades de tecnologías (algunas ya arcaicas) No hay posibilidad de contacto Estamos en Chile… ¿porqué “opendata”?
  21. 21. Algunos detalles Pero la web originalmente fue concebida para documentos… ¿cómo llegar a una web de datos?
  22. 22. Algunos detalles Algunos caminos: Agregar metadatos a los documentos, y que estos metadatos estén en el modelo de datos enlazados, o Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u Otra manera
  23. 23. Algunos detalles Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente Ejemplo: El <Río>Mapocho</Río> es el principal curso de agua de <Ciudad>Santiago</Ciudad>.
  24. 24. Algunos detalles Una forma de lograr lo anterior es mediante la “representación del conocimiento”
  25. 25. Algunos detalles Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias Ontología: define los objetos, que existen en un dominio particular Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real
  26. 26. Algunos detalles Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente
  27. 27. Algunos detalles Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos
  28. 28. SStrtriningg Artista Obra produce producida_por talla Escultor Escultura tallado_por pinta Pintor Cuadro Técnica Museo Cubista Flamenca SStrtriningg SStrtriningg SStrtriningg SStrtriningg nombre nombre nombre utiliza pintado_por expuesta_en nombre apellido
  29. 29. Algunos detalles Conceptos, clases Tipos Instancias Relaciones Herencia Axiomas
  30. 30. PPaabblolo GGaarrççoonn à à l ala p pipipee pinta PPicicaassssoo utiliza talla nombre apellido nombre ÓÓleleoo s soobbrree l ileiennzzoo TTiziziaiannoo VVeecceelllili nombre apellido utiliza pinta FFuuggaa i nin E Eggitittoto nombre MMigiguueel lÁ Ánnggeell BBuuoonnaarrrrootit i nombre apellido MMuusseeoo d deel lH Heerrmmitiataggee JJoovveenn e enn c cuucclillillalass expuesta_en nombre expuesta_en nombre Pintor:I1 nombre Cuadro:I2 Pintor:I4 Escultor:I7 Técnica:I3 Cuadro:I5 Museo:I6 Escultura:I8
  31. 31. Algunos detalles Lenguajes para ontologías: RDF-Schema (extiende RDF con un vocabulario de esquema y permite inferencias) OWL (añade mayor expresividad) DAML+OIL Topic Maps F-Logic WSML KIF …
  32. 32. Algunos detalles RDF Resource Description Framework (1998) Descripción de recursos Recurso = identificado por una URI Se basa en tripletas Sujeto  Predicado Objeto
  33. 33. Algunos detalles Tripletas RDF Sujeto •URI •Nodo anónimo Sujeto •URI •Nodo anónimo Predicado •URI Predicado •URI Objeto •URI •Literal •Nodo anónimo Objeto •URI •Literal •Nodo anónimo UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l
  34. 34. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l
  35. 35. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School”
  36. 36. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School” http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 http://www.w3.org /2000/01/rdf-schema# http://www.w3.org /2000/01/rdf-schema# label label “Cardiff High School” “Cardiff High School”
  37. 37. Ejemplo LeyChile, liberado en 2008 Idea: añadirle datos abiertos enlazados (linked open data) - http://dl.acm.org/citation.cfm?id=2063529 - h ttp://conference.ifla.org/conference/past/ifla78/214-
  38. 38. Ejemplo Paso 1: Use URIs para expresar “cosas” ¿Cómo definir estas URIs? Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000 ¿Decretos? Se requiere: número, fecha y organismo Decreto 341 del 11 de noviembre de 2008 del Ministerio de Educación http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
  39. 39. Ejemplo Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial
  40. 40. Ejemplo Paso 3: Recurso http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 Versión original http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07 Última versión http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20
  41. 41. Ejemplo Ontología
  42. 42. Ejemplo Paso 4: Relaciones a otros datasets: países (tratados internacionales) DBPedia, Geonames Reutilizar vocabularios/ontologías SKOS, DC, FOAF, DBPedia, ORG
  43. 43. Ejemplo Consulta compleja usando SPARQL Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) } ORDER BY (?pubDate) } ORDER BY (?pubDate)
  44. 44. Ejemplo Visualizaciones
  45. 45. Ejemplo Visualizaciones
  46. 46. Ejemplo (si hay tiempo) Reseñas biográficas
  47. 47. Ejemplo (si hay tiempo) Reseñas biográficas
  48. 48. Ejemplo (si hay tiempo) http://datos.bcn.cl/recurso/persona/2376
  49. 49. Ejemplo (si hay tiempo) Visualizaciones
  50. 50. Ejemplo (si hay tiempo) Visualizaciones
  51. 51. Bibliotecas Kungliga biblioteket https://github.com/libris/librisxl/ http://librisbloggen.kb.se/ https://twitter.com/librisnytt http://devkat.libris.kb.se/ usuario test password test Library of Congress British Library Bibliothèque nationale de France Deutsche Nationalbibliothek Biblioteca Nacional de España BIBFRAME http://www.loc.gov/bibframe/
  52. 52. Bibliotecas Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned. Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.
  53. 53. Bibliotecas Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico
  54. 54. Bibliotecas Oferta de acervo desde el punto de vista literario SSaararahh B Baartrltelettt,t ,2 2001100
  55. 55. Bibliotecas Pablo Neruda http://datos.bcn.cl/recurso/persona/2559 http://id.worldcat.org/fast/34660 http://dbpedia.org/page/Pablo_Neruda https://www.freebase.com/m/066c_ http://viaf.org/viaf/95126958/ http://d-nb.info/gnd/118587005 http://www.idref.fr/027337960
  56. 56. Finalmente Dos mundos • Mundo de documentos  para el ser humano • Mundo de datos  para las máquinas
  57. 57. ¿Futuro? Documentos • OCR • aplicación de algoritmos Named-entity Recognition • enlaces a ontologías • Ejemplos: • proyecto Historia de la Ley y Labor Parlamentaria • proyecto sentencias Corte Suprema
  58. 58. Referencias http://users.dcc.uchile.cl/~cgutierr/sw/ http://manzanamecanica.org/2014/07/open_data_en_el_congres o_chileno_lo_bueno_lo_malo_y_lo_feo.html http://de.wikipedia.org/wiki/Ontologie_(Informatik) http://www.slideshare.net/der42 http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

×