Gestión digital de la información
del papel a la web semántica
Christian Sifaqui
26.7.2013
Conceptos
Open Data: es un idea que impulsa la publicación de
datos de forma libre y asequible a cualquier
persona para us...
Dudas
¿Dónde está la web del gobierno anterior?
¿Dónde está la web del ministro anterior?
Papel
Ha durado miles de años… y...
Una historia: procesamiento de diarios
Unidad de Recortes de Prensa:
analizaba las noticias
recortaba físicamente (con tij...
Una historia: procesamiento de diarios
Actualmente
Digitalizando recortes (estándares, resolución, …)
Metadata (Dublin cor...
Una historia: procesamiento de diarios
Unidad de Indización de la prensa:
revisaba los diarios
redactaba fichas con un res...
Una historia: procesamiento de diarios
Prototipo
¿será posible relacionar las fichas con los recortes?
Una historia: procesamiento de diarios
Se digitalizaron algunas fichas
Una historia: procesamiento de diarios
Encontró artículo
(mismo medio, fecha y contenido)
Encontró para el mismo día conte...
Una historia: procesamiento de diarios
Después de 22 años se pudo integrar información on-the-
fly, ya que se dispuso digi...
Una historia: procesamiento de diarios
¿Es open data?
¿Es linked data?
Dominios de aplicación
Legislación
Historia política
Legislación
Legislación es información pública…
… y debe ser de dominio público
Legislación
Hacer disponible y facilitar el acceso a la comunidad de las
fuentes jurídicas de uso en el Congreso Nacional,...
Legislación
Certeza jurídica
Certeza del contenido de la norma legal
Legislación
En los años 50
compilación mediante fichas con referencias entre las
normas y clasificadas por materia
Legislación
En los 80
el sistema de fichas fue reemplazado por un sistema
automático basado en STAIRS
A mediados de los 90...
LeyChile
Liberado el 2008
LeyChile
Biblioteca del Congreso
Nacional de Chile
Ley 22000
1.- abc
2.- def
3.- ghi
(original)
1.- abc
2.- def
3.- ghi
Di...
LeyChile
Biblioteca del Congreso
Nacional de Chile
Ley 25345
1.- Modifica
ley 22000
Art. 1
sustitúyase a
por xyz
(original...
LeyChile
Modelar la “vida” de una norma
LeyChile
Modelar la “vida” de una norma
LeyChile
Modelar la “vida” de una norma
LeyChile
Modelar la “vida” de una norma
LeyChile
Modelar la “vida” de una norma
LeyChile
Modelar la “estructura” de una norma
LeyChile
XML
Texto: versiones, hypervículos, referencias, notas
Estructura: Organización jerárquica de las partes de una
n...
LeyChile: nuestra oferta a seres humanos
LeyChile: nuestra oferta a máquinas
WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
LeyChile: nuestra oferta a máquinas
WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
Links, widgets, web services (http://ll...
LeyChile: ¿es posibe incorporarle linked-open
data (LOD)?
Extensión natural
Mejorar la interoperabilidad (más formatos)
Cr...
Principios LOD: URIs
Diseño cuidadoso
(leyes, decretos, reglamentos, resoluciones, decretos ley…)
FRBR
Work ley 20000
Expr...
Principios LOD: URIs
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
Decreto 341; publicado el 1...
Principios LOD: RDF
Principios LOD: enlaces
Relaciones a otros datasets: países (Tratados internacionales)
DBPedia, Geonames
Reuso de vocabula...
Consulta compleja
Encontrar todas las ordenanzas municipales publicadas entre
1995 y 2000, pero que hayan sido modificadas...
http://datos.bcn.cl
Primera etapa finalizada en mayo del 2011
Más de 300.000 normas exportadas
≈27 triplas por norma
≈8 mi...
David Robinson and Harlan Yu in “El desafío hacia el gobierno
abierto en la hora de la igualdad”, Gastón Concha y
Alejandr...
Visualizaciones
Visualizaciones
Historia política
Rescatar y poner en servicio a la comunidad la memoria
política chilena, resguardando los discursos, act...
Historia política
Reseñas biográficas
Historia política
Reseñas biográficas
Historia política
http://datos.bcn.cl/recurso/persona/2371
Historia política
Reseñas biográficas
no tenemos todos los años de nacimiento, ni
fallecimiento, ni los lugares
por ejempl...
Historia política
Reseñas biográficas
Carlos Larraín Claro (diputado 1912- 1915)
Carlos Larraín Claro, suegro de Jorge Ast...
Visualizaciones
Conformaciones
Detalle del
parlamentario
Árbol genealógico Relaciones de
parentezco
datos.bcn.cl/Genealogi...
Desarrollo actual
Percepción
ONGs dedicadas a Transparencia y la Participación Ciudadana
Percepción
Referencia y caso de uso en la comunidad de Web Semántica y
“Hackers civiles”
Trabajo actual y futuro
Más datasets: biografías, transparencia, datos
geográficos, historia de la ley, documentos legisla...
Conclusiones
Open data, open linked data, web semántica es más que una
tecnología… es una manera de administrar informació...
Conferencia Datos Abiertos Regionales, Montevideo, 2013
Conferencia Datos Abiertos Regionales, Montevideo, 2013
Upcoming SlideShare
Loading in...5
×

Conferencia Datos Abiertos Regionales, Montevideo, 2013

1,343

Published on

Presentación realizada para http://confdatosabiertos.uy/

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,343
On Slideshare
0
From Embeds
0
Number of Embeds
28
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Conferencia Datos Abiertos Regionales, Montevideo, 2013

  1. 1. Gestión digital de la información del papel a la web semántica Christian Sifaqui 26.7.2013
  2. 2. Conceptos Open Data: es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona para usar y republicar sin restricciones de ningún tipo Linked Data: es usar la web para conectar datos relacionados que no estaban enlazados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  3. 3. Dudas ¿Dónde está la web del gobierno anterior? ¿Dónde está la web del ministro anterior? Papel Ha durado miles de años… y durará miles de años más
  4. 4. Una historia: procesamiento de diarios Unidad de Recortes de Prensa: analizaba las noticias recortaba físicamente (con tijeras) almacenaba estos recortes en sobres clasificados por materia, previa asignación de una tarjeta de identificación actualmente son más de 5 millones de recortes de prensa
  5. 5. Una historia: procesamiento de diarios Actualmente Digitalizando recortes (estándares, resolución, …) Metadata (Dublin core, propias …) OCR (calidad, ICR, …) Estos documentos se ingresan como noticias históricas en un sistema de noticias
  6. 6. Una historia: procesamiento de diarios Unidad de Indización de la prensa: revisaba los diarios redactaba fichas con un resumen y con una referencia al diario cerrada en 1990 (pasó al olvido) existen 15 ficheros con estas fichas
  7. 7. Una historia: procesamiento de diarios Prototipo ¿será posible relacionar las fichas con los recortes?
  8. 8. Una historia: procesamiento de diarios Se digitalizaron algunas fichas
  9. 9. Una historia: procesamiento de diarios Encontró artículo (mismo medio, fecha y contenido) Encontró para el mismo día contenidos similares pero de diferentes medios Encontró en la semana artículos de contenidos similares
  10. 10. Una historia: procesamiento de diarios Después de 22 años se pudo integrar información on-the- fly, ya que se dispuso digitalmente Pero… sólo para Senador Anselmo Sule 107 fichas digitalización 107 fichas  10 minutos OCR  5 minutos sin corrección dos personas usaron 2:45 hrs. c/u para revisar OCRs Tenemos 400.000 fichas app. Sólo un prototipo
  11. 11. Una historia: procesamiento de diarios ¿Es open data? ¿Es linked data?
  12. 12. Dominios de aplicación Legislación Historia política
  13. 13. Legislación Legislación es información pública… … y debe ser de dominio público
  14. 14. Legislación Hacer disponible y facilitar el acceso a la comunidad de las fuentes jurídicas de uso en el Congreso Nacional, junto con educar y fomentar las redes sociales en torno a temas jurídicos
  15. 15. Legislación Certeza jurídica Certeza del contenido de la norma legal
  16. 16. Legislación En los años 50 compilación mediante fichas con referencias entre las normas y clasificadas por materia
  17. 17. Legislación En los 80 el sistema de fichas fue reemplazado por un sistema automático basado en STAIRS A mediados de los 90 el sistema anterior se reemplaza por una arquitctura cliente- servidor basada en BASIS PLUS, reconstruyendo en línea en texto completo de las normas
  18. 18. LeyChile Liberado el 2008
  19. 19. LeyChile Biblioteca del Congreso Nacional de Chile Ley 22000 1.- abc 2.- def 3.- ghi (original) 1.- abc 2.- def 3.- ghi Diario Oficial Ley 22000
  20. 20. LeyChile Biblioteca del Congreso Nacional de Chile Ley 25345 1.- Modifica ley 22000 Art. 1 sustitúyase a por xyz (original) 1.- abc 2.- def 3.- ghi (actualizada) 1.- xyzbc 2.- def 3.- ghi Ley 25345 1.- Modifica ley 22000 Art. 1 sustitúyase a por xyz Ley 22000 Ley 25345 Diario Oficial
  21. 21. LeyChile Modelar la “vida” de una norma
  22. 22. LeyChile Modelar la “vida” de una norma
  23. 23. LeyChile Modelar la “vida” de una norma
  24. 24. LeyChile Modelar la “vida” de una norma
  25. 25. LeyChile Modelar la “vida” de una norma
  26. 26. LeyChile Modelar la “estructura” de una norma
  27. 27. LeyChile XML Texto: versiones, hypervículos, referencias, notas Estructura: Organización jerárquica de las partes de una norma Metadata: información adicional del documento, como identificación de la norma, materias, términos libres, etc.
  28. 28. LeyChile: nuestra oferta a seres humanos
  29. 29. LeyChile: nuestra oferta a máquinas WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
  30. 30. LeyChile: nuestra oferta a máquinas WSDL (http://www.leychile.cl/ws/LeyChile.wsdl) Links, widgets, web services (http://llevatelo.bcn.cl)
  31. 31. LeyChile: ¿es posibe incorporarle linked-open data (LOD)? Extensión natural Mejorar la interoperabilidad (más formatos) Crear ontologías del dominio Ofrecer una solución a consultas complejas usando un endpoint SPARQL Primer paso: exponer metadata de las normas
  32. 32. Principios LOD: URIs Diseño cuidadoso (leyes, decretos, reglamentos, resoluciones, decretos ley…) FRBR Work ley 20000 Expression Versión actualizada para el año 2012 Manisfestation archivo XML 1 N 1 1 N N Item Archivo físico XML en un servidor específico
  33. 33. Principios LOD: URIs http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 Decreto 341; publicado el 11/11/2008; del Ministerio de Educación http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07 http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20 Versión original Otra versión
  34. 34. Principios LOD: RDF
  35. 35. Principios LOD: enlaces Relaciones a otros datasets: países (Tratados internacionales) DBPedia, Geonames Reuso de vocabularios/ontologías SKOS, DC, FOAF, DBPedia, ORG
  36. 36. Consulta compleja Encontrar todas las ordenanzas municipales publicadas entre 1995 y 2000, pero que hayan sido modificadas después del 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) } ORDER BY (?pubDate)
  37. 37. http://datos.bcn.cl Primera etapa finalizada en mayo del 2011 Más de 300.000 normas exportadas ≈27 triplas por norma ≈8 millones de triplas 200 a 400 triplas se agregan cada día
  38. 38. David Robinson and Harlan Yu in “El desafío hacia el gobierno abierto en la hora de la igualdad”, Gastón Concha y Alejandra Naser (eds.), Santiago, CEPAL, 2012 “Open data does not create its own demand. The government should compromise the developers”
  39. 39. Visualizaciones
  40. 40. Visualizaciones
  41. 41. Historia política Rescatar y poner en servicio a la comunidad la memoria política chilena, resguardando los discursos, actos y rol de los parlamentarios y el Congreso, como al mismo tiempo, el contexto en que se desenvuelve la política chilena y con ello contribuir a que los ciudadanos reconozcan su identidad y sentido político en una perspectiva histórica
  42. 42. Historia política Reseñas biográficas
  43. 43. Historia política Reseñas biográficas
  44. 44. Historia política http://datos.bcn.cl/recurso/persona/2371
  45. 45. Historia política Reseñas biográficas no tenemos todos los años de nacimiento, ni fallecimiento, ni los lugares por ejemplo, Salvador de la Cavareda Trucios diputado suplente por Valparaíso 1824 a 1825 (hermano de Salvador y José Joaquín) Pero sabemos lo que nos falta: PREFIX bcnbio: <http://datos.bcn.cl/ontologies/bcn-biographies#> select * where { ?a a foaf:Person . OPTIONAL {?a bcnbio:hasBorn ?ano } . FILTER (!bound(?ano)) . }
  46. 46. Historia política Reseñas biográficas Carlos Larraín Claro (diputado 1912- 1915) Carlos Larraín Claro, suegro de Jorge Astaburuaga Lyon (diputado 1924-1927) ¿Es la misma persona?
  47. 47. Visualizaciones Conformaciones Detalle del parlamentario Árbol genealógico Relaciones de parentezco datos.bcn.cl/GenealogiaParlamentaria
  48. 48. Desarrollo actual
  49. 49. Percepción ONGs dedicadas a Transparencia y la Participación Ciudadana
  50. 50. Percepción Referencia y caso de uso en la comunidad de Web Semántica y “Hackers civiles”
  51. 51. Trabajo actual y futuro Más datasets: biografías, transparencia, datos geográficos, historia de la ley, documentos legislativos… Exponer partes de una norma y su metadata
  52. 52. Conclusiones Open data, open linked data, web semántica es más que una tecnología… es una manera de administrar información Visualización no es un producto final, es un proceso de realimentación para “purificar” los datos y mejorar la visualización Crea valor para nosotros mismos 1 Muchos detalles técnicos y desafíos permanecen sin resolver 1 1.- David Robinson and Harlan Yu in “El desafío hacia el gobierno abierto en la hora de la igualdad”, Gastón Concha y Alejandra Naser (eds.), Santiago, CEPAL,

×