Archivos, transparencia y web
semántica
27 de noviembre de 2013
Christian Sifaqui
Archivo
Consejo Internacional de Archivos (ICA):
• Conjunto de documentos
• Institución responsable
• Edificio o parte del...
Archivo
CPLT:
• Muy buenas guías en
http://www.educatransparencia.cl/docs
• Sistema con firma electrónica
Archivística
• Identificación: fase del tratamiento archivístico que
consiste en la investigación y sistematización de las...
Archivística
• Instalación: conjunto de medios físicos dispuestos
para la adecuada conservación de los documentos
• Descri...
Digitalización
• Ingreso de documentos organizados
archivísticamente
• Preparación de los documentos para
digitalización
•...
Digitalización
• Metadatos

• negocio electrónico
• conservación
• descripción de los recursos de
información
• localizaci...
Repositorios digitales
• “Bolsa inteligente”
• Adecuados al contenido (XML, videos,
etc.)
Bolsa “inteligente”
Debe:
• manejar objetos digitales, organizados en
colecciones y éstas a su vez agrupadas en
comunidade...
Bolsa “inteligente”
Usar esta bolsa inteligente como backend y como
frontend sitios web que sólo ofrezcan los documentos
a...
Bolsa “inteligente”
ata
etad ada
on m ar
tos c n Comp
obje
ó
ame egislaci
rég t=L
Ent bjec
dc.su

Objet
os
Bolsa “inteligente”
historiapolitica.bcn.cl
www.bcn.cl/leyfacil

archivohales.bcn.cl
parlamentario.bcn.cl

Frontend

trans...
Repositorios digitales
• “Bolsa inteligente”
• Adecuados al contenido (XML, videos,
etc.)
Adecuado al contenido
• Interesa determinar cambios en
un documento o entre
documentos
• Referenciar o reutilizar partes d...
Adecuado al contenido
Videos
Música
XML
Adecuado al contenido
t0

t1

Ley 22000
Ley 22000

Ley 22000
Ley 22000

Artículo 1. abc.
Artículo 1. abc.

Artículo 1. xyz...
Adecuado al contenido
Interesa capturar la “vida” del documento
Adecuado al contenido
Interesa la “estructura” del documento
Adecuado al contenido
LeyChile: XML
Texto: versiones, hiperenlaces, referencias,
notas
Estructura: organización jerárquica...
Adecuado al contenido
LeyChile interopera con Contraloría

Parámetros:
Número ley

AJAX
AJAX

Prepara lista de
resultados
...
Adecuado al contenido
¿LeyChile podría interoperar con CPLT?
Adecuado al contenido
Akoma Ntoso http://
www.akomantoso.org/
Es un conjunto de representaciones
electrónicas tecnológicam...
Archivos
Dos accesos
Archivos
Ver Decreto Supremo 13 2009 Reglamento, ART-42
Archivos
Ver Decreto Supremo 13 2009 Reglamento, ART-42

¿?
Archivos

Ver Decreto Supremo 13 2009 Reglamento, ART-42
Sencillo: enlace a
http://www.leychile.cl/Navegar?idNorma=1001095...
Archivos

Ver Decreto Supremo 13 2009 Reglamento, ART-42
Menos sencillo: procesar XML
http://www.leychile.cl/Consulta/obtx...
Archivos
Enlaces dentro del texto
Archivos
Enlaces dentro del texto
Archivos
Instrucciones

1

9
Archivos
Documentos grandes
Documento PDF
complejo consistente
en imágenes
facsimilares + texto
OCR + mapeo de cada
palabr...
Archivos
Mundo “papel”
Mundo digitalizados o creados digitalmente
Digitalización
Repositorios
Bolsa inteligente
Acorde al ...
Transparencia activa
Título III Ley 20.285 es una oferta
para seres humanos…
Transparencia activa
Título III Ley 20.285 es una oferta
para seres humanos…
Ser humano: búsqueda y
exploración
Transparencia activa
Pero la auditoría a TA debe ser
muy trabajosa, porque TA fue
hecha para seres humanos
Transparencia activa
Modelar una oferta para máquinas
Transparencia activa
Oferta para máquinas
Transparencia activa
Oferta para máquinas (RDFa)
Transparencia activa
Oferta para máquinas

WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
Transparencia activa
Oferta para máquinas

WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)

Enlaces, widgets, servicios web...
Web semántica
Open Data: es un idea que impulsa la
publicación de datos de forma libre y
asequible a cualquier persona par...
Web semántica
Web
• Repleta de información
• Orientada al ser humano:
• para comprender el contenido de una
página
• para ...
Web semántica
Web

• Dificultad en localización de la información (adaptar a
una región específica, por ejemplo, traducir)...
Web semántica
Soluciones
• ad hoc: usar métodos de IA para analizar la
información no estructurada existente en la
Web
• a...
Web semántica
Estándares
Web semántica
Estándares
Web semántica
Endpoint SPARQL
Web semántica
Encontrar todas las normas emitidas por una municipalidad
entre los años 1995 y 2000, pero que fueron modifi...
Web semántica
Visualizaciones
Web semántica
Visualizaciones
Finalmente
Dos mundos
• Mundo de documentos  para el ser
humano
• Mundo de datos  para las máquinas
De documentos a datos
Documentos
• OCR
• aplicación de algoritmos Named-entity
Recognition
• Enlaces a ontologías
• Ejempl...
Charla a Consejo para la Transparencia, 27 de noviembre de 2013
Charla a Consejo para la Transparencia, 27 de noviembre de 2013
Upcoming SlideShare
Loading in …5
×

Charla a Consejo para la Transparencia, 27 de noviembre de 2013

287 views

Published on

Presentación para funcionarios del Consejo para la Transparencia, Santiago, 27 de noviembre de 2013

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
287
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Charla a Consejo para la Transparencia, 27 de noviembre de 2013

  1. 1. Archivos, transparencia y web semántica 27 de noviembre de 2013 Christian Sifaqui
  2. 2. Archivo Consejo Internacional de Archivos (ICA): • Conjunto de documentos • Institución responsable • Edificio o parte del edificio donde se conservan (depósito)
  3. 3. Archivo CPLT: • Muy buenas guías en http://www.educatransparencia.cl/docs • Sistema con firma electrónica
  4. 4. Archivística • Identificación: fase del tratamiento archivístico que consiste en la investigación y sistematización de las categorías administrativas y archivísticas en que se sustenta la estructura de un fondo • Clasificación: operación archivística que consiste en el establecimiento de las categorías y grupos que reflejan la estructura jerárquica del fondo • Ordenamiento: operación archivística realizada dentro del proceso de organización, que consiste en establecer secuencias naturales cronológicas y/o alfabéticas, dentro de las categorías y grupos definidos en la clasificación
  5. 5. Archivística • Instalación: conjunto de medios físicos dispuestos para la adecuada conservación de los documentos • Descripción: fase del tratamiento archivístico destinada a la elaboración de los instrumentos de consulta para facilitar el conocimiento y consulta de los fondos documentales y colecciones de los archivos • Digitalización: conjunto de procedimientos de copia o microcopia realizados mediante cualquier tecnología y en distintos soportes
  6. 6. Digitalización • Ingreso de documentos organizados archivísticamente • Preparación de los documentos para digitalización • Ingreso de metadatos • Escaneo • Retorno de documentos a su unidad • Instalación en los depósitos
  7. 7. Digitalización • Metadatos • negocio electrónico • conservación • descripción de los recursos de información • localización de recursos de información • gestión de derechos de propiedad intelectual • Formato máster, formato distribución • Roles, comunidades, colecciones
  8. 8. Repositorios digitales • “Bolsa inteligente” • Adecuados al contenido (XML, videos, etc.)
  9. 9. Bolsa “inteligente” Debe: • manejar objetos digitales, organizados en colecciones y éstas a su vez agrupadas en comunidades • ofrecer uso de metadatos estándar Dublin Core, y permitir extenderlo • soportar amplio espectro de formatos de archivos: texto, videos, sonido, imágenes • versionamiento
  10. 10. Bolsa “inteligente” Usar esta bolsa inteligente como backend y como frontend sitios web que sólo ofrezcan los documentos acorde a cierta metadata Sitio web - Frontend Repositorio - Backend s bjeto os o l ame trég ientes En ec r más Objet os más r ecien t es
  11. 11. Bolsa “inteligente” ata etad ada on m ar tos c n Comp obje ó ame egislaci rég t=L Ent bjec dc.su Objet os
  12. 12. Bolsa “inteligente” historiapolitica.bcn.cl www.bcn.cl/leyfacil archivohales.bcn.cl parlamentario.bcn.cl Frontend transparencia.bcn.cl Backend Documentos Objetos digitales Recursos legales
  13. 13. Repositorios digitales • “Bolsa inteligente” • Adecuados al contenido (XML, videos, etc.)
  14. 14. Adecuado al contenido • Interesa determinar cambios en un documento o entre documentos • Referenciar o reutilizar partes de o todo un documento • Interoperabilidad • Otras consideraciones
  15. 15. Adecuado al contenido Videos Música XML
  16. 16. Adecuado al contenido t0 t1 Ley 22000 Ley 22000 Ley 22000 Ley 22000 Artículo 1. abc. Artículo 1. abc. Artículo 1. xyzbc. Artículo 1. xyzbc. Artículo 2. def. Artículo 2. def. Artículo 2. def. Artículo 2. def. Artículo 3. ghi. Artículo 3. ghi. Artículo 3. ghi. Artículo 3. ghi.
  17. 17. Adecuado al contenido Interesa capturar la “vida” del documento
  18. 18. Adecuado al contenido Interesa la “estructura” del documento
  19. 19. Adecuado al contenido LeyChile: XML Texto: versiones, hiperenlaces, referencias, notas Estructura: organización jerárquica de las partes de una norma legal Metadatos: información adicional acerca de los documentos, como identificación de la norma, materia, términos libres, etc.
  20. 20. Adecuado al contenido LeyChile interopera con Contraloría Parámetros: Número ley AJAX AJAX Prepara lista de resultados Envía parámetros Capa de Negocios Sistema Ley Chile Consume Dictámenes asociados a una ley Capa de Integración Capa de Presentación Requerimiento de dictámenes para cualquier ley
  21. 21. Adecuado al contenido ¿LeyChile podría interoperar con CPLT?
  22. 22. Adecuado al contenido Akoma Ntoso http:// www.akomantoso.org/ Es un conjunto de representaciones electrónicas tecnológicamente neutral (en formato XML) de documentos parlamentarios, legislativos y judiciales
  23. 23. Archivos Dos accesos
  24. 24. Archivos Ver Decreto Supremo 13 2009 Reglamento, ART-42
  25. 25. Archivos Ver Decreto Supremo 13 2009 Reglamento, ART-42 ¿?
  26. 26. Archivos Ver Decreto Supremo 13 2009 Reglamento, ART-42 Sencillo: enlace a http://www.leychile.cl/Navegar?idNorma=1001095&idParte
  27. 27. Archivos Ver Decreto Supremo 13 2009 Reglamento, ART-42 Menos sencillo: procesar XML http://www.leychile.cl/Consulta/obtxml?opt=7&idNorma=10 y buscar idParte="8527294"
  28. 28. Archivos Enlaces dentro del texto
  29. 29. Archivos Enlaces dentro del texto
  30. 30. Archivos Instrucciones 1 9
  31. 31. Archivos Documentos grandes Documento PDF complejo consistente en imágenes facsimilares + texto OCR + mapeo de cada palabra a su posición en cada página PDF imágenes con texto  72 páginas en PDF, tamaño 24 MB. XML Mismo archivo en XML  0.5 MB
  32. 32. Archivos Mundo “papel” Mundo digitalizados o creados digitalmente Digitalización Repositorios Bolsa inteligente Acorde al contenido Firma electrónica
  33. 33. Transparencia activa Título III Ley 20.285 es una oferta para seres humanos…
  34. 34. Transparencia activa Título III Ley 20.285 es una oferta para seres humanos… Ser humano: búsqueda y exploración
  35. 35. Transparencia activa Pero la auditoría a TA debe ser muy trabajosa, porque TA fue hecha para seres humanos
  36. 36. Transparencia activa Modelar una oferta para máquinas
  37. 37. Transparencia activa Oferta para máquinas
  38. 38. Transparencia activa Oferta para máquinas (RDFa)
  39. 39. Transparencia activa Oferta para máquinas WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
  40. 40. Transparencia activa Oferta para máquinas WSDL (http://www.leychile.cl/ws/LeyChile.wsdl) Enlaces, widgets, servicios web (http://llevatelo.bcn.cl)
  41. 41. Web semántica Open Data: es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona para usar y republicar sin restricciones de ningún tipo Linked Data: es usar la web para conectar datos relacionados que no estaban enlazados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  42. 42. Web semántica Web • Repleta de información • Orientada al ser humano: • para comprender el contenido de una página • para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  43. 43. Web semántica Web • Dificultad en localización de la información (adaptar a una región específica, por ejemplo, traducir) • Buscadores actuales funcionan bien, pero orientados al keyword • Por ejemplo: “constitución” ¿la de Chile? ¿ciudad del sur?
  44. 44. Web semántica Soluciones • ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  45. 45. Web semántica Estándares
  46. 46. Web semántica Estándares
  47. 47. Web semántica Endpoint SPARQL
  48. 48. Web semántica Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion Fecha_modificacion WHERE { WHERE { ?norm n:createdBy ?creator . ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) ?pubDateOther > xsd:date("2005")) } } ORDER BY (?pubDate) ORDER BY (?pubDate)
  49. 49. Web semántica Visualizaciones
  50. 50. Web semántica Visualizaciones
  51. 51. Finalmente Dos mundos • Mundo de documentos  para el ser humano • Mundo de datos  para las máquinas
  52. 52. De documentos a datos Documentos • OCR • aplicación de algoritmos Named-entity Recognition • Enlaces a ontologías • Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria

×