Charla SEC, 19 de diciembre de 2013

527 views

Published on

Presentación para funcionarios de la Superintendencia de Electricidad y Combustibles, Santiago, 19 de diciembre de 2013

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
527
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Charla SEC, 19 de diciembre de 2013

  1. 1. Archivos y repositorios digitales 19 de diciembre de 2013 Christian Sifaqui
  2. 2. Archivo Consejo Internacional de Archivos (ICA): • Conjunto de documentos • Institución responsable • Edificio o parte del edificio donde se conservan (depósito)
  3. 3. Archivística • Identificación: fase del tratamiento archivístico que consiste en la investigación y sistematización de las categorías administrativas y archivísticas en que se sustenta la estructura de un fondo • Clasificación: operación archivística que consiste en el establecimiento de las categorías y grupos que reflejan la estructura jerárquica del fondo • Ordenamiento: operación archivística realizada dentro del proceso de organización, que consiste en establecer secuencias naturales cronológicas y/o alfabéticas, dentro de las categorías y grupos definidos en la clasificación
  4. 4. Archivística • Instalación: conjunto de medios físicos dispuestos para la adecuada conservación de los documentos • Descripción: fase del tratamiento archivístico destinada a la elaboración de los instrumentos de consulta para facilitar el conocimiento y consulta de los fondos documentales y colecciones de los archivos • Digitalización: conjunto de procedimientos de copia o microcopia realizados mediante cualquier tecnología y en distintos soportes
  5. 5. Archivos Realidad Ideal
  6. 6. Digitalización • Ingreso de documentos organizados archivísticamente • Preparación de los documentos para digitalización • Ingreso de metadatos • Escaneo • Retorno de documentos a su unidad • Instalación en los depósitos
  7. 7. Digitalización • Metadatos • negocio electrónico • conservación • descripción de los recursos de información • localización de recursos de información • gestión de derechos de propiedad intelectual • Formato máster, formato distribución • Roles, comunidades, colecciones
  8. 8. Mala práctica Documentos grandes Documento PDF complejo consistente en imágenes facsimilares + texto OCR + mapeo de cada palabra a su posición en cada página PDF imágenes con texto  72 páginas en PDF, tamaño 24 MB. XML Mismo archivo en XML  0.5 MB
  9. 9. Repositorios digitales (1) • “Bolsa inteligente”
  10. 10. Bolsa “inteligente” Debe: • manejar objetos digitales, organizados en colecciones y éstas a su vez agrupadas en comunidades • ofrecer uso de metadatos estándar Dublin Core, y permitir extenderlo • soportar amplio espectro de formatos de archivos: texto, videos, sonido, imágenes • versionamiento
  11. 11. Bolsa “inteligente” Usar esta bolsa inteligente como backend y como frontend sitios web que sólo ofrezcan los documentos acorde a cierta metadata Sitio web - Frontend Repositorio - Backend s bjeto os o l ame trég ientes En ec r más Objet os más r ecien t es
  12. 12. Bolsa “inteligente” ata etad ada on m ar tos c n Comp obje ó ame egislaci rég t=L Ent bjec dc.su Objet os
  13. 13. Bolsa “inteligente” historiapolitica.bcn.cl www.bcn.cl/leyfacil archivohales.bcn.cl parlamentario.bcn.cl Frontend transparencia.bcn.cl Backend Documentos Objetos digitales Recursos legales
  14. 14. Repositorios digitales (2) • Adecuados al contenido (XML, videos, etc.)
  15. 15. Adecuado al contenido • Interesa determinar cambios en un documento o entre documentos • Referenciar o reutilizar partes de o todo un documento • Interoperabilidad • Otras consideraciones
  16. 16. Adecuado al contenido Videos Música XML
  17. 17. Adecuado al contenido Ejemplo: www.leychile.cl t0 t1 Ley 22000 Ley 22000 Ley 22000 Ley 22000 Artículo 1. abc. Artículo 1. abc. Artículo 1. xyzbc. Artículo 1. xyzbc. Artículo 2. def. Artículo 2. def. Artículo 2. def. Artículo 2. def. Artículo 3. ghi. Artículo 3. ghi. Artículo 3. ghi. Artículo 3. ghi.
  18. 18. Adecuado al contenido Modelar la “vida” del documento
  19. 19. Adecuado al contenido Modelar la “estructura” del documento
  20. 20. Adecuado al contenido LeyChile: XML Texto: versiones, hiperenlaces, referencias, notas Estructura: organización jerárquica de las partes de una norma legal Metadatos: información adicional acerca de los documentos, como identificación de la norma, materia, términos libres, etc.
  21. 21. Adecuado al contenido Akoma Ntoso http:// www.akomantoso.org/ Es un conjunto de representaciones electrónicas tecnológicamente neutral (en formato XML) de documentos parlamentarios, legislativos y judiciales
  22. 22. Resumen Mundo “papel” Mundo digitalizados o creados digitalmente Digitalización Repositorios Bolsa inteligente Acorde al contenido OAI-PMH Firma electrónica Preservación digital
  23. 23. Malas prácticas URL Texto “no web”: en esta página bla bla Texto se contradice con los documentos Apunta a un PDF que fue “extraído” de la BCN ¿?
  24. 24. Malas prácticas PDF imagen
  25. 25. Malas prácticas Documento almacenado en el mismo sitio web
  26. 26. Malas prácticas Apunta a un PDF que fue “extraído” de la BCN ¿?
  27. 27. Malas prácticas Son archivos propietarios
  28. 28. Web semántica Open Data: es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona para usar y republicar sin restricciones de ningún tipo Linked Data: es usar la web para conectar datos relacionados que no estaban enlazados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  29. 29. Web semántica Web • Repleta de información • Orientada al ser humano: • para comprender el contenido de una página • para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  30. 30. Web semántica Web • Dificultad en localización de la información (adaptar a una región específica, por ejemplo, traducir) • Buscadores actuales funcionan bien, pero orientados al keyword • Por ejemplo: “constitución” ¿la de Chile? ¿ciudad del sur?
  31. 31. Web semántica Soluciones • ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  32. 32. Web semántica Estándares
  33. 33. Web semántica Estándares
  34. 34. Web semántica Endpoint SPARQL
  35. 35. Web semántica Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion Fecha_modificacion WHERE { WHERE { ?norm n:createdBy ?creator . ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) ?pubDateOther > xsd:date("2005")) } } ORDER BY (?pubDate) ORDER BY (?pubDate)
  36. 36. Web semántica Visualizaciones
  37. 37. Web semántica Visualizaciones
  38. 38. Finalmente Dos mundos • Mundo de documentos  para el ser humano • Mundo de datos  para las máquinas
  39. 39. De documentos a datos Documentos • OCR • aplicación de algoritmos Named-entity Recognition • Enlaces a ontologías • Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria (http://lphl.bcn.cl)

×