Web Semántica
(el rol de las bibliotecas)
Claudio Gutierrez
DCC, Universidad de Chile
Agenda
1. Web Semántica: visión clásica
• Web
• Web Semántica
2. Web Semántica: nueva perspectiva
• Web Semántica
• Linked...
El problema…
“una divinidad que delira”
– J. L. Borges, La Biblioteca Total, 1939.
“abundancia torrencial”,
“el libro enfu...
Nuestro entorno: K, M, G
KILO: mil (2^10)
Memoria celular
Texto (email, documento)
MEGA: millón (2^20)
Libro, Fotografía
G...
Poniéndonos serios…: TB
TERA: un billón 10^12 2^{40}
-- Biblioteca del Congreso (USA): 160 TB
-- Discos de 1TB (2007)
-- T...
Futuro inmediato: PB
PETA : mil billones 10^15 2^50
– Internet Archive (3 PB) (crece a 100 TB por mes)
– Google procesa 24...
Futuro próximo: EXA, Z
EXA: millón de billones
10^18 (2^60)
Todas las palabras
que se han hablado:
aprox. 5 EXB texto
(42 ...
El problema
• Hay demasiada información
• Más aun: se produce torrencialmente
• No sólo las “masas”, sino que los sensores...
Solución del siglo xxi
Crear un espacio de información
universal: la Web (Tim Berners-Lee, 1990)
Principio básico:
–Todos ...
La Web (en 3 minutos)
Espacio de información universal:
– “pizarrón universal” donde todos pueden
publicar y todos pueden ...
La Web: principios de diseño
1. Independencia de Dispositivo
2. Independencia de software
3. Internacionalización
4. Multi...
La Web: problemas
1. Información poco comprensible
– Enlaces no tienen semántica
– Metadatos inexistentes o subutilizados
...
Solución: Web Semántica
Hipótesis: Procesar información a escala
planetaria necesitará automatización
⇒ Máquinas deben “en...
La Web Semántica:
Arquitectura
¿Un proyecto viable?
• Pocos resultados después de 10 años
• ¿demasiado optimista?
Una Web Semántica más modesta:
–Enlazar...
Etapa 0: el computador
ATOMOS
Objetos materiales
Trabajo manual
Intensivo en energía
Productos con servicio
Centralizado
E...
Etapa 1: computadores
interconectados: INTERNET
Etapa 2: documentos
interconectados: WEB
Etapa 2: WEB
• Enlaces (links) entre documentos
• “Palabras” (secuencias de caracteres) y
enlaces como el centro del unive...
Etapa 2: debilidades
• Información está aislada
– pocos y malos enlaces
• Los datos no están accesibles
– se publican sólo...
Etapa 3: datos
interconectados
Lo que ven las
máquinas hoy
Lo que ven
los humanos
Agregar semántica mínima
Etapa 3: Web de Datos
• La información como datos
• Los datos enlazados como red
• Los datos públicos y abiertos
Tecnologí...
Artefactos de datos
Bases de Datos
Desktops
Dataspaces
Bibliotecas
Archivos
Web clásica
Web semántica
Web de Datos
Data Go...
Desafíos
1. Cómo publicar: formatos, metadatos,
temporalidad, persistencia, privacidad
2. Cómo enlazar: protocolos, escala...
Rol de Bibliotecas: algunas
preguntas
• En un mundo de información abierta: ¿cuáles
son los límites?
• Enlazar: ¿con quién...
Web semantica
Upcoming SlideShare
Loading in …5
×

Web semantica

276 views

Published on

Ponencia presentada en 10as Jornadas Bibliotecarias de la U. de Chile (2011)

Published in: Education
  • Be the first to comment

  • Be the first to like this

Web semantica

  1. 1. Web Semántica (el rol de las bibliotecas) Claudio Gutierrez DCC, Universidad de Chile
  2. 2. Agenda 1. Web Semántica: visión clásica • Web • Web Semántica 2. Web Semántica: nueva perspectiva • Web Semántica • Linked Data • Open Data
  3. 3. El problema… “una divinidad que delira” – J. L. Borges, La Biblioteca Total, 1939. “abundancia torrencial”, “el libro enfurecido” – J. Ortega y Gasset, Misión del Bibliotecario, 1935
  4. 4. Nuestro entorno: K, M, G KILO: mil (2^10) Memoria celular Texto (email, documento) MEGA: millón (2^20) Libro, Fotografía GIGA: mil millones (2^30) Memoria RAM, Buen video (Este es nuestro mundo…)
  5. 5. Poniéndonos serios…: TB TERA: un billón 10^12 2^{40} -- Biblioteca del Congreso (USA): 160 TB -- Discos de 1TB (2007) -- Tráfico diario de Internet (100 TB) -- Wikipedia: 6 Terabyte dump (2010) --3-D movie Monsters Vs Aliens (necesitó 100 TB disco) No es escala humana. Pero, lo maneja hoy cualquier empresa/experimento que se respete
  6. 6. Futuro inmediato: PB PETA : mil billones 10^15 2^50 – Internet Archive (3 PB) (crece a 100 TB por mes) – Google procesa 24 petabytes de datos cada día – 1/2 PB: filmar la vida de una persona (100 años en alta definición). – Facebook tiene 60 mil millones de imágenes, esto es 1,5PB. – Rapidshare dispone de una capacidad de almacenamiento de varios petabytes. – AT&T transfiere alrededor de 19 petabytes de datos al día. – Los experimentos del LHC (Large Hadron Collider) producirán 15 petabytes de datos al año.
  7. 7. Futuro próximo: EXA, Z EXA: millón de billones 10^18 (2^60) Todas las palabras que se han hablado: aprox. 5 EXB texto (42 zb digitalizadas. Internet ocupa entre 100 y 200 exabytes El premio del Sultán en el ajedrez: 2^64: casi 1 EXB Zetta 10^21 (2^70) El universo digital (todos los datos o archivos almacenados digitalm.) alcanza 1,2 millones de petabytes, o 1,2 zettabytes. Para 2020 será 30 veces más grande de lo que es hoy (aprox. 35 zb)
  8. 8. El problema • Hay demasiada información • Más aun: se produce torrencialmente • No sólo las “masas”, sino que los sensores Necesita arquitectura que considere: – Que todos son potenciales productores – Que todos son potenciales consumidores – Que escale a volúmenes “infinitos”
  9. 9. Solución del siglo xxi Crear un espacio de información universal: la Web (Tim Berners-Lee, 1990) Principio básico: –Todos pueden publicar –Todos pueden leer
  10. 10. La Web (en 3 minutos) Espacio de información universal: – “pizarrón universal” donde todos pueden publicar y todos pueden leer Nota: la Web no es Internet: – Internet: Red física, protocolos intercambio de paquetes: TCP/IP – Web: Red Lógica, protocolos de intercambio de info: HTML, HTTP, URI
  11. 11. La Web: principios de diseño 1. Independencia de Dispositivo 2. Independencia de software 3. Internacionalización 4. Multimedia 5. Accesibilidad 6. Ritmo y razón 7. Calidad 8. Independencia de escala
  12. 12. La Web: problemas 1. Información poco comprensible – Enlaces no tienen semántica – Metadatos inexistentes o subutilizados 2. Procesamiento al nivel sintáctico Resultado: -- difícil de automatizar -- imposible de razonar
  13. 13. Solución: Web Semántica Hipótesis: Procesar información a escala planetaria necesitará automatización ⇒ Máquinas deben “entender” ⇒ Desarrollar semántica automática “La Web Semántica es una Web donde la información sea entendible y usable tanto por humanos como por computadores.” --Tim Berners-Lee
  14. 14. La Web Semántica: Arquitectura
  15. 15. ¿Un proyecto viable? • Pocos resultados después de 10 años • ¿demasiado optimista? Una Web Semántica más modesta: –Enlazar datos (Linked Data) –Publicar datos (Open Data)
  16. 16. Etapa 0: el computador ATOMOS Objetos materiales Trabajo manual Intensivo en energía Productos con servicio Centralizado Estructuras jerárquicas Ciencia clásica BITS Objetos virtuales Trabajo intelectual Intensivo en información Servicios con productos Distribuído Estructuras planas Nuevo paradigma
  17. 17. Etapa 1: computadores interconectados: INTERNET
  18. 18. Etapa 2: documentos interconectados: WEB
  19. 19. Etapa 2: WEB • Enlaces (links) entre documentos • “Palabras” (secuencias de caracteres) y enlaces como el centro del universo •Lenguajes y protocolos: – HTTP (protocolo para escribir y leer) – HTML (lenguaje para la pizarra) – URI (identificadores únicos)
  20. 20. Etapa 2: debilidades • Información está aislada – pocos y malos enlaces • Los datos no están accesibles – se publican sólo documentos En términos prácticos: –Torrente, diluvio de (malos) datos nos ahoga –Se están formando islas privadas –No se puede “razonar” sobre la información
  21. 21. Etapa 3: datos interconectados
  22. 22. Lo que ven las máquinas hoy Lo que ven los humanos
  23. 23. Agregar semántica mínima
  24. 24. Etapa 3: Web de Datos • La información como datos • Los datos enlazados como red • Los datos públicos y abiertos Tecnologías claves: –RDF y SPARQL –Estrategia: Linked Data –Filosofía: Open data
  25. 25. Artefactos de datos Bases de Datos Desktops Dataspaces Bibliotecas Archivos Web clásica Web semántica Web de Datos Data Gov Open Data Estático Dinámico abiertocerrado Linked data
  26. 26. Desafíos 1. Cómo publicar: formatos, metadatos, temporalidad, persistencia, privacidad 2. Cómo enlazar: protocolos, escalabilidad, mantenibilidad, semántica 3. Cómo consultar / navegar: distribución, relaciones, rankeo, deducción 4. Cómo integrar: todas las anteriores…
  27. 27. Rol de Bibliotecas: algunas preguntas • En un mundo de información abierta: ¿cuáles son los límites? • Enlazar: ¿con quién? ¿cómo? • ¿Sólo organizar o también publicar? – ¿Quiénes serán responsables de publicación de datos por Facultad? • ¿Catalogación central o folksonomías? (mi tesis: Open Data cambiará radicalmente el rol y sentido de las bibliotecas)

×