SlideShare a Scribd company logo
1 of 40
Datos abiertos enlazados:
situación actual y perspectivas
Christian Sifaqui
II Congreso de Bibliotecas Universitarias
y Especializadas
4 de junio de 2015
Motivación 1
Mundo pre-coordinado y mundo post-
coordinado
– “Falsa” tensión
– Bibliotecología - Ciencias de la Computación
Ejemplo portal de noticias
Christian Sifaqui, “Gestión digital de información de prensa”, Serie Bibliotecología y
Gestión de Información, 2014, n. 92. http://eprints.rclis.org/24155/
Motivación 1
Pre-coordinado
Motivación 1
Post-coordinado
Motivación 2
La web fue creada para compartir “documentos”
Tim Berners-Lee, “Information Management: A proposal”, 1989
Motivación 3
El valor de una red es la “conexión”
– Metcalfe's Law
– Reed's Law
David Reed, “The Law of the Pack”, Harvard Business Review, February 2001, 23-24
James Hendler and Jennifer Golbeck, “Metcalfe's Law, Web 2.0, and the Semantic
Web”, Journal of Web Semantics 6(1): 14-20, 2008
Motivación 4
¿Cómo clasificar un documento en mi computador?
– Documento ≠ archivo computacional
– Herramientas: jerarquía rígida de directorios y nombres
mnemotécnicos para los archivos computacionales
Deborah Barreau and Bonnie Nardi, “Finding and Reminding: File Organization from the
Desktop”, SIGCHI Bulletin, 27(3), July 1995 (buscar en directorios, en vez de usar search)
Scott Fertig, Eric Freeman and David Gelernter, “Finding and Reminding Reconsidered”,
SIGCHI Bulletin, 28(1), January 1996 (es porque no hay otras opciones)
– Énfasis en dónde está, en vez de qué es el documento
Bolsa de documentos Google desktop (septiembre
2011 dejó de actualizarse)
Motivación 4
Clasificar documentos en la web
– Yahoo Directory (cerrado en diciembre 2014)
– www.dmoz.org
El poder de la web (encontrar lo que se necesita) se
produce a través del espacio de enlaces que emerge
de las páginas web. Por ejemplo, algoritmo
PageRank
– Google
Sergey Brin, Lawrence Page, “The anatomy of a large-scale hypertextual Web search
engine”, Proceedings of the seventh international World Wide Web Conference, 1998
navegar
buscar
Motivación 4
Documento trata de cosas, entidades, etc.
Disponer “atributos” con semántica
autor=sifaqui
tipo=presentación
estado=final
tema=linked open data
evento=2 congreso sisib
tamaño=1.5 Mb
Motivación 4
• Marcadores sociales, folcsonomía, tagging
• Taxonomías
• Ontologías
• http://www.shirky.com/writings/ontology_ov
errated.html (2005) pero Folcsonomía falla
fuera de los ámbitos sociales
Motivación 5
Datos abiertos (open data)
es un idea que impulsa la publicación de datos de
forma libre y asequible a cualquier persona, para
que sean usados y republicados sin restricciones de
ningún tipo
World Wide Web
Repleta de información
Orientada al ser humano
– para comprender el contenido de una página
– para relacionar contenidos dentro de una página
(textos, imágenes, videos, etc.)
World Wide Web
Buscadores actuales funcionan bien, pero
orientados al keyword
– análisis de palabras y textos
– análisis de los enlaces
¿y consultas más complejas, con “semántica”?
Ejemplo: “diputados o senadores cuyos hermanos
hayan sido jueces”
cuyos
World Wide Web
Lo que “entiende” un programa Lo que “entiende” un ser humano
Líneas de trabajo
Soluciones
– a priori: estructurar la información en la Web para
facilitar el análisis automático  Web Semántica
– usar métodos de IA, computational statistics,
machine learning para analizar la información no
estructurada existente en la Web  Knowledge
Discovery
Web Semántica
Web Semántica
Se quiere que el significado de la información
pueda ser procesada algorítmicamente
Una forma de lograr lo anterior es mediante la
“representación del conocimiento”
– Lógica: proporciona la estructura formal para formular
reglas, permitiendo que los algoritmos puedan
obtener inferencias
– Ontología: define los objetos, que existen en un
dominio particular
– Computabilidad: es una propiedad de una base de
conocimientos, que permite que sea efectiva/real
Web Semántica
Ontologías: son representaciones, de un
conjunto de conceptos y las relaciones entre
ellos en un dominio determinado,
lingüísticamente precisas y estructuradas
formalmente
Las ontologías se utilizan como medio de
estructuración de la información y para el
intercambio de datos
String
Artista
Obra
EsculturaEscultor
Pintor
Cuadro
Técnica
Museo
Cubista Flamenca
String
String
String
String
nombre
nombre
nombre
utiliza
pintado_por
pinta
talla
tallado_por
producida_por
produce
expuesta_en
nombre
apellido
Web Semántica
OWL
– modela muy bien, pero con una inconsistencia
todo el razonamiento falla
– al permitir que hayan enlaces pueden aparecer
problemas.
– OWL es muy bueno para KR, pero no ha sido
“exitoso” para la www
• más mal uso de sameAs que un buen uso
• mayor uso de rdf:Class que owl:Class
• es raro ver que las ontologías se enlacen
Datos enlazados
Usa algunas de las mejores prácticas de la Web
Semántica
No se preocupa de tener una ontología
“completa”
Se enfoca en enlazar
Datos enlazados
• Use URIs para expresar “cosas”
• Use HTTP URIs para que estas “cosas”
puedan ser referenciadas por personas y
programas
• Proporcione información útil acerca de la
“cosa” (cuando se acceda a la URI) usando
estándares como RDF o SPARQL
• Incluya enlaces a otras “cosas” (usando sus
URIs)
Ciclos de vida, Datos enlazados
http://www.w3.org/2011/gld/wiki/GLD_Life_cycle
Datos enlazados
1. Crear
extracción de datos, creación de URIs HTTP,
seleccionar vocabulario
2. Enlazar
crear enlaces RDF a datos externos
3. Publicar
generar los metadatos y dejar disponible el conjunto
de datos
Paso 1: crear (extraer los datos)
1. Planillas o datos tabulares
OpenRefine
2. Bases de datos
R2RML
3. Textos
Gate, Stanford NLP, OpenNLP, NLTK, scikit-learn,
ANNIE, Wikifier, DBPedia Spotlight, KERT, STOD,
PLSA, LDA, etc.
Paso 1: crear (nombrar y diseñar)
1. Todas las cosas o entidades distintas deben
tener nombre
2. Diseñar usando Cool Uris
http://www.w3.org/TR/cooluris/
Paso 1: crear (buscar vocabularios)
Seleccionar vocabularios para modelar los conceptos y relaciones
Linked Open Vocabularies
http://lov.okfn.org
Protégé Ontologies
http://protegewiki.stanford.edu/index.php/Protege_Ontology_Library#OWL_ontologies
Open Ontology Repository
http://ontolog.cim3.net/cgi-bin/wiki.pl?OpenOntologyRepository
Tones
http://owl.cs.manchester.ac.uk/repository/browser
Watson
http://watson.kmi.open.ac.uk/Overview.html
OBO Foundation Ontologies
http://www.obofoundry.org/
VoCamps
http://vocamp.org/wiki/Main_Page
Falcons
http://ws.nju.edu.cn/falcons/objectsearch/index.jsp
Paso 1: crear (buscar vocabularios)
Seleccionar vocabularios para modelar los conceptos y relaciones
Sindice
http://sindice.com/
SWEO Community Project: Linking Open Data on the Semantic Web
http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/CommonVocabularies
Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata
Element Sets
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/
Paso 1: crear
Obtener un dataset RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = identificado por una URI
Se basa en tripletas
Sujeto  Predicado  Objeto
Paso 1: crear
Tripleta RDF
Manuel sufre de halitosis
Sujeto
• URI
• Nodo anónimo
Predicado
• URI
Objeto
• URI
• Literal
• Nodo anónimo
Paso 1: crear
Tripleta RDF
Manuel Sufre de halitosis
Paso 1: crear
Tripleta RDF
Manuel Padece de halitosis
http://www.examp
le.org/recurso/id/4
04
http://lexvo.org/id
/term/spa/padecer
http://dbpedia.org
/resource/Halitosis
Paso 1: crear (extraer los datos)
1. Planillas o datos tabulares
OpenRefine
2. Bases de datos
R2RML
3. Textos
Gate, Stanford NLP, OpenNLP, NLTK, scikit-learn,
ANNIE, Wikifier, DBPedia Spotlight, KERT, STOD,
PLSA, LDA, etc.
¿Cómo crear datos de Textos?
Data Mining, Text Mining, Information Extraction… ¿Qué se puede extraer de
un documento?
Nivel léxico
– Tokenización: extraer tokens de un documento (palabras, separadores, etc.)
– Separar sentencias: conjunto de sentencias para ser procesadas
Nivel lingüístico
– Part-of-Speech: asignar tipos de palabras (sustantivos, verbos, adjectivos, etc.)
– Deep parsing: construir árboles de sintaxis desde sentencias
– Name entity extraction: identificar nombres de personas, lugares, organizaciones, etc.
Nivel semántico
– Resolución de co-referencia: reemplazar pronombres por nombres correspondientes,
mezclar diferentes formas de nombres por una sola entidad
– Semantic labeling: asignar identificadores semánticos a nombres considerando
desambiguación
– Resumen: asignar importancia a partes de un documento
– Extracción de hechos: extraer hechos relevantes de un documento
¿Cómo crear datos de Textos?
¿Cómo crear datos de Textos?
¿Cuán parecidos son los documentos?
Un documento se puede representar por miles
de atributos, cada uno almacenando la
frecuencia de una palabra en particular (vector
de frecuencia de términos)
¿Cuán parecidos son los documentos?
Docu
ment
o
Recur
so de
casaci
ón
Códig
o civil
muni
cipali
dad
eléctr
ico
Decre
to
supre
mo
acusa
do
Error
de
derec
ho
Const
itució
n
políti
ca
juez Talca
D1 5 0 3 0 2 0 0 2 0 0
D2 3 0 2 0 1 1 0 1 0 1
D3 0 7 0 2 1 0 0 3 0 0
D4 0 1 0 0 1 2 2 0 3 0
¿Cuán parecidos son los documentos?
Similitud coseno es una medida de similitud que se puede usar para comparar
documentos, si el valor es más cercano a 1, más parecidos son, un valor de 0 significa
que los dos vectores están en 90 grados (ortogonales)
sim(x,y)=
𝑥∗𝑦
𝑥 𝑦
Usando el ejemplo anterior, x e y son los primeros dos vectores de frecuencia de
términos, es decir, x=(5, 0, 3, 0, 2, 0, 0, 2, 0, 0) e y=(3, 0, 2, 0, 1, 1, 0, 1, 0, 1).
xt · y = 5 x 3 + 0 x 0 + 3 x 2 + 0 x 0 + 2 x 1 + 0 x 1 + 0 x 0 + 2 x 1 + 0 x 0 + 0 x 1= 25
𝑥 = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 = 6.48
𝑦 = 32 + 02 + 22 + 02 + 12 + 12 + 02 + 12 + 02 + 12 = 4.12
sim(x, y) = 0.94
De esta manera, esta medida indica que los documentos son bastante similares
Bibliotecas
Kungliga biblioteket
https://github.com/libris/librisxl/
http://librisbloggen.kb.se/
https://twitter.com/librisnytt
http://devkat.libris.kb.se/ usuario test password test
Library of Congress
British Library
Bibliothèque nationale de France
Deutsche Nationalbibliothek
Biblioteca Nacional de España
BIBFRAME http://www.loc.gov/bibframe/

More Related Content

What's hot

Cómo desarrollar bienes y servicios públicos con datos
Cómo desarrollar bienes y servicios públicos con datosCómo desarrollar bienes y servicios públicos con datos
Cómo desarrollar bienes y servicios públicos con datos
Gobierno Local
 
Historia del internet
Historia del internetHistoria del internet
Historia del internet
jhoncali
 
Ensayo argumentativo
Ensayo argumentativoEnsayo argumentativo
Ensayo argumentativo
jarman zpata
 
Noticia tecnológica Tim berners Lee
Noticia tecnológica Tim berners LeeNoticia tecnológica Tim berners Lee
Noticia tecnológica Tim berners Lee
mtcarda
 

What's hot (14)

Tutorial Web Semantica Morelia
Tutorial Web Semantica MoreliaTutorial Web Semantica Morelia
Tutorial Web Semantica Morelia
 
Introducción a la Web Semántica
Introducción a la Web SemánticaIntroducción a la Web Semántica
Introducción a la Web Semántica
 
Web of data y los repositorios institucionales
Web of data y los repositorios institucionalesWeb of data y los repositorios institucionales
Web of data y los repositorios institucionales
 
DBpedia Latinoamérica en ENC 2015
DBpedia Latinoamérica en ENC 2015DBpedia Latinoamérica en ENC 2015
DBpedia Latinoamérica en ENC 2015
 
Cómo desarrollar bienes y servicios públicos con datos
Cómo desarrollar bienes y servicios públicos con datosCómo desarrollar bienes y servicios públicos con datos
Cómo desarrollar bienes y servicios públicos con datos
 
traficando
traficando   traficando
traficando
 
Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)
 
Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)
Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)
Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)
 
Metodos d busqueda 2
Metodos d busqueda 2Metodos d busqueda 2
Metodos d busqueda 2
 
Historia del internet
Historia del internetHistoria del internet
Historia del internet
 
Ensayo argumentativo
Ensayo argumentativoEnsayo argumentativo
Ensayo argumentativo
 
Prueba PRUEBA TITULO
Prueba PRUEBA TITULOPrueba PRUEBA TITULO
Prueba PRUEBA TITULO
 
Fuentes de información
Fuentes de informaciónFuentes de información
Fuentes de información
 
Noticia tecnológica Tim berners Lee
Noticia tecnológica Tim berners LeeNoticia tecnológica Tim berners Lee
Noticia tecnológica Tim berners Lee
 

Viewers also liked

Datos Abiertos (Enlazados) y democratización del acceso a la información en C...
Datos Abiertos (Enlazados) y democratización del acceso a la información en C...Datos Abiertos (Enlazados) y democratización del acceso a la información en C...
Datos Abiertos (Enlazados) y democratización del acceso a la información en C...
Alessandro Chiaretti
 
Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012
Christian Sifaqui
 

Viewers also liked (9)

Datos Abiertos (Enlazados) y democratización del acceso a la información en C...
Datos Abiertos (Enlazados) y democratización del acceso a la información en C...Datos Abiertos (Enlazados) y democratización del acceso a la información en C...
Datos Abiertos (Enlazados) y democratización del acceso a la información en C...
 
Caminando hacia la Web Semántica: Datos abiertos enlazados
Caminando hacia la Web Semántica: Datos abiertos enlazadosCaminando hacia la Web Semántica: Datos abiertos enlazados
Caminando hacia la Web Semántica: Datos abiertos enlazados
 
Difusión procedimientos octubre
Difusión procedimientos octubreDifusión procedimientos octubre
Difusión procedimientos octubre
 
Recursos electronicos
Recursos electronicosRecursos electronicos
Recursos electronicos
 
Visualización de datos enlazados
Visualización de datos enlazadosVisualización de datos enlazados
Visualización de datos enlazados
 
Recursos Electronicos
Recursos ElectronicosRecursos Electronicos
Recursos Electronicos
 
Nuevos roles de la biblioteca en la edición, difusión y acceso al libro acadé...
Nuevos roles de la biblioteca en la edición, difusión y acceso al libro acadé...Nuevos roles de la biblioteca en la edición, difusión y acceso al libro acadé...
Nuevos roles de la biblioteca en la edición, difusión y acceso al libro acadé...
 
Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012
 
Recursos electrónicos
Recursos electrónicosRecursos electrónicos
Recursos electrónicos
 

Similar to Datos abiertos enlazados: situación actual y perspectivas

Indización automatizada
Indización automatizadaIndización automatizada
Indización automatizada
Javier Gascón
 
Sistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web SemácticaSistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web Semáctica
martinp
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012
Dangel DC
 
Web semantica y ontologias
Web semantica y ontologiasWeb semantica y ontologias
Web semantica y ontologias
Vane Erraez
 
Base de datos-objeto-relacional
Base de datos-objeto-relacionalBase de datos-objeto-relacional
Base de datos-objeto-relacional
Eduar Alfons Leon
 
Red semantica en la+web
Red semantica en la+webRed semantica en la+web
Red semantica en la+web
rccmaria
 

Similar to Datos abiertos enlazados: situación actual y perspectivas (20)

Charla Biblioteca Nacional, 24 de julio de 2014
Charla Biblioteca Nacional, 24 de julio de 2014Charla Biblioteca Nacional, 24 de julio de 2014
Charla Biblioteca Nacional, 24 de julio de 2014
 
Introduccion - Curso Ontologías
Introduccion - Curso OntologíasIntroduccion - Curso Ontologías
Introduccion - Curso Ontologías
 
Indización automatizada
Indización automatizadaIndización automatizada
Indización automatizada
 
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
 
aporte de internet
aporte de internetaporte de internet
aporte de internet
 
Introduccion a OpenData
Introduccion a OpenDataIntroduccion a OpenData
Introduccion a OpenData
 
Sistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web SemácticaSistemas de Recomendación de Información - Web Semáctica
Sistemas de Recomendación de Información - Web Semáctica
 
Internet
InternetInternet
Internet
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012
 
Programación orientada a la semántica
Programación orientada a la semántica  Programación orientada a la semántica
Programación orientada a la semántica
 
Web semantica y ontologias
Web semantica y ontologiasWeb semantica y ontologias
Web semantica y ontologias
 
Base de datos-objeto-relacional
Base de datos-objeto-relacionalBase de datos-objeto-relacional
Base de datos-objeto-relacional
 
Curs 1.6. Datos enlazados (2h) OpenDataLab
Curs 1.6. Datos enlazados (2h) OpenDataLabCurs 1.6. Datos enlazados (2h) OpenDataLab
Curs 1.6. Datos enlazados (2h) OpenDataLab
 
Researching Semantic Web-Overview
Researching Semantic Web-OverviewResearching Semantic Web-Overview
Researching Semantic Web-Overview
 
Desarrollo de aplicaciones 3.0
Desarrollo de aplicaciones 3.0Desarrollo de aplicaciones 3.0
Desarrollo de aplicaciones 3.0
 
Red semantica en la+web
Red semantica en la+webRed semantica en la+web
Red semantica en la+web
 
Red+semantica+en+la+web
Red+semantica+en+la+webRed+semantica+en+la+web
Red+semantica+en+la+web
 
Curs 1.6 Datos Enlazados
Curs 1.6 Datos EnlazadosCurs 1.6 Datos Enlazados
Curs 1.6 Datos Enlazados
 
Introducción a la programación de la Web Semántica
Introducción a la programación de la Web Semántica Introducción a la programación de la Web Semántica
Introducción a la programación de la Web Semántica
 
Linked Open Data
Linked Open Data Linked Open Data
Linked Open Data
 

More from Sistema de Servicios de Información y Bibliotecas SISIB

More from Sistema de Servicios de Información y Bibliotecas SISIB (20)

El marketing es mucho más que el signo $. Es una disciplina científica que ta...
El marketing es mucho más que el signo $. Es una disciplina científica que ta...El marketing es mucho más que el signo $. Es una disciplina científica que ta...
El marketing es mucho más que el signo $. Es una disciplina científica que ta...
 
Ciencias y humanidades: PNAS y University of Chicago Press
Ciencias y humanidades: PNAS y University of Chicago PressCiencias y humanidades: PNAS y University of Chicago Press
Ciencias y humanidades: PNAS y University of Chicago Press
 
El TPP y el acceso al conocimiento
El TPP y el acceso al conocimientoEl TPP y el acceso al conocimiento
El TPP y el acceso al conocimiento
 
Personalización de servicios de descubrimiento: Que el servicio sea tuyo
Personalización de servicios de descubrimiento: Que el servicio sea tuyoPersonalización de servicios de descubrimiento: Que el servicio sea tuyo
Personalización de servicios de descubrimiento: Que el servicio sea tuyo
 
Cómo producir un colaboratorio. Relevancia de la sistematización y reflexibil...
Cómo producir un colaboratorio. Relevancia de la sistematización y reflexibil...Cómo producir un colaboratorio. Relevancia de la sistematización y reflexibil...
Cómo producir un colaboratorio. Relevancia de la sistematización y reflexibil...
 
Últimas tendencias en Bibliotecas Digitales según Springer Nature
Últimas tendencias en Bibliotecas Digitales según Springer NatureÚltimas tendencias en Bibliotecas Digitales según Springer Nature
Últimas tendencias en Bibliotecas Digitales según Springer Nature
 
Today's forecast for your campus: BLUEcloud
 Today's forecast for your campus: BLUEcloud Today's forecast for your campus: BLUEcloud
Today's forecast for your campus: BLUEcloud
 
Biblioteca virtual para personas con discapacidad
 Biblioteca virtual para personas con discapacidad Biblioteca virtual para personas con discapacidad
Biblioteca virtual para personas con discapacidad
 
La biblioteca como centro de innovación para el aprendizaje
La biblioteca como centro de innovación para el aprendizajeLa biblioteca como centro de innovación para el aprendizaje
La biblioteca como centro de innovación para el aprendizaje
 
Impacto de la integración de las TIC’s a través del proyecto Tecnoaulas en l...
 Impacto de la integración de las TIC’s a través del proyecto Tecnoaulas en l... Impacto de la integración de las TIC’s a través del proyecto Tecnoaulas en l...
Impacto de la integración de las TIC’s a través del proyecto Tecnoaulas en l...
 
Analítica web: Métricas clave para entender a nuestros usuarios
Analítica web: Métricas clave para entender a nuestros usuariosAnalítica web: Métricas clave para entender a nuestros usuarios
Analítica web: Métricas clave para entender a nuestros usuarios
 
Datos abiertos enlazados: Experiencia en la Universidad de Chile
Datos abiertos enlazados: Experiencia en la Universidad de ChileDatos abiertos enlazados: Experiencia en la Universidad de Chile
Datos abiertos enlazados: Experiencia en la Universidad de Chile
 
El proyecto LEARN y la gestión de datos de investigación: Avances y desafíos ...
El proyecto LEARN y la gestión de datos de investigación: Avances y desafíos ...El proyecto LEARN y la gestión de datos de investigación: Avances y desafíos ...
El proyecto LEARN y la gestión de datos de investigación: Avances y desafíos ...
 
Indexing repositories: Pitfalls & best practices
Indexing repositories: Pitfalls & best practicesIndexing repositories: Pitfalls & best practices
Indexing repositories: Pitfalls & best practices
 
Envisioning the possibilities: Educational trends and information literacy in...
Envisioning the possibilities: Educational trends and information literacy in...Envisioning the possibilities: Educational trends and information literacy in...
Envisioning the possibilities: Educational trends and information literacy in...
 
Microdata y SEO: Para qué queremos tener datos estructurados hoy
Microdata y SEO: Para qué queremos tener datos estructurados hoyMicrodata y SEO: Para qué queremos tener datos estructurados hoy
Microdata y SEO: Para qué queremos tener datos estructurados hoy
 
Los servicios de publicación desarrollados por las bibliotecas universitarias
 Los servicios de publicación desarrollados por las bibliotecas universitarias Los servicios de publicación desarrollados por las bibliotecas universitarias
Los servicios de publicación desarrollados por las bibliotecas universitarias
 
Mapas patrimoniales en la Biblioteca Nacional de Chile
Mapas patrimoniales en la Biblioteca Nacional de ChileMapas patrimoniales en la Biblioteca Nacional de Chile
Mapas patrimoniales en la Biblioteca Nacional de Chile
 
Trends for Academic and Research Libraries – Learning with ALA’s Center for t...
Trends for Academic and Research Libraries – Learning with ALA’s Center for t...Trends for Academic and Research Libraries – Learning with ALA’s Center for t...
Trends for Academic and Research Libraries – Learning with ALA’s Center for t...
 
Nueva generación de sistemas de gestión de bibliotecas
Nueva generación de sistemas de gestión de bibliotecasNueva generación de sistemas de gestión de bibliotecas
Nueva generación de sistemas de gestión de bibliotecas
 

Recently uploaded

INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
evercoyla
 
tesis maíz univesidad catolica santa maria
tesis maíz univesidad catolica santa mariatesis maíz univesidad catolica santa maria
tesis maíz univesidad catolica santa maria
susafy7
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
gustavoiashalom
 

Recently uploaded (20)

Presentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptxPresentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptx
 
Lineamientos del Plan Oferta y Demanda sesión 5
Lineamientos del Plan Oferta y Demanda sesión 5Lineamientos del Plan Oferta y Demanda sesión 5
Lineamientos del Plan Oferta y Demanda sesión 5
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
 
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEstadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
 
tesis maíz univesidad catolica santa maria
tesis maíz univesidad catolica santa mariatesis maíz univesidad catolica santa maria
tesis maíz univesidad catolica santa maria
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
 
Sistemas de Ecuaciones no lineales-1.pptx
Sistemas de Ecuaciones no lineales-1.pptxSistemas de Ecuaciones no lineales-1.pptx
Sistemas de Ecuaciones no lineales-1.pptx
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
Análisis_y_Diseño_de_Estructuras_con_SAP_2000,_5ta_Edición_ICG.pdf
Análisis_y_Diseño_de_Estructuras_con_SAP_2000,_5ta_Edición_ICG.pdfAnálisis_y_Diseño_de_Estructuras_con_SAP_2000,_5ta_Edición_ICG.pdf
Análisis_y_Diseño_de_Estructuras_con_SAP_2000,_5ta_Edición_ICG.pdf
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
Quimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdfQuimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdf
 
Desigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfDesigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdf
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operaciones
 
Sistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internaSistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión interna
 
Tinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaTinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiología
 
Minería convencional: datos importantes y conceptos
Minería convencional: datos importantes y conceptosMinería convencional: datos importantes y conceptos
Minería convencional: datos importantes y conceptos
 
Ficha Tecnica de Ladrillos de Tabique de diferentes modelos
Ficha Tecnica de Ladrillos de Tabique de diferentes modelosFicha Tecnica de Ladrillos de Tabique de diferentes modelos
Ficha Tecnica de Ladrillos de Tabique de diferentes modelos
 
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdfCONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
 

Datos abiertos enlazados: situación actual y perspectivas

  • 1. Datos abiertos enlazados: situación actual y perspectivas Christian Sifaqui II Congreso de Bibliotecas Universitarias y Especializadas 4 de junio de 2015
  • 2. Motivación 1 Mundo pre-coordinado y mundo post- coordinado – “Falsa” tensión – Bibliotecología - Ciencias de la Computación Ejemplo portal de noticias Christian Sifaqui, “Gestión digital de información de prensa”, Serie Bibliotecología y Gestión de Información, 2014, n. 92. http://eprints.rclis.org/24155/
  • 5. Motivación 2 La web fue creada para compartir “documentos” Tim Berners-Lee, “Information Management: A proposal”, 1989
  • 6. Motivación 3 El valor de una red es la “conexión” – Metcalfe's Law – Reed's Law David Reed, “The Law of the Pack”, Harvard Business Review, February 2001, 23-24 James Hendler and Jennifer Golbeck, “Metcalfe's Law, Web 2.0, and the Semantic Web”, Journal of Web Semantics 6(1): 14-20, 2008
  • 7. Motivación 4 ¿Cómo clasificar un documento en mi computador? – Documento ≠ archivo computacional – Herramientas: jerarquía rígida de directorios y nombres mnemotécnicos para los archivos computacionales Deborah Barreau and Bonnie Nardi, “Finding and Reminding: File Organization from the Desktop”, SIGCHI Bulletin, 27(3), July 1995 (buscar en directorios, en vez de usar search) Scott Fertig, Eric Freeman and David Gelernter, “Finding and Reminding Reconsidered”, SIGCHI Bulletin, 28(1), January 1996 (es porque no hay otras opciones) – Énfasis en dónde está, en vez de qué es el documento Bolsa de documentos Google desktop (septiembre 2011 dejó de actualizarse)
  • 8. Motivación 4 Clasificar documentos en la web – Yahoo Directory (cerrado en diciembre 2014) – www.dmoz.org El poder de la web (encontrar lo que se necesita) se produce a través del espacio de enlaces que emerge de las páginas web. Por ejemplo, algoritmo PageRank – Google Sergey Brin, Lawrence Page, “The anatomy of a large-scale hypertextual Web search engine”, Proceedings of the seventh international World Wide Web Conference, 1998 navegar buscar
  • 9. Motivación 4 Documento trata de cosas, entidades, etc. Disponer “atributos” con semántica autor=sifaqui tipo=presentación estado=final tema=linked open data evento=2 congreso sisib tamaño=1.5 Mb
  • 10. Motivación 4 • Marcadores sociales, folcsonomía, tagging • Taxonomías • Ontologías • http://www.shirky.com/writings/ontology_ov errated.html (2005) pero Folcsonomía falla fuera de los ámbitos sociales
  • 11. Motivación 5 Datos abiertos (open data) es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo
  • 12. World Wide Web Repleta de información Orientada al ser humano – para comprender el contenido de una página – para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  • 13. World Wide Web Buscadores actuales funcionan bien, pero orientados al keyword – análisis de palabras y textos – análisis de los enlaces ¿y consultas más complejas, con “semántica”? Ejemplo: “diputados o senadores cuyos hermanos hayan sido jueces” cuyos
  • 14. World Wide Web Lo que “entiende” un programa Lo que “entiende” un ser humano
  • 15. Líneas de trabajo Soluciones – a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica – usar métodos de IA, computational statistics, machine learning para analizar la información no estructurada existente en la Web  Knowledge Discovery
  • 17. Web Semántica Se quiere que el significado de la información pueda ser procesada algorítmicamente Una forma de lograr lo anterior es mediante la “representación del conocimiento” – Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias – Ontología: define los objetos, que existen en un dominio particular – Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real
  • 18. Web Semántica Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos
  • 20. Web Semántica OWL – modela muy bien, pero con una inconsistencia todo el razonamiento falla – al permitir que hayan enlaces pueden aparecer problemas. – OWL es muy bueno para KR, pero no ha sido “exitoso” para la www • más mal uso de sameAs que un buen uso • mayor uso de rdf:Class que owl:Class • es raro ver que las ontologías se enlacen
  • 21. Datos enlazados Usa algunas de las mejores prácticas de la Web Semántica No se preocupa de tener una ontología “completa” Se enfoca en enlazar
  • 22. Datos enlazados • Use URIs para expresar “cosas” • Use HTTP URIs para que estas “cosas” puedan ser referenciadas por personas y programas • Proporcione información útil acerca de la “cosa” (cuando se acceda a la URI) usando estándares como RDF o SPARQL • Incluya enlaces a otras “cosas” (usando sus URIs)
  • 23. Ciclos de vida, Datos enlazados http://www.w3.org/2011/gld/wiki/GLD_Life_cycle
  • 24. Datos enlazados 1. Crear extracción de datos, creación de URIs HTTP, seleccionar vocabulario 2. Enlazar crear enlaces RDF a datos externos 3. Publicar generar los metadatos y dejar disponible el conjunto de datos
  • 25. Paso 1: crear (extraer los datos) 1. Planillas o datos tabulares OpenRefine 2. Bases de datos R2RML 3. Textos Gate, Stanford NLP, OpenNLP, NLTK, scikit-learn, ANNIE, Wikifier, DBPedia Spotlight, KERT, STOD, PLSA, LDA, etc.
  • 26. Paso 1: crear (nombrar y diseñar) 1. Todas las cosas o entidades distintas deben tener nombre 2. Diseñar usando Cool Uris http://www.w3.org/TR/cooluris/
  • 27. Paso 1: crear (buscar vocabularios) Seleccionar vocabularios para modelar los conceptos y relaciones Linked Open Vocabularies http://lov.okfn.org Protégé Ontologies http://protegewiki.stanford.edu/index.php/Protege_Ontology_Library#OWL_ontologies Open Ontology Repository http://ontolog.cim3.net/cgi-bin/wiki.pl?OpenOntologyRepository Tones http://owl.cs.manchester.ac.uk/repository/browser Watson http://watson.kmi.open.ac.uk/Overview.html OBO Foundation Ontologies http://www.obofoundry.org/ VoCamps http://vocamp.org/wiki/Main_Page Falcons http://ws.nju.edu.cn/falcons/objectsearch/index.jsp
  • 28. Paso 1: crear (buscar vocabularios) Seleccionar vocabularios para modelar los conceptos y relaciones Sindice http://sindice.com/ SWEO Community Project: Linking Open Data on the Semantic Web http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/CommonVocabularies Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/
  • 29. Paso 1: crear Obtener un dataset RDF Resource Description Framework (1998) Descripción de recursos Recurso = identificado por una URI Se basa en tripletas Sujeto  Predicado  Objeto
  • 30. Paso 1: crear Tripleta RDF Manuel sufre de halitosis Sujeto • URI • Nodo anónimo Predicado • URI Objeto • URI • Literal • Nodo anónimo
  • 31. Paso 1: crear Tripleta RDF Manuel Sufre de halitosis
  • 32. Paso 1: crear Tripleta RDF Manuel Padece de halitosis http://www.examp le.org/recurso/id/4 04 http://lexvo.org/id /term/spa/padecer http://dbpedia.org /resource/Halitosis
  • 33. Paso 1: crear (extraer los datos) 1. Planillas o datos tabulares OpenRefine 2. Bases de datos R2RML 3. Textos Gate, Stanford NLP, OpenNLP, NLTK, scikit-learn, ANNIE, Wikifier, DBPedia Spotlight, KERT, STOD, PLSA, LDA, etc.
  • 34. ¿Cómo crear datos de Textos? Data Mining, Text Mining, Information Extraction… ¿Qué se puede extraer de un documento? Nivel léxico – Tokenización: extraer tokens de un documento (palabras, separadores, etc.) – Separar sentencias: conjunto de sentencias para ser procesadas Nivel lingüístico – Part-of-Speech: asignar tipos de palabras (sustantivos, verbos, adjectivos, etc.) – Deep parsing: construir árboles de sintaxis desde sentencias – Name entity extraction: identificar nombres de personas, lugares, organizaciones, etc. Nivel semántico – Resolución de co-referencia: reemplazar pronombres por nombres correspondientes, mezclar diferentes formas de nombres por una sola entidad – Semantic labeling: asignar identificadores semánticos a nombres considerando desambiguación – Resumen: asignar importancia a partes de un documento – Extracción de hechos: extraer hechos relevantes de un documento
  • 35. ¿Cómo crear datos de Textos?
  • 36. ¿Cómo crear datos de Textos?
  • 37. ¿Cuán parecidos son los documentos? Un documento se puede representar por miles de atributos, cada uno almacenando la frecuencia de una palabra en particular (vector de frecuencia de términos)
  • 38. ¿Cuán parecidos son los documentos? Docu ment o Recur so de casaci ón Códig o civil muni cipali dad eléctr ico Decre to supre mo acusa do Error de derec ho Const itució n políti ca juez Talca D1 5 0 3 0 2 0 0 2 0 0 D2 3 0 2 0 1 1 0 1 0 1 D3 0 7 0 2 1 0 0 3 0 0 D4 0 1 0 0 1 2 2 0 3 0
  • 39. ¿Cuán parecidos son los documentos? Similitud coseno es una medida de similitud que se puede usar para comparar documentos, si el valor es más cercano a 1, más parecidos son, un valor de 0 significa que los dos vectores están en 90 grados (ortogonales) sim(x,y)= 𝑥∗𝑦 𝑥 𝑦 Usando el ejemplo anterior, x e y son los primeros dos vectores de frecuencia de términos, es decir, x=(5, 0, 3, 0, 2, 0, 0, 2, 0, 0) e y=(3, 0, 2, 0, 1, 1, 0, 1, 0, 1). xt · y = 5 x 3 + 0 x 0 + 3 x 2 + 0 x 0 + 2 x 1 + 0 x 1 + 0 x 0 + 2 x 1 + 0 x 0 + 0 x 1= 25 𝑥 = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 = 6.48 𝑦 = 32 + 02 + 22 + 02 + 12 + 12 + 02 + 12 + 02 + 12 = 4.12 sim(x, y) = 0.94 De esta manera, esta medida indica que los documentos son bastante similares
  • 40. Bibliotecas Kungliga biblioteket https://github.com/libris/librisxl/ http://librisbloggen.kb.se/ https://twitter.com/librisnytt http://devkat.libris.kb.se/ usuario test password test Library of Congress British Library Bibliothèque nationale de France Deutsche Nationalbibliothek Biblioteca Nacional de España BIBFRAME http://www.loc.gov/bibframe/

Editor's Notes

  1. Taxonomía: clasificación que procura la organización jerarquizada y sistemática, dando nombres a grupos de elementos y a los elementos mismos. Ontología: incluyen definiciones de conceptos básicos en un campo determinado y las relaciones entre ellos. Por medio de vocabularios controlados, proporcionando una descripción lógica y formal que puede ser interpretada tanto por las personas como por las máquinas