2. Temario
Temario:
1. Web de Datos: La visión.
2. Tecnologías de la Web de Datos: Linked Data.
3. Herramientas.
4. Ejemplos de uso.
CTIC Centro Tecnológico • www.fundacionctic.org
4. Web Semántica. 5 Stars Web
Escala de excelencia creada por el inventor de la Web, Tim
Berners-Lee para medir el nivel de publicación en las
iniciativas Open Data.
La bonanza de los conjuntos de datos publicados
por una administración se mide en el rango
de calidad de sus distribuciones de datos,
establecido por los principios de la
Web de Datos (5 ★ Open Data)
CTIC Centro Tecnológico • www.fundacionctic.org
5. Web Semántica. 5 Stars Web
La “Linked Data Cloud” está formada por
servidores que albergan miles de
millones de datos en formatos
semánticos.
Para seguir la evolución de la nube LD:
• http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets
• http://richard.cyganiak.de/2007/10/lod/
• http://www4.wiwiss.fu-berlin.de/lodcloud/
• http://www4.wiwiss.fu-berlin.de/lodcloud/state
CTIC Centro Tecnológico • www.fundacionctic.org
6. Web Semántica. Tecnologías
Construcción de la Web de Datos: Linked Data.
• URIs: Uso de identificadores únicos
para la información publicada
• RDF: Uso de un modelo de datos
común para representar la
información.
• RDFS/OWL/SKOS: Empleo de
vocabularios para establecer
ontologías y clasificaciones.
• SPARQL: Lenguaje de consulta
sobre 'servidores semánticos’.
• Otras tecnologías (Rules, lógica, …)
para seguir construyendo ....
CTIC Centro Tecnológico • www.fundacionctic.org
7. RDF: modelo de datos
RDF
(Resource
Descrip.on
Framework)
es
un
framework
ideado
y
diseñado
para
representar
información
sobre
recursos
en
un
espacio
global
(la
Web).
En
RDF
todos
los
recursos
son
idenEficados
por
una
URI:
• IdenEficador
de
Recurso
Uniforme
• Ubicuidad:
accesible
desde
cualquier
punto
de
la
web
La
unidad
básica
de
información
es
la
tripleta,
formada
por
un
sujeto,
un
predicado
y
un
objeto.
El
modelo
de
datos
que
intrínsecamente
se
representa
mediante
RDF
es
de
un
grafo
dirigido
(mulEgrafo
dirigido
y
eEquetado).
CTIC Centro Tecnológico • www.fundacionctic.org
14. RDFS: Propiedades
• Definir una propiedad: rdf:Property
• Establecimiento del rango de aplicación
de una propiedad: rdfs:range
• Establecimiento del dominio de
aplicación de una propiedad:
rdfs:domain
• Especialización de las propiedades:
rdfs:subPropertyOf
CTIC Centro Tecnológico • www.fundacionctic.org
16. RDFS: Limitaciones -> OWL.
RDFS
Eene
una
serie
de
limitaciones
en
su
expresividad:
• Cardinalidad
de
la
propiedades:
una
persona
sólo
Eene
un
padre.
• TransiEvidad:
“descendiente
de”.
• Propiedades
“clave”
de
las
clases:
DNI.
• Dos
clases
diferentes
(URIs)
representan
la
misma
agrupación.
• Dos
instancias
diferentes
(URIs)
representan
el
mismo
individuo.
• Restricciones
en
la
cardinalidad
de
las
propiedades
dependiendo
de
la
clase
a
la
que
se
aplica:
“nº
de
jugadores”
(fútbol,
baloncesto,...)
• Relaciones
entre
clases:
uniones,
intersecciones,
disjunciones.
Se
han
desarrollado
otros
estándares
como
DAML+OIL
y
OWL
basados
en
RDF/RDFS
que
permiten
definir
de
forma
más
extensa
la
SemánEca
de
un
dominio
de
conocimiento.
CTIC Centro Tecnológico • www.fundacionctic.org
17. RDF: OWL (Web Ontology Language).
• Estándar
que
establece
un
lenguaje
para
definir
ontologías
para
la
Web
SemánEca.
• No
está
ideado
sólo
para
su
uso
con
datos
en
RDF
(tripletas,
grafos).
• Tiene
3
variantes
o
sublenguajes
con
diferentes
grados
de
expresividad:
OWL
Lite,
OWL
DL
and
OWL
Full
(ordenados
de
menos
a
mayor
complejidad).
• Overview:
hOp://www.w3.org/TR/2009/REC-‐owl2-‐overview-‐20091027/#
CTIC Centro Tecnológico • www.fundacionctic.org
18. Descripción de recursos. Vocabularios estándar
• Vocabularios “estándar” internacionales:
• SKOS Vocabulario para describir sistemas de organización del conocimiento como diccionarios,
taxonomías, tesauros, etc.
http://www.w3.org/2004/02/skos/
• DCMI Metadata Terms Dublin Core es una iniciativa para la especificación de metadatos básicos
para recursos en general.
http://dublincore.org/documents/dcmi-terms/
• FOAF Friend Of A Friend es un vocabulario que permite describir personas y relaciones entre ellas.
http://dublincore.org/documents/dcmi-terms/
• vCard Estándar para el modelado en RDF de información de contacto de personas u organizaciones.
http://www.w3.org/TR/vcard-rdf/
• Geonames Ontología para describir lugares (ciudades, regiones, …).
http://www.geonames.org/ontology/documentation.html
• Basic Geo (WGS84) Vocabulario creado por el W3C para definición de elementos geoespaciales
básicos.
http://www.w3.org/2003/01/geo/
• RDFS, OWL Estándares del W3C para describir vocabularios y ontologías RDF.
http://www.w3.org/TR/rdf-schema/ http://www.w3.org/TR/owl2-overview/
CTIC Centro Tecnológico • www.fundacionctic.org
19. Publicación RDF. Linked Data
• Diferentes formas de publicar RDF. Como un fichero RDF estático -> es otro
formato estructurado más.
• Publicación como Linked Data (LD):
• RDF como modelo de datos de la información. RDF/XML, Turtle, N3 …
• Non-Information resources vc Information Resources
URIs de identificación vs URIs de representación. Dereferenciación.
Uso de la negociación de contenido http para redirigir a las representaciones
http://datos.gob.es/catalogo/catalogoNacional
http://datos.gob.es/catalogo/catalogoNacional.rdf
http://datos.gob.es/catalogo/catalogoNacional.html
http://www4.wiwiss.fu-berlin.de/bizer/pub/linkeddatatutorial/
• SPARQL -> Lenguaje de consulta estándar sobre servidores de
información semántica
CTIC Centro Tecnológico • www.fundacionctic.org
20. Publicación RDF. Negociación de contenido
PeEción
de
la
clase
“Restaurante”
por
parte
de
un
cliente
HTML
!
PeEción
de
la
clase
“Restaurante”
por
parte
de
un
cliente
RDF
!
CTIC Centro Tecnológico • www.fundacionctic.org
21. Reutilización. SPARQL
• SPARQL Estándar para la consulta de datos en servidores semánticos. Por
ejemplo la DBpedia.
• SPARQL se usa en la red mediante estándares que definen el protocolo y el
formato de resultado:
• Protocolo SPARQL para RDF con vínculos a HTTP y SOAP
• Resultados SPARQL en formato XML o JSON
• http://www.w3.org/TR/rdf-sparql-query/
• RDF es un modelo de datos
de grafos dirigidos:
• La idea fundamental de SPARQL
• Se define un patrón contiene símbolos sin asociar.
• Asociando los símbolos, se seleccionan subgrafos del grafo RDF.
• Al hacer esa selección la consulta devuelve los recursos con sus
asociaciones.
CTIC Centro Tecnológico • www.fundacionctic.org
29. SPARQL. Ejemplo
Datos
de
turismo
del
Principado
de
Asturias:
• IdenEficamos
el
punto
SPARQL
• Y
(si
aplica)
el
grafo-‐dataset
de
los
datos
CTIC Centro Tecnológico • www.fundacionctic.org
30. SPARQL. Servidores: DBpedia
• DBpedia:
• Es una versión en RDF de la información de la Wikipedia.
• Recorre regularmente (crawling) las páginas de la wikipedia
recogiendo información de sus tablas de datos (infoboxes) y
jerarquías.
• Contiene casi 2000 millones de tripletas
• http://dbpedia.org/sparql
Modificadores
de
la
solución
• LIMIT
• ORDER
BY
• OFFSET
CTIC Centro Tecnológico • www.fundacionctic.org
31. SPARQL. Servidores: DBpedia
Uso
de
filtros
en
las
consultas.
• Hallar
en
la
dbpedia
los
nombre
de
los
países
sin
costa
con
una
población
mayor
de
15000000.
CTIC Centro Tecnológico • www.fundacionctic.org
32. Herramientas RDF
Listado de herramientas en la wiki del W3C:
http://www.w3.org/RDF/
• Entornos de programación:
• Java: Jena, Sesame
• PHP: ARC2
• Python: RDFLib
• Servidores nativos: Triple Stores (Quad Stores)
• Virtuoso
• 4Store
• AllegroGraph
• Servicios web. Datos en la nube (cloud)
• Dydra
• Kasabi (Talis)
CTIC Centro Tecnológico • www.fundacionctic.org
33. Web de Datos: Ejemplos
Google Rich Snippets: La mejora en la experiencia de
usuario al realizar las búsquedas tiene efectos en la
proporción de clics.
CTIC Centro Tecnológico • www.fundacionctic.org
34. Web de Datos: Ejemplos de uso
CTIC Centro Tecnológico • www.fundacionctic.org
35. Web de Datos: Iniciativas, Datos Gijón
hOp://www.fundacioncEc.org/odlabgijon/
hOp://datos.gijon.es/
CTIC Centro Tecnológico • www.fundacionctic.org