Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Fórum de discussão sobre RDF e metadados
1. Fórum de discussões da Biblioteca de Estudos e Aplicação de Metadados
Resource
Description
Framework
(RDF)
Jaider Andrade Ferreira
Bolsista FAPESP
2. Sumário
Introdução
Representação da informação
Ciência da Informação e Web Semântica
RDF (o que é?)
Intercâmbio de metadados
Vocabulários
Declarações
Modelos conceituais
Ontologia
RDF (histórico)
Gráficos
Identificadores
RDF (sintaxe)
Considerações
3. Representação da informação
“A representação da informação é necessária em qualquer
ambiente para proporcionar uma recuperação mais
eficiente” (SANTOS; ALVES, 2009).
Os desenvolvedores da Web tem procurado desenvolver
mecanismos e estruturas que possibilitam a atribuição de
metadados aos recursos para uma melhor recuperação das
informações.
4. Representação da informação
Dessa forma, há uma tendência rumo a uma maior
estruturação das informações disponibilizadas na Web.
Estruturação essa que diz respeito à representação ou
descrição de recursos (informacionais ou não).
Da necessidade de estruturar e descrever semanticamente o
conteúdo das páginas ou mesmo de representar e descrever
semanticamente uma entidade não presente no ambiente
digital, por exemplo, uma pessoa, surge o projeto da Web
Semântica.
5. Ciência da Informação e Web Semântica
Segundo Santos e Alves (2009),
as tecnologias da Web Semântica convergem para a
área de Ciência da Informação, estabelecendo uma
estreita relação na questão da representação do
conhecimento, principalmente no que se refere ao
uso de metadados considerados essenciais no
estabelecimento dos requisitos para uma boa
representação dos recursos informacionais na rede.
6. A base da Web Semântica
O alicerce da Web Semântica está num modelo de
descrição dos recursos, o Resource Description
Framework (RDF).
Uma vez que a Catalogação descritiva lida com a
descrição de recursos, ela está intimamente
relacionada ao RDF.
(CATARINO; SOUZA, 2012, p. 78)
7. A base da Web Semântica
“a base da Web Semântica é a representação
descritiva dos recursos a partir de um modelo em
que os registros de metadados são representados
por um conjunto de declarações [...]”
(CATARINO; SOUZA, 2012, p. 86)
8. Novo padrão para o intercâmbio
O entendimento do RDF é crucial para o ramo da
Catalogação, pois ele será utilizado no padrão de
intercâmbio de dados bibliográficos que substituirá o
padrão MARC 21.
(LIBRARY OF CONGRESS, 2011)
9. Intercâmbio de metadados
Segundo Miller (1998), o RDF, desenvolvido pelo
World Wide Web Consortium (W3C), é uma
infraestrutura que permite a codificação, o
intercâmbio e o reuso de metadados estruturados.
Esta infraestrutura permite a interoperabilidade de
metadados através da concepção de mecanismos
que suportam convenções comuns de semântica, de
sintaxe e de estrutura.
10. Intercâmbio de metadados
O RDF não estipula a semântica para cada
comunidade de descrição de recursos, mas sim
oferece a capacidade para essas comunidades
definirem os elementos de metadados conforme
suas necessidades.
(MILLER, 1998)
11. Intercâmbio de metadados
O RDF pode utilizar-se da eXtensible Markup Language (XML)
como sintaxe comum para o intercâmbio e o processamento
de metadados.
Utilizando-se da XML, o RDF impõe uma estrutura que
proporciona a expressão não ambígua da semântica e, desse
modo, possibilita a codificação, o intercâmbio e o
processamento consistente de metadados padronizados
(MILLER, 1998).
12. Intercâmbio de metadados
Além disso, Miller (1998) destaca que o modelo RDF suporta o
uso de convenções que facilitam a interoperabilidade
modular entre conjuntos separados de elementos de
metadados.
Essas convenções incluem mecanismos para a representação
semântica que se baseiam em um simples, porém poderoso,
modelo de dados.
13. Vocabulários
Adicionalmente, o RDF Schema, uma extensão do RDF,
proporciona um meio para a publicação tanto de vocabulários
legíveis por humanos quanto de vocabulários legíveis por
máquinas.
Vocabulário, nesse contexto, é definido como um conjunto
de propriedades ou termos descritivos, isto é, elementos de
metadados, definidos por uma comunidade de descrição de
recursos.
14. Vocabulários
Exemplo:
Dublin Core
Em http://dublincore.org/documents/dces
“The Dublin Core Metadata Element Set is a vocabulary of
fifteen properties for use in resource description…”
Em http://dublincore.org/about-us
“The DCMI provides core metadata vocabularies...”
16. Mas, e o RDF?
Vamos chegar lá,
só mais algumas considerações
antes de prosseguir
17. Como o ser humano compreende o mundo?
Uma das formas mais comuns é por meio de
declarações:
Fulano é o papai
Fulana é a mamãe
A bola é verde
A panela está quente
Etc.
18. Como o ser humano compreende o mundo?
Assim, classificamos as coisas...
Joãozinho é um ser humano
Ser humano é um mamífero
Mamífero é um animal
Etc.
(relações hierárquicas, é um(a))
19. Como o ser humano compreende o mundo?
... e atribuímos propriedades a elas:
Joãozinho tem 22 anos
Joãozinho mora em Marília
Joãozinho estuda na Unesp
Etc.
(relações não hierárquicas)
20. Como o ser humano compreende o mundo?
Dessa forma, podemos fazer afirmações como:
Humanos são mortais
Gregos são humanos
E tirarmos conclusões a partir dessas afirmações (inferências,
deduções):
Gregos são mortais
21. Lógica
Aristóteles sugeriu que o pensamento lógico, assim
como a matemática, tem sua própria existência,
independente de opiniões e atitudes de pessoas
individuais.
Todo A é B
Todo B é C
Todo A é C
22. “Pensamentos lógico/matemático”
Dessa forma, os silogismos são independentes de
domínio, ou seja, eles servem de base para inferir
qualquer conhecimento, bastando apenas substituir
os indivíduos por conceitos de um domínio qualquer,
por exemplo:
Todos os humanos são mortais
Todos os gregos são humanos
Todos os gregos são mortais
23. Inferências
Sabemos que os computadores lidam muito bem
com a lógica e com a matemática
Que tal se... da mesma forma com que os seres
humanos compreendem o mundo, pudéssemos fazer
com que as máquinas “compreendessem” o mundo
com o “pensamento lógico/matemático”?
Inteligência Artificial influenciou o desenvolvimento
da Web Semântica
24. Declarações
De um ponto de vista linguístico, podemos
considerar que as declarações são constituídas de
três partes:
Sujeito
Predicado
Objeto
25. Declarações
De um ponto de vista ontológico...
Indivíduo
Atributo
Valor
26. Declarações
De um ponto de vista informacional...
Recurso
Propriedade
Valor
27. Declarações
De um ponto de vista geral...
Entidade (entendida como algo a ser descrito)
Característica (atributo relacionado à entidade
descrita)
Valor (valor atribuído à entidade por meio de uma
característica)
28. E o que eu tenho a ver com isso?
Ora, não é exatamente isso que o processo de
catalogação faz?
Representar um recurso, com suas várias características,
de modo a possibilitar a sua identificação e acesso em
meio a representações de outros recursos?
Em outras palavras, o que são metadados senão
propriedades e seus valores com vistas a descrição de
um determinado recurso?
29. Modelos conceituais
A descrição, quando elevada a um nível maior, mais
geral e mais abstrato, gera os chamados modelos
conceituais.
30. Modelos conceituais
A construção de modelos conceituais tem como objetivo
descrever o mundo em termos abstratos com o intuito
de permitir um entendimento mais fácil de uma
realidade complexa.
Um modelo conceitual é uma descrição de certos
aspectos da realidade, utilizado para entender,
estruturar ou predizer partes do mundo real.
Normalmente os modelos conceituais são criados de
forma científica, ou seja, por uma modelagem científica.
(HITZLER; KRÖTZSCH; RUDOLPH, 2009)
31. Modelos conceituais
A modelagem científica tem suas raízes na Filosofia
antiga.
O filósofo Platão propôs respostas a algumas das
questões mais fundamentais que surgem durante a
modelagem conceitual:
O que é a realidade?
Que coisas podemos dizer que existem?
Qual é a natureza verdadeira das coisas?
Isso marca a primeira grande contribuição para o campo
agora conhecido como Ontologia.
32. Ontologia
Sentido filosófico:
é o estudo da existência e dos seres como tais, as classes
fundamentais e os relacionamentos entre as coisas existentes (GRUBER,
1993; HITZLER; KRÖTZSCH; RUDOLPH, 2009; SCHIESSL; BRÄSCHER, 2011; SOUZA; ALVARENGA, 2004; RAMALHO,
2006; RAMALHO, 2010).
Na Ciência da Computação e, por conseguinte, nas tecnologias da Web
Semântica:
é uma descrição do conhecimento sobre um domínio de interesse na
forma de uma especificação processável por máquinas com um
significado formalmente definido (GRUBER, 1993; HITZLER; KRÖTZSCH; RUDOLPH, 2009).
33. Ontologia
Classe
Classe Classe
Indivíduos Indivíduos Indivíduos Indivíduos
Atributo Valor
Atributo Valor
Atributo Valor
Atributo Valor
34. Ontologia
Agente
Pessoa Organização
José Machado de Fernando Arnaldo
Saramago Assis Sabino Jabor
Ponto de Saramago,
acesso aut. José
Nacionalidade Português
Ano de
1922
nascimento
Arquitetura de
Ano de morte 2010 metadados
35. Tecnologias da Web Semântica
Arquitetura de
metadados
Adaptado de BRATT (2007, p. 24) e OBITKO (2007)
36. Histórico do RDF
A história dos metadados no W3C começou em 1995 com o
desenvolvimento do padrão PICS (Platform for Internet Content Selection)
que visava a fornecer a possibilidade de classificar e de descrever o
conteúdo de páginas Web.
No entanto, com o decorrer do desenvolvimento do PICS, percebeu-se a
necessidade de uma descrição mais abrangente dos sites e, através de
uma série de reuniões com a comunidade de bibliotecas digitais,
limitações nas especificações do PICS foram identificadas e requisitos
funcionais foram delineados para resolver o problema mais geral da
associação de informações descritivas aos recursos presentes na Web.
(MILLER, 1998)
37. Histórico do RDF
Com a percepção de que a questão da descrição de recursos era
muito mais ampla do que a proposta feita inicialmente no contexto
do PICS, o W3C criou um grupo de trabalho intitulado Resource
Description Framework (RDF) para discutir especificamente uma
estrutura de descrição de recursos que fosse suficientemente
abrangente para cobrir as necessidades das várias comunidades
de descrição interessadas.
Nesse contexto, o processo de criação e de desenvolvimento do
RDF na década de 1990 foi influenciado por várias linguagens,
vocabulários de descrição já existentes e áreas do conhecimento.
Uma das comunidades de descrição que influenciou a criação do
RDF foi a da iniciativa Dublin Core e uma “linguagem” que
influenciou a sua criação foi a XML (MILLER, 1998).
38. Histórico do RDF
Segundo Dziekaniak e Kirinus (2004, p. 27), “as principais
influências vieram das comunidades de padronização da
web (HTML, XML e SGML), da Biblioteconomia (metadados de
catalogação), da representação do conhecimento
(ontologias), da programação orientada a objetos, da
linguagem de modelagem, entre outras”.
Em 1999 uma especificação oficial sobre o RDF foi
publicada pelo W3C, embora a ênfase naquela época
estava apenas na representação de metadados sobre
recursos presentes na Web e não a descrição de recursos
em geral, como é o caso da especificação publicada em
2004.
39. Descrição de qualquer recurso
Devido à possibilidade de descrição de recursos que não
estão necessariamente disponíveis pela Web – um livro
impresso, por exemplo – o RDF também pôde ser utilizado
para a troca de (meta)dados em diversas áreas de aplicação
específicas, como é o caso da área de Biblioteconomia e, mais
especificamente, da Catalogação.
41. Modelos conceituais / Gráficos
Normalmente, modelos conceituais são apresentados em
forma de gráficos, o mesmo acontece com o modelo de
dados RDF.
Um documento RDF está estruturado como um gráfico
(também chamado de grafo) direcionado, isto é, um conjunto
de nós que são ligados por arestas direcionadas (setas).
42. Modelos conceituais / Gráficos
Propriedade
Recurso Valor
Metadado Y
Livro X Valor Z
Tem como autor
Cibercultura Pierre Lévy
Entidades do mundo real
43. Identificadores
Mas, entidades precisam ser identificadas:
Pessoas se identificam umas com as outras por meio de um nome, um
apelido, um pseudônimo, etc.
Pessoas se identificam para autoridades por meio de um código: número do
RG, número do CPF, etc.
Máquinas podem identificar produtos por meio de um código de barras.
Livros podem ser identificados por meio de ISBNs.
Etc.
44. Identificadores
Alguns identificadores representam unicamente um recurso (por ex. CPF)
outros não (por ex. nome da pessoa).
Identificadores que representam o recurso unicamente entre outros
recursos são mais adequados para uso porque reduzem problemas como
ambiguidade, falta de consistência, etc.
E no ambiente Web? Quem são os identificadores únicos para os
recursos?
45. Uniform Resource Identifier (URI)
URI é uma cadeia de caracteres utilizada para identificar um nome ou um
recurso.
Uniform Resource Locator (URL) é um URI: http://unesp.br
Uniform Resource Name (URN) é um URI: urn:isbn:9788587258762
Problema com ISBNs: de maneira global, não há como recuperar informações
na Web sobre um recurso identificado por um ISBN (nem o recurso em si),
portanto, a utilização de URIs do tipo http é mais recomendada.
46. Uniform Resource Identifier (URI)
Problema, o URI
http://unesp.br
Identifica a universidade ou o site da universidade?
http://uri.unesp.br
http://unesp.br/uri
http://unesp.br/resource#uri
47. Uniform Resource Identifier (URI)
É o URI que torna o recurso único e não confundível com outros recursos.
O modelo RDF pode descrever qualquer objeto que tenha uma clara
identidade no contexto de uma dada aplicação: livros, pessoas, locais,
editoras, eventos, relacionamentos entre essas coisas, conceitos
abstratos, etc.
Tais recursos podem, obviamente, não ser recuperados online e, portanto,
seus URIs são usados exclusivamente para fins de identificação única.
48. Uniform Resource Identifier (URI)
Portanto, não se considera
http://biblioteca.org/livro-X#uri
Como um endereço, mas sim como um identificador apenas.
Tais URIs são feitos para as máquinas se referenciarem a
algum recurso, não para humanos buscarem informações
(embora, a boa prática recomenda que URIs tragam informações legíveis por
humanos também).
50. Recurso -> Propriedade -> Literal
Recurso
http://biblioteca-x.org/uri#livro-X
Propriedade
Valores podem ser
outros recursos http://padraodemetadados-y.org/uri#NdePaginas
(entidades)
ou
valores literais.
Ex.:
1) Relacionamentos entre 264
pessoas
2) Relacionamento entre Valor (literal)
uma pessoa e sua idade
52. Sintaxe para RDF
O modelo RDF é descrito em forma de gráficos por meio de
diagramas. Esse modo de apresentar os dados em RDF facilita o
aprendizado do modelo e a leitura humana, além de servir como
um modo preciso para a modelagem conceitual de um domínio.
Mas é evidente que os computadores não são adequados para o
processamento e o intercâmbio de gráficos uns com os outros.
Existem formas de representação de um conjunto de dados
modelados em RDF não mais por meio de gráficos, mas sim por
cadeias de caracteres que podem ser processadas por máquinas.
Para que isso ocorra, um gráfico RDF precisa ser dividido em partes
menores que podem ser armazenadas uma por uma. Essa
transformação de estruturas de dados complexas para cadeias de
caracteres lineares é chamada de serialização (HITZLER;
KRÖTZSCH; RUDOLPH, 2009).
53. Sintaxe para RDF
É fácil perceber que cada gráfico RDF pode ser completamente descrito
por meio de seus nós e arestas e, então, convertidos em sujeitos,
predicados e objetos.
Cada conjunto sujeito-predicado-objeto é considerado uma tripla RDF, ou
seja, uma declaração (RAMALHO, 2006).
58. Considerações
Souza e Alvarenga (2004) constatam alguns benefícios providos pela utilização
do RDF, como, por exemplo, a viabilização de um ambiente consistente para a
publicação e utilização de metadados utilizando a infraestrutura da XML; o
estabelecimento de uma sintaxe padronizada para a descrição de recursos
com suas propriedades e respectivos valores e; a possibilidade de aplicações
agirem de forma inteligente e automatizada sobre as informações publicadas.
Zaidan (2011) considera que, tendo em vista que o RDF é independente de
domínio e, como ele é composto pela tripla sujeito-predicado-objeto,
consegue fazer uma representação primitiva com vistas a uma criação maior,
tendo a finalidade de embutir semântica e fornecendo interoperabilidade e
semântica para os metadados.
59. Considerações
Furgeri (2006) destaca que o RDF resolve o problema da diversidade na
representação da informação que ocorre em XML, criando ligações únicas entre
recursos. O RDF elimina o problema da limitação do tamanho da estrutura
enfrentada pela XML, criando ponteiros que unem documentos com estruturas
menores. “RDF provê uma estrutura mais flexível que XML, aproximando-se da
forma como os seres humanos relacionam informações, isto é, por
associações”.
Para Moura (2001 apud DZIEKANIAK; KIRINUS, 2004), na área de descoberta de
recursos, o RDF possibilita o desenvolvimento de mecanismos de pesquisa mais
eficientes. Na área de Catalogação, o RDF pode ser utilizado para a descrição
de recursos de informação e na área de agentes inteligentes o RDF pode
facilitar o intercâmbio de informações.
60. Considerações
A partir dos apontamentos apresentados, pode-se considerar que a Ciência
da Informação, especialmente em razão da Catalogação descritiva, está
intimamente relacionada com um dos considerados alicerces da Web
Semântica: o modelo para a descrição de recursos RDF.
Por meio de uma breve revisão de literatura acerca do modelo RDF, sua
origem e suas características, percebeu-se a sua importância para a
descrição de quaisquer recursos sejam eles digitais ou não, bibliográficos
ou não.
61. Considerações
O modelo RDF oferece a possibilidade para as comunidades de descrição
de recursos definirem a semântica de seus metadados de maneira
formal, isto é, definindo o significado dos elementos de metadados,
conforme as suas necessidades específicas de descrição, em um modelo
processável por máquinas.
Por fim, utilizando-se da XML como sintaxe comum para o intercâmbio e
o processamento de metadados, o RDF colabora positivamente para a
interoperabilidade entre os vários sistemas de informação e de descrição
existentes, desse modo, contribuindo para a construção de mecanismos
de busca e catálogos mais integrados que poderão oferecer mais serviços
aos seus usuários.
62. Referências
BRATT, Steve. Semantic Web, and Other Technologies to Watch. Cambridge: W3C, 2007. Disponível em:
<http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb>. Acesso em: 24 set. 2012.
CATARINO, Maria Elisabete; SOUZA, Terezinha Batista de. A representação descritiva no contexto da web semântica.
TransInformação, Campinas, v. 24, n. 2, p. 77-90, maio/ago. 2012. Disponível em: <http://revistas.puc-
campinas.edu.br/transinfo/viewarticle.php?id=472>. Acesso em: 2 out. 1012.
DUNSIRE, Gordon; HILLMANN, Diane; PHIPPS, Jon. Reconsidering Universal Bibliographic Control in Light of the Semantic
Web. Journal of Library Metadata, v. 12, n. 2-3, p. 164-176, 2012. Disponível em:
<http://dx.doi.org/10.1080/19386389.2012.699831>. Acesso em: 1 out. 2012.
DZIEKANIAK, Gisele Vasconcelos; KIRINUS, Josiane Boeira. Web Semântica. Encontros Bibli, Florianópolis, n. 18, 2º sem. 2004.
Disponível em: <http://www.periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2004v9n18p20>. Acesso em: 1 out.
2012.
FURGERI, Sérgio. O papel das linguagens de marcação para a Ciência da Informação. TransInformação, Campinas, v. 18, n. 3,
p. 225-239, set./dez. 2006. Disponível em: <http://revistas.puc-campinas.edu.br/transinfo/viewarticle.php?id=184>. Acesso
em: 1 out. 2012.
HITZLER, Pascal; KRÖTZSCH, Markus; RUDOLPH, Sebastian. Foundations of Semantic Web technologies. Boca Raton: CRC
Press, 2010.
LIBRARY OF CONGRESS. A Bibliographic Framework for the Digital Age. Bibliographic Framework Transition Initiative: News
and Announcements, Oct. 2011. Disponível em: <http://www.loc.gov/marc/transition/news/framework-103111.html>.
Acesso em: 20 set. 2012.
63. Referências
MILLER, Eric. An Introduction to the Resource Description Framework. D-Lib Magazine, v. 4, n. 5, May, 1998. Disponível
em: <http://www.dlib.org/dlib/may98/miller/05miller.html>. Acesso em: 16 set. 2012.
OBITKO, Marek. Semantic Web Architecture. Prague: Czech Technical University, 2007. Disponível em:
<http://obitko.com/tutorials/ontologies-semantic-web/semantic-web-architecture.html>. Acesso em: 21 ago. 2012.
RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos interdisciplinares da gestão de recursos informacionais no
âmbito da Ciência da Informação. 2006. 120 f. Dissertação (Mestrado em Ciência da Informação). Faculdade de
Filosofia e Ciências – Universidade Estadual Paulista, Marília, 2006. Disponível em:
<http://www.marilia.unesp.br/Home/Pos-Graduacao/CienciadaInformacao/Dissertacoes/ramalho_ras_me_mar.pdf>.
Acesso em: 10 abr. 2012.
SANTOS, Plácida Leopoldina Ventura Amorim da Costa; ALVES, Rachel Cristina Vesú. Metadados e Web Semântica para
estruturação da Web 2.0 e Web 3.0. DataGramaZero, Rio de Janeiro, v. 10, n. 6, dez. 2009. Disponível em:
<http://www.dgz.org.br/dez09/Art_04.htm>. Acesso em: 25 jun. 2011.
SOUZA, Renato Rocha; ALVARENGA, Lídia. A Web Semântica e suas contribuições para a Ciência da Informação. Ciência
da Informação, Brasília, v. 33, n. 1, p. 132-141, jan./abr. 2004. Disponível em: <http://dx.doi.org/10.1590/S0100-
19652004000100016>. Acesso em: 25 jun. 2012.
ZAIDAN, Fernando. XML, RDF e OWL. IT Web, 2011. Disponível em: <http://itweb.com.br/blogs/xml-rdf-e-owl-para-
saber-um-pouco-mais-sobre-a-web-semantica-1>. Acesso em: 10 set. 2012.
64. Fórum de discussões da Biblioteca de Estudos e Aplicação de Metadados – Marília, 2012
Obrigado!