1) O documento discute a Web Semântica, incluindo sua arquitetura de três camadas (esquema, ontologia e lógica) e como ela pode melhorar a recuperação de informações na Web.
2) A Web Semântica usa padrões como XML, RDF e OWL para estruturar dados e definir seu significado semântico, permitindo inferências automatizadas.
3) Ao estruturar semanticamente a informação na Web, a Web Semântica pode ajudar a encontrar conteúdo de forma mais relevante
Web Semântica: Estrutura, Componentes e Arquitetura
1. UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE ARTES E COMUNICAÇÃO
CURSO DE GESTÃO DA INFORMAÇÃO
SÍNTESE: WEB SEMÂNTICA
SEMINÁRIO DE RECUPERAÇÃO DA INFORMAÇÃO
MAIO / 2009
PROF. FÁBIO ASSIS PINHO
EQUIPE: AÍLTON PEDRO / AURÉLIO FERNANDO / CLODOALDO SANTOS
/ CORINA NASCIMENTO / JOSÉ ANICETO / JOSÉ RICARDO / RAFAEL
RODRIGO.
2. Síntese: WEB SEMÂNTICA
A INTERNET
Durante a Guerra Fria (décadas de 60/70) a grande preocupação dos
EUA era o de perder informação que eram hospedadas em pontos
estratégicos. Foi criado um sistema que interligasse todos esses pontos
estratégicos, uma rede considerada à prova de bombardeios, pois o sistema
não caía caso um dos pontos fosse atingido, desenvolvido pela ARPANET
(Advanced Research Projects Agency Network).
No final dos anos 80, a Internet passa a ser vista como um eficiente
veículo de comunicação mundial, sendo usada intensamente pela comunidade
acadêmica.
A ARPANET utilizou no início o protocolo NCP (Network Control
Protocol) que passou a ser inadequado com o crescimento da rede, sendo
criada então o protocolo TCP/IP (Transfer Control Protocol/Internet Protocol)
tendo como uma vantagem o crescimento praticamente ilimitado da rede.
Em 1989, Tim Berners-Lee com sua equipe elaborou um ambiente
gráfico para utilização da Internet denominada World Wide Web (W W W) que
possibilitava a propagação de textos, imagens estáticas, áudio, vídeos e
animações de forma integrada.
No Brasil a 1ª fase da Internet restringiu-se ao âmbito acadêmico, e só
em 1996 a Internet brasileira deixou de ser privilégio das universidades e
passou a ser explorada comercialmente.
Estrutura e Componentes da WEB
O desenvolvimento da WEB, só foi possível a partir da definição de
padrões abertos, onde podemos destacar o http (Hypertext Transfer Protocol),
que pode ser entendido como um conjunto de regras definidas para a
comunicação entre os componentes da WEB.
Outro componente fundamental é o Identificador Único de Recurso
(URI), que codifica nomes de recursos e respectivos endereços na Internet, o
qual pode ser representado pelos conceitos de URL (Localizador Único de
Recurso) e URN (Nome Único de Recurso). A URI é composta por três partes:
protocolo, localizador de recurso e o nome do recurso.
Ex.: http://www.ufpe.br/dci/site
As páginas da WEB são desenvolvidas utilizando linguagens de
marcação, dentre as quais pode ser destacada a HTML (Hypertext Markup
Language). A HTML representa os dados de forma simples, priorizando a
apresentação de conteúdos e não possibilita a descrição de estruturas
semânticas. Por não atribuir significado ao conteúdo das páginas, dificulta a
recuperação de informações pois traz grande volume de dados não relevantes.
Arquitetura e estruturação da Web Semântica
Na proposta de desenvolvimento da Web Semântica, é sugerida uma
arquitetura de 3 camadas:
1. A camada esquema: que estrutura os dados e define seu significado;
2. A camada ontologia: que define as relações entre os dados;
3. 3. A camada lógica: que define mecanismos para fazer inferências sobre
os dados.
Engenho … E-com erce
m
de Busca
Web Semântica
Camada
Lógica Regras de Inferência
Camada de
Ontologia Ontologia Ontologia Ontologia
Camada de
Estrutura Dados
Figura 1: Arquitetura da Web Semântica.
1. A camada de Estrutura
A camada de estrutura provê uma forma de definir os dados do documento e o
significado associado a esses dados. Trata também da estruturação e
disposição dos dados de forma que os programas que rodam na web possam
fazer inferência a partir dos mesmos.
Para que haja a representação do conhecimento são necessárias três
condições:
• Interoperabilidade Estrutural: Permite que os dados sejam
representados de forma distinta, permitindo especificar tipos e possíveis
valores para cada forma de representação;
• Interoperabilidade Sintática: Constitui-se de regras precisas que
permitem intercâmbio de dados na Web;
• Interoperabilidade Semântica: Possibilita a compreensão e associação
entre os dados.
2. A camada Ontologia
Duas bases de dados podem utilizar terminologias diferentes para referir-se _a
mesma informação, resultando em divergências em um conjunto semântico de
4. dados. Pode ocorrer também de uma mesma terminologia estar sendo utilizada
com significados diferentes, por aplicações distintas.
Para tratar esses conflitos, existe a camada de ontologia que define
mecanismos capazes de estabelecer um padrão entre as páginas da web.
3. A camada Lógica
São através da camada lógica que são possíveis os relacionamentos de
informação e as inferências de conhecimento da Web Semântica. As regras de
inferência fornecem aos agentes (programas) poder de raciocinar sobre os
termos e seus significados, que foram definidos na camada esquema e de
raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua
definição na camada ontologia
Agentes: Os agentes são sistemas computacionais capazes de interagir
autonomamente para atingir os objetivos do seu criador. Os agentes possuem
algumas características como autonomia, reatividade (percebem o ambiente
tomam as decisões), têm comportamento colaborativo, possuem objetivos, são
Flexíveis, sociáveis e têm a capacidade de aprender.
A Web Semântica possuirá vários agentes interagindo entre si,
compreendendo, trocando ontologias, adquirindo novas capacidades racionais
quando adquirirem novas ontologias e formando cadeias que facilitam a
comunicação e a ação humana.
Arquitetura da Web Semântica
A primeira proposta divulgada publicamente sobre a arquitetura da Web
Semântica foi publicada no ano de 2000 pelo W3C através de seu mentor Tim
Berners-Lee. No início havia a preocupação em desenvolver linguagens
computacionais para estruturar recursos informacionais e descrever aspectos
semânticos inerentes a esses recursos.
Após a padronização pelo W3C do XML como linguagem computacional
padrão, os engenheiros de software começaram a perceber que não era
suficiente apenas descrever os recursos informacionais sintaticamente, mas
desenvolver tecnologias que permitissem descrever o significado das
informações.
A recomendação XML foi divulgada em 1998 pelo W3C, baseando-se
também no padrão SGML, assim como a linguagem HTML. Porém, a XML foi
criada não como uma linguagem de uso especial, mas sim, como
metalinguagem genérica, constituindo uma tecnologia básica capaz de
possibilitar o desenvolvimento de outras linguagens computacionais.
Um dos fatores que dificultaram inicialmente a disseminação da XML foi
uma concepção equivocada de que esta se apresentava como uma linguagem
sucessora da HTML, pois embora a XML resolva alguns dos problemas da
HTML, ela foi desenvolvida com um propósito diferente: enquanto a linguagem
HTML tem como função principal formatar e exibir o conteúdo de um
documento, a linguagem XML possui a função específica de apenas estruturar
as informações, não se preocupando com a maneira como estas serão
exibidas.
5. Assim, a XML permite a criação de marcações definidas pelo próprio
usuário, diferentemente da HTML, podendo ser considerada como um sistema
gramatical para construção de linguagens de marcação personalizadas.
RDF é uma linguagem de propósito geral para representação de
informações contidas nos recursos Web. Nesse contexto, RDF pode ser vista
como uma tecnologia de capacitação para modelagem semântica, como uma
‘linguagem montadora’ genérica, sobre a qual podem ser criadas linguagens
específicas do domínio e da tarefa”.
O modelo e a especificação da sintaxe RDF foram propostos em
fevereiro de 1999 pelo W3C, com o intuito de possibilitar uma maior
interoperabilidade no ambiente Web, oferecendo um padrão aberto para a
descrição de recursos. Deste modo, o padrão RDF possibilita uma ampla gama
de aplicações, permitindo que sejam feitas declarações a respeito de
praticamente qualquer tipo de objeto, desde que este possa ser identificado a
partir de um URI.
O RDF permite descrever declarações a respeito de recursos, não
exigindo modificações nos mesmos, de modo que uma declaração RDF é uma
entidade separada do recurso ao qual ela se refere, podendo inclusive
constituir outro recurso. Nesta perspectiva, pode haver muitas declarações
RDF distribuídas pela Web referindo-se ao mesmo recurso, descrevendo
diferentes propriedades, ou mesmo contextualizando-o a partir de domínios
diferentes.
A OWL é uma linguagem computacional utilizada para o
desenvolvimento de ontologias, a qual se originou a partir da junção das
especificações das linguagens DAML e OIL, sendo denominada inicialmente
como DAML+OIL. Assim, desde fevereiro de 2004 a OWL é recomenda pelo
W3C como linguagem padrão para o desenvolvimento de ontologias.
A OWL é indicada para ser utilizada em situações onde as informações
contidas em documentos necessitem ser processadas de forma automatizada,
e não apenas apresentadas para seres humanos, pois a OWL permite
descrever formalmente o significado dos termos utilizados em um documento e
seus respectivos relacionamentos, possibilitando representações mais
abrangentes que as linguagens RDF e RDF Schema, favorecendo uma maior
interoperabilidade.
Nesse contexto, pode-se considerar OWL como um padrão que na
realidade abarca três tipos de linguagens com diferentes níveis de
expressividade, conforme apresentado a seguir:
• OWL Lite – Projetada para permitir uma fácil implementação,
fornecendo aos usuários um subconjunto funcional baseado em
classificações hierárquicas e restrições simples, possibilitando inclusive
a migração de sistemas baseados em tesauros e taxonomias para o
formato de ontologias.
• OWL DL – Projetada para suportar implementações baseadas em
Lógica Descritiva, fornecendo um subconjunto que possua propriedades
desejáveis em sistemas que necessitem ontologias com um maior nível
de detalhamento e restrições.
• OWL Full – Projetada para possibilitar o máximo de expressividade
enquanto mantém completude computacional, de modo que,
diferentemente da OWL DL, pode violar restrições da Lógica Descritiva
6. com o objetivo de ser compatível com o maior número possível de
bancos de dados e sistemas de representação do conhecimento.
A WEB Semântica no âmbito da Recuperação da Informação
O caos hoje encontrado na internet com inúmeros artigos e notícias, que
em muito não ajudam a encontrar o que de fato se deseja, pode estar com os
dias contados “muitos anos ainda”, com a reformulação do modo de pesquisa
que os sites de busca irão “adotar” talvez tenhamos as informações mais
coerentes e condizentes com o que queremos.
Hoje para se encontrar algum artigo, muitas vezes temos que acessar
várias páginas a fim de encontrarmos realmente o que precisamos, a
dificuldade de localização dar-se pelo modo como o “artigo” é armazenado e
classificado, não dando uma interpretação de forma “humana”.
A web 3.0 ou Web Semântica esta estruturada nesta perspectiva de
controlar melhor as informações na internet e proporcionar ao individuo tudo de
forma ordenada, minimizando a quantidade de busca.
Baseado na linguagem computacional flexível XML, associada a
formatos de metadados Dublin Core e MARC, garantem uma informação
padronizada. Porem o padrão RDF será a grande ferramenta que deverá ser
adotada nas páginas da web 3.0 por garantir uma interatividade homem
máquina.
A WEB Semântica: A WEB se aproxima de uma grande SRI
A partir dos conceitos de sistemas de recuperação de informações e das
tecnologias apresentadas, vamos entender um pouco mais o grande panorama
da Web Semântica, com a ilustração a seguir (figura 1). Na figura 1, que ilustra
o roadmap da Web Semântica (SemanticWeb.Org, 2001), podemos entender
como as tecnologias se articulam entre si e como a Web Semântica aproxima a
Web da funcionalidade plena de um sistema de recuperação de informações.
Vamos associar as várias entidades representadas e suas funcionalidades
associadas a seguir.
7. No âmbito da representação e indexação dos documentos, temos as
ferramentas e tecnologias para anotação semântica das páginas web (Web-
Page annotation Tools) e para construção de ontologias compartilhadas
(Ontology Construction Tools). Estas ferramentas possibilitarão a existência
cada vez mais ampla e disseminada de páginas web marcadas
semanticamente (Annotated Web-Pages) com metadados descritos em
namespaces de domínio público (Metadata Repository) e com conteúdo
semântico compartilhado em seu significado pelas comunidades e usuários da
web através das ontologias. As ontologias criadas serão articuladas entre si
por meio de ferramentas específicas e meta-ontologias (Ontologies Articulation
Toolkits). Com uma estratégia padronizada de indexação, podemos projetar
sistemas mais funcionais para recuperação da informação armazenada.
No âmbito da recuperação e uso dos documentos, os agentes,
associados aos mecanismos de busca e inferência (Inference Engine)
executarão o harvesting (colheita) de informações nos documentos anotados
semanticamente de maneira eficaz, porque serão capazes de “compreender”
seus conteúdos, de modo que a informação seja mais significativamente
utilizada pelos usuários (humanos e não humanos) da Web. Estes poderão
acessar estas novas tecnologias por meio dos portais comunitários (community
portals) ou mesmo dos portais corporativos das organizações. Podemos
esperar que a Web tenha grande melhoria dos índices de revocação e precisão
no atendimento das necessidades de informação, porque a semântica
embutida nos documentos permitirá aos dispositivos de recuperação evitar os
problemas comuns de polissemia e sinonímia, além de considerar as
informações em seus contextos de significado.
A infra-estrutura da Internet e as intranets, no âmbito das várias organizações,
serão os dispositivos responsáveis pelo armazenamento e os canais por onde
ocorre a disseminação dos documentos, neste grande sistema de informação.
As tecnologias para implementação, assim como os protótipos destas
ferramentas, já se encontram disponíveis, e o processo de atualização da Web
está em pleno curso. A Web Semântica não trata de uma revolução, mas sim
de uma evolução da Web como a conhecemos hoje. Trata-se principalmente
da adoção de padrões de metadados e de compartilhamento destes padrões,
de forma que possamos melhor utilizar o vasto repositório de informações
disponível da Web de maneira mais produtiva, ágil e significativa.
Contextualizando a Web Semântica no Âmbito da Ciência da Informação
A Ciência da Informação tem como um de seus objetivos estudar e
desenvolver métodos e técnicas para o melhoramento dos processos de
armazenamento, organização e recuperação de informação, considerando
também aspectos científicos e profissionais que obtém dimensões sociais e
humanas, que se apresenta com maior relevância do que os aspectos
tecnológicos.
Observamos que estudos realizados para o desenvolvimento de novas
tecnologias de informação no âmbito da Ciência da Informação são
encontradas na vertente da recuperação da informação, onde ambas as áreas
se unem para proporcionar aos usuários uma recuperação satisfatória.
Contudo, identificamos um conflito entre Ciência da Informação e
8. Ciência da Computação a respeito de teorias que conceitue o objeto de estudo
de ambas as áreas, ou seja, a informação. A primeira defende que a
informação é um significado transmitido a um ser consciente por meio de uma
mensagem inscrita em um suporte espaço-temporal: impresso, sinal-elétrico,
onda sonora etc. Já a segunda defende que o conceito de informação
tradicionalmente restringi-se ao conceito relacionado com a teoria da
Matemática da Informação apresentado como transmissão de mensagem e
troca de sinais a qual não se preocupa com a semântica dos dados.
A Ciência da Computação preocupa-se o desenvolvimento dos sistemas
computacionais e com a recuperação quantitativa de informações, enquanto
que a Ciência da Informação preocupa-se com a natureza das informações,
assim como sua comunicação e uso pelos humanos.
No âmbito da área de Ciência da Informação é evidente a presença de
componentes semânticos em tal processo, pois para o usuário as informações
recuperadas possuem um significado semântico implícito.
Assim, o projeto Web Semântica baseia-se na possibilidade de
categorias que possam ser interpretadas automaticamente pelos
computadores.
Ontologias como Instrumentos de Representação
Com o grande aumento na quantidade de recursos informacionais, é
necessário relacioná-los e organizá-los de maneira adequada, com isso
observa-se a necessidade de instrumentos que possibilitem descrever níveis
de relacionamentos mais avançados e que possam ser processados de forma
automatizada por computadores os quais vem sendo denominados como
ontologias.
As ontologias são sistemas de conceitos existente na Web Semântica
emergente como uma forma de representar a semântica dos documentos,
permitindo que a semântica possa ser utilizada por aplicações web e agentes
inteligentes. Ontologias podem revelar-se muito úteis para a comunidade como
uma forma de estruturar e definir o significado de termos, os metadados, que
são atualmente recolhidos e padronizados. Usando ontologias, as aplicações
futuras podem vir a ser “inteligentes”, no sentido de que se possa trabalhar com
mais precisão a um nível conceitual humano.
As ontologias funcionam de maneira muito parecida com o nosso
cérebro, relacionando identidades similares e agrupando-as em classes
diferentes. Um telefone, por exemplo, se enquadra em diversos grupos:
telefones, aparelhos eletrônicos, instrumentos de comunicação e assim por
diante.
Usando as ontologias uma máquina simples pode fazer coisas que
humanos fazem no dia-a-dia, como cruzar informações automaticamente, de
sistemas diferentes e buscar informações sem que seja solicitado, através de
um tipo de poder de compreensão (limitado, claro)
Uma ontologia pode assumir vários formatos, mas necessariamente
deve incluir um vocabulário de termos e alguma especificação de seu
significado. Elas devem obter em seu campo conceitos e umas indicações de
como estes deverão estar inter-relacionados.
No âmbito da Ciência da Informação têm ocorrido estudos para
identificar convergências e divergências existentes às ontologias e os
9. instrumentos convencionais de representação da informação, sendo
identificada uma principal diferença que seria a capacidade de compreensível
pelas máquinas, proporcionadas pelas ontologias.
Então vemos que a diferença entre as ontologias e os tesauros é que a
primeira tem maior variedade de relações entre conceitos, elas permitem
descrever formalmente relações semânticas complexas, obtendo assim, um
maior nível de expressividade e proporcionado tanto a humanos como a
máquinas interpretar tais relações, já o tesauros são ferramentas com poucas
relações semânticas e que são interpretadas apenas por usuários humanos.
No entanto, vemos que há semelhanças entre ontologias e tesauros sendo
ambos os instrumentos formulados a partir de um sistema de conceitos.
Portanto, são de grande importância os estudos feitos pela Ciência da
Informação abordando os aspectos de lógicos, explícitos e abrangentes das
ontologias na prática e realidade da recuperação da informação.
A Web Semântica sobre o prisma da Ciência da Informação
O objetivo da Web Semântica é possibilitar a criação de categorias para
a classificação dos recursos informacionais disponíveis no ambiente web.
No projeto Web Semântica, a Ciência da Informação pode contribuir
para o seu desenvolvimento, pois os instrumentos de representação utilizados
pela Ciência da Informação podem servir como essência para o
desenvolvimento de novos tipos de instrumentos de representação da
informação no ambiente digital.
Exemplo:
O formato MARC 21 (Machine Readable Cataloging) e a sua versão XML. Sua
principal diferença está na estrutura utilizada para organizar os dados
bibliográficos e catalográficos.
A seguir dois projetos cujo desenvolvimento de tecnologias no âmbito de
bibliotecas digitais, utilizando tecnologias relacionadas ao projeto web
semânticas.
• MarcOnt: Permite a criação de uma ontologia capaz de tornar-se padrão
de representação de informações para bibliotecas digitais, possibilitando
a descrição semântica dos conteúdos.
• Jerome DL: Permite descrever os recursos a partir da linguagem
computacional RDF e a realização de buscas semânticas baseadas em
ontologias, possibilitando uma melhora na precisão das buscas.
Considera-se que as tecnologias ligadas ao projeto Web Semânticas e os
instrumentos de representação de informações desenvolvidos no âmbito da
área de Ciência da Informação possuem como objetivo comum, propiciar meios
mais adequados de representar e organizar os conteúdos informacionais,
possibilitando responder de maneira mais eficiente às buscas realizadas pelos
usuários finais
Referências
[1] Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web.
Scientific American, pages 35{43, May 2001.
10. [2] Carla Gomes de Faria and Ros_ario Girardi. Uma análise da web semântica
e suas implicacões no acesso _a informação. Universidade Federal do
Maranhão.
[3] James Hendler. Agents and semantic web. Scientic American, pages 30{37,
April 2001.
[4] Bruno Viana Rezende and Marcelo Peixoto Bax. Projeto indexa: ferramentas
de auxílio à divulgação de informações na web.
http://www.dcc.ufmg.br/~nivio/cv/cv.ps.
RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos interdisciplinares
da gestão de recursos informacionais no âmbito da Ciência da Informação;
The New York Time, Museu belga revela a internet de papel do início do século
20;
OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os
profissionais da informação;
http://www.abranet.org.br/historiadainternet/ocomeco.htm
Bogo, Kellen Cristina. A História da Internet
Disciplina: Recuperação da Informação
Professor: Fábio Pinho
Equipe:
Ailton Pedro
Aurélio Fernando
Clodoaldo dos Santos
Corina Nascimento
José Aniceto
José Ricardo
Rafael Rodrigo