Anotacao Semântica em Documentos Não Estruturados
Upcoming SlideShare
Loading in...5
×
 

Anotacao Semântica em Documentos Não Estruturados

on

  • 4,655 views

Trabalho apresentado na disciplina de Sistemas de Banco de Dados, Profa. Maria Claudia.

Trabalho apresentado na disciplina de Sistemas de Banco de Dados, Profa. Maria Claudia.

Statistics

Views

Total Views
4,655
Views on SlideShare
4,655
Embed Views
0

Actions

Likes
0
Downloads
25
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Anotacao Semântica em Documentos Não Estruturados Anotacao Semântica em Documentos Não Estruturados Presentation Transcript

  • Anotação semântica em documentos não estruturados Celso Araujo Fontes Professoras: Maria Claudia R. Cavalcanti, D.Sc. e Ana Maria de Carvalho Moura, Dr. IngSC 214202 – maio de 2010 Instituto Militar de EngenhariaSistemas de Banco de Dados, Profa. Maria Claudia Curso de Mestrado em Sistemas e Computação
  • Introdução Existem hoje bilhões de documentos na Web e ainda milhões de páginas em intranets, sendo acessados por 1,5 bilhões de usuários no mundo [1]. A maior parte destas informações é construída apenas para o consumo humano. Vem à tona a necessidade do gerenciamento desse conteúdo, no que diz respeito à dificuldade na busca, organização, acesso e manutenção das informações.
  • Problemas da Web Atual Busca da Informação Problema de “precisão” das atuais ferramentas de pesquisa – Navegação através de links e uso de palavras chaves p/ busca – Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente [2]
  • Problemas da Web Atual A falta de meta dados na web inibe um processamento por máquina mais inteligente.
  • Metadados Metadados permitem descrever informações, auxiliando na identificação, localização e gerenciamento dos dados (BONIFACIO, 2002).
  • Ontologias Segundo Grubber (GRUBBER, 1992), uma ontologia é uma especificação explícita de uma conceituação. A conceituação é uma abstração simplificada do domínio em que desejamos representar para algum propósito. No campo da Filosofia, as ontologias têm sido utilizadas para tentar descrever domínios naturais (as coisas naturais do mundo) e a existência dos seres e coisas em si, desvendando, desta forma, o significado das coisas no mundo (LIMA e SCHWABE, 2004).
  • Web Semântica A web semântica é “uma extensão da web atual, em que a informação é dada com um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação”. [Bernes-Lee, 2001]
  • Web Semântica e Ontologias Evolução natural de esforços anteriores – Metadados na Web – Padrões de Metadados – Arquiteturas de Metadados – RDF e RDFS foram os precursores das ontologias na Web – Rápida evolução das demais iniciativas  DAML  OIL  DAML+OIL  OWL  OWL2
  • Web Semântica – Representação doConhecimento RDF RDFS OWL OWL2
  • O que significa chamar uma tecnologiade “semântica” ? Pretende: – Representar conhecimento – Compartilhar um entendimento comum em relação ao significado – Ser apropriada para a ligação de recursos sob diferentes esquemas de representação – Estabelecer associações entre os itens que não estão explicitas – Apoiar inferência sobre o conhecimento para gerar mais conhecimento
  • Problema Dados estruturados para interpretação por máquina normalmente são distribuídos num formato distinto e separado do conteúdo original e a correspondência entre eles é bastante limitada (ADIDA et al., 2008). RDF, OWL e outros formatos XML são complexos para interpretação da maioria das pessoas
  • Solução Visando incorporar metadados ricos a um documento e manter o seu conteúdo visual legível ao ser humano, foram propostos padrões de anotação semântica. – Objetivo: utilizar um conjunto de descritores, relacionados a um vocabulário, para “anotar” informações de um documento da internet, expressando o significado do conteúdo neles descritos.
  • Anotação Semântica “Esquema específico para geração e uso de metadados, possibilitando novos métodos de acesso a informação” [Popov et al., 2003]. “A anotação semântica de um documento descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia” [Eller, 2008].
  • Anotação Semântica Na figura abaixo, podem ser observadas as anotações semânticas referentes a um texto simples. As entidades presentes no texto são associadas à sua definição semântica: Exemplo de marcação semântica. Fonte: [7] com adaptações
  • Características Relacionadas para Análise dos Padrões de Anotação Semântica Uso de vocabulários customizados DRY Compatibilidade com HTML Compatibilidade com XHTML Utilização somente de atributos nativos do HTML e XHTML Suporte ao Blank Node Utilização de namespaces Suporte a Literal simples Suporte a Literal XML Suporte à Literal tipada Suporte a CURIE Referência a nodos não descendentes
  • Microformat É um conjunto limitado de especificações utilizado para descrever informações em documentos web. [PEREIRA, 2009] Suas especificações ou vocabulários se dividem em duas categorias: – Padrões aceitos: validados pela comunidade e utilizados conforme descrito nas especificações; – Propostas emergentes: projetos que se encontram em processo de desenvolvimento, estando suas especificações sujeitam a alterações até sua aceitação final (RAMOS et al., 2009).
  • Microformat (Exemplo)<div class="vcard"> <span class="given-name">Celso Fontes</span>trabalha no <span class="org">Detran RJ</span></div> “Celso given-name Fontes” _vcard org “Detran RJ”
  • Microformat Vantagens – Simplicidade – Popularidade (Twitter, Facebook, Flickr...) – Utiliza atributos nativos do HTML Desvantagens – Restrito a um pequeno número de vocabulários – Não suporta o HTML5 100%
  • eRDF (Embedded RDF) Baseado em alguns princípios do Microformat, porém permite a anotação a utilização vocabulários arbitrários em suas anotações semânticas [Nowack, 2005]
  • eRDF (Exemplo)<link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" /><p id="celso" class="-foaf-Person"> <span class="foaf-name">Celso Araujo</span> estuda anotações</p> pe foaf:Person rdf:ty #celso foaf-n ame “Celso Araujo”
  • eRDF Vantagens – Permite a utilização de vocabulários arbitrários Desvantagens – Não possui suporte explícito a recursos anônimos (Blank Nodes) – Não possui suporte a literal XML e Tipada
  • RDFa (Resource Description Framework – in – attributes) Recomendação da W3C para anotação semântica em documentos XHMTL 1.1 [W3C, 2008]. Definido como “A collection of attributes and processing rules for extending XHTML to support RDF”
  • RDFa<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/"> Informações sobre <span property="foaf:name">Celso</span><div /> ame “Celso Araujo” foaf:n _blanknode1 rdf:typeOf foaf:Person
  • RDFa Vantagens – Blank Nodes – CURIEs – Suporte a literal XML e Tipada Desvantagens – Adição de novos elementos ao XHMTL (about, property, resource, datatype, typeof) – Suporte apenas ao XHTML 1.1 (suporte ao HTML encontra-se em fase de rascunho)
  • Microdata Padrão da W3C para anotação semântica em documentos HTML5 [W3C, 2008]. Esta especificação é resultado das investigações de Ian Hickson sobre os problemas que o RDFa consegue resolver em contrapartida a sua complexidade (STUDHOLME, 2010).
  • Microdata (Exemplo)<div itemscope itemref="a b"></div><p id="a"> Meu nome é: <span itemprop="name">Celso</span></p>. Sou aluno da professora<div id=“MariaClaudia" itemprop=“alunoDe" itemscope> <span itemprop="name">Maria</span>, Também conhecida como: <span itemprop=“nickname">Yoko</span></div> “Celso Araujo” name “Yoko” _blanknode1 nickname alunoDe #MariaClaudia name “Maria”
  • Microdata Vantagens – Mais simples que o RDFa – Flexibilidade para referência entre nodos Desvantagens – Imaturo (poucas ferramentas, exemplos etc…)
  • Comparativo Microformatos eRDF RDFa MicrodataUso de vocabulários customizados NÃO* SIM SIM SIMDRY SIM SIM SIM SIMCompatibilidade com HTML SIM SIM SIM** SIM***Compatibilidade com XHTML SIM SIM SIM**** SIMUtilização somente de atributos nativos do SIM SIM NÃO NÃO***HTML e XHTMLSuporte ao Blank Node NÃO NÃO SIM SIMUtilização de namespaces NÃO SIM SIM SIMSuporte a Literal simples SIM SIM SIM SIMSuporte a Literal XML NÃO NÃO SIM NÃOSuporte à Literal tipada SIM NÃO SIM SIMSuporte a CURIE NÃO NÃO SIM NÃOReferência a nodos não filho NÃO NÃO NÃO SIM
  • Ferramentas de Anotação Semântica São sistemas que provêem anotação semântica sobre um conteúdo qualquer com o auxílio de um vocabulário através de extração automática, sugestões de anotações ou interfaces gráficas para a anotação manual (SEMANTICWEB, 2008).
  • Ferramentas de Anotação Semântica Annotea GATE KIM OpenCalais Zemanta SMORE Ontos TextWise
  • Comparativo Tipo Represent Armazenamento da Anotação Referência com o Referência entre termo e Entrada de Plataforma ação da Vocabulário Anotação Vocabulários Anotação ArbitráriosAnnotea Manual Não RDF/XML Xpointer SIM SIM Desktop intrusivaGATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM DesktopKIM Automática Não SIM* SIM Híbrida intrusivaOpenCalais Automática Não RDF/XML, JSON, URIS SIM NÃO Web intrusiva Microformat e SimpleFormatZemanta Automática Não XML, JSON, WNJSON, URL NÃO NÃO Web intrusiva RDF/XMLSMORE Manual Não RDF/XML URIS NÃO SIM Desktop intrusivaOntos Automática Não JSON URIS NÃO SIM*** Web intrusivaTextWise Automática Não JSON e XML URIS NÃO NÃO Web intrusiva
  • Ferramentas de Extração Semântica Ferramentas capazes de indexar metadados contidos em ontologias ou documentos com anotações semânticas. Também conhecidas como ferramentas de “busca semântica”
  • Sindice Sindice (Semantic Web Index) é uma ferramenta de busca semântica que coleta dados de documentos RDF e de páginas web com anotações no padrão microformatos ou RDFa.
  • Yahoo Search Monkey SearchMonkey é um serviço do Yahoo! que permite desenvolvedores e proprietários de sites utilizarem dados estruturados de forma a tornar as buscas pelo Yahoo! mais úteis e visualmente atraentes, direcionando o tráfego mais relevante para os seus sites (YAHOO, 2010).
  • Google Rich Snippets O Google Rich Snippets é uma nova abordagem de apresentação dos resultados de pesquisa do Google (Figura 10) visando destacar alguns dados estruturados incorporados em páginas da web (GOEL et al., 2009).
  • Características Relacionadas para Análisedos Ferramentas de Extração Semântica Padrões de Anotação Vocabulários suportados Uso de vocabulários arbitrários
  • Comparativo Google Rich Sindice Yahoo! SearchMonkey Snippets RDFa SIM SIM SIMPadrões de Microformatos SIM SIM SIM Anotações eRDF NÃO NÃO SIM Microdata SIM NÃO NÃO hCalendar, hReview, XFN, hCard, Dublin Core, Foaf, hProduct, hCalendar, hCard, hCalendar, Vocabulários hCard, hReview, Rel- hReview, SIOC, Suportados Facebook Share License, GoodRelations, e YahooSearch hListing e Dbpedia, Freebase, Monkey Media hResume hFeed e XFN Uso de Vocabulários Arbitrários NÃO ??? SIM
  • Bibliografia IWS – Internet World Stats. 2009. Disponível em: http://www.internetworldstats. com/pr/edi038.htm. MOURA, ANA. 2004. Introdução a Web Semântica. http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm LUIZA, Maria. O Papel de Ontologias em Sistemas de Informação. Bernes-Lee T. The Semantic Web. http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2 Perreira H. Microformats http://revolucao.etc.br/archives/microformats Nowack B. Embedded RDF (eRDF) Parser for PHP http://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D., GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http:// www.ontotext.com/kim/>. Acesso em 25 ago 2009