• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Obtendo Informação Útil em Dados Semi-Estruturados da Web
 

Obtendo Informação Útil em Dados Semi-Estruturados da Web

on

  • 3,275 views

Trata da Mineração Web, do uso dos microformatos e da ferramenta MicroMining - um ambiente web para a mineração de conteúdo de revisões usando o hReview. Foi realizado um exemplo prático com o ...

Trata da Mineração Web, do uso dos microformatos e da ferramenta MicroMining - um ambiente web para a mineração de conteúdo de revisões usando o hReview. Foi realizado um exemplo prático com o Weka.

Statistics

Views

Total Views
3,275
Views on SlideShare
3,269
Embed Views
6

Actions

Likes
0
Downloads
66
Comments
0

1 Embed 6

http://www.slideshare.net 6

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Obtendo Informação Útil em Dados Semi-Estruturados da Web Obtendo Informação Útil em Dados Semi-Estruturados da Web Presentation Transcript

  • Obtendo Informação Útil em Dados Semi-Estruturados na Web Mestrado em Sistemas e Computação Mineração de Dados Prof. Manoel Mendonça Luiz Matos – luizmatos.eti.br Salvador, Fevereiro de 2008
    • Introdução
    • Mineração Web
    • Micro-formatos
    • Exemplo Prático
    • Considerações Finais
    • Referências
    AGENDA
  • INTRODUÇÃO
    • Motivação
      • O usuário da Web, além de consumidor, torna-se produtor de informação ;
      • Crescimento significativo da quantidade de informação disponível;
      • Maior complexidade no processo de obtenção de informação útil.
  • INTRODUÇÃO
    • Usuários de Internet no mundo em 2007: ~1,3 bi (STATS, 2008)
    • Média de crescimento entre 2000 e 2007: ~ 265% (STATS, 2008)
    • Páginas indexadas pelo Google em 2006: ~20 bi (ALLSOPP, 2007; GOOGLE SEARCH, 2008)
    (STATS, 2008)
  • Resultados de busca em google.com no dia 20 /02/2008. (palavra-chave: filetype:arq )
    • Sabendo-se que a Web é/tem muito mais que isso, surge um problema ...
    • Como extrair significado deste enorme conjunto de recursos?
    INTRODUÇÃO Usuários da Internet no Mundo Quantidade Tipo de Arquivos 5.541.770 Diversos 6.258.667.848 TOTAL 4.905.466 Pacotes 28.021.500 Web Semântica 3.404.532 Multimídia 170.369.580 Documentos/Programas 6.046.425.000 Páginas Web
    • Objetivo
      • Aplicar os conceitos relacionados a mineração de dados na web e micro-formatos para extrair informação útil em sites com dados semi-estruturados.
    • Metodologia
      • Levantamento bibliográfico;
      • Leitura e sumarização das idéias;
      • Implementação do exemplo prático;
      • Documentação (artigo + apresentação).
    INTRODUÇÃO
    • O que é?
    • Uso das técnicas da Mineração de Dados para descoberta e análise de informações úteis da Web.
    • Por quê?
    • Descobrir conhecimento novo e relevante dos dados Web, onde seja possível demonstrar:
      • Características;
      • Comportamentos;
      • Tendências, e;
      • Padrões de navegação do usuário Web.
    MINERAÇÃO WEB (MOBASHER e outros apud MACHADO, 2002)
    • Categorias
    • Mineração do Conteúdo : descoberta de informações úteis no conteúdo das páginas e documentos Web.
    • Mineração da Estrutura : descoberta de informações úteis com base na estrutura de hyperlinks da Web.
    • Mineração do Uso : descoberta de padrões de acesso do usuário com base nos logs da Web.
    MINERAÇÃO WEB (KOSALA e BLOCKEEL apud MACHADO, 2002)
    • Estado da Arte
      • Extração e integração de informação obtida em várias fontes de conteúdo;
      • Mineração de texto e categorização de páginas;
      • Análise de hyperlinks – técnicas e aplicações;
      • Ranking de páginas;
      • Compreensão do perfil de usuários e padrões de navegação.
    MINERAÇÃO WEB (DESIKAN e outros, 2007)
    • O que são?
    • Um conjunto de formatos de dados simples construídos sobre padrões existentes e adotados em larga escala. (ALLSOPP, 2007)
    • Por quê?
    • - Resolver o problema de criação de uma semântica de marcação para a Web atual;
    • - Enquanto mecanismos mais complexos, como o RDF, não se estabelecem aplica-se a “lowercase semantic web ”.
    • Princípios
      • Resolver um problema específico;
      • Ser tão simples quanto possível;
      • Primeiramente para humanos, depois para máquinas.
    MICRO-FORMATOS
    • Especificações em Micro-formatos( µFs):
      • hCard: informações de contato de pessoas ou organizações.
      • hCalendar: informações de eventos (seminários, reuniões, etc).
      • XFN: relacionamentos entre pessoas (e.g., quem conhece quem, quem tem amigos em comum, etc).
      • hReview: revisões/avaliações na Web.
      • hResume: publicação de curriculum.
      • hGene: representação de genes (biologia).
      • geo: marcação de coordenadas geográficas.
      • Entre outras..
    MICRO-FORMATOS
    • Exemplo hCard
    MICRO-FORMATOS
    • Exemplo XHTML Friends Network (XFN)
    • Estado da Arte
      • Micro-formatos + RDF + OWL + GRDDL;
      • - Como em (QUINT et all , 2006), (SCHAPRANOW, 2006) e (THOMPSON et al , 2007).
      • Adoção pelos “gigantes” da computação e Internet;
    • - “We need microformats.” (Bill Gates)
      • Adoção pela indústria dos navegadores:
      • - Plugins Firefox: Operator, Tails Export
    MICRO-FORMATOS
    • Estado da Arte
      • Serviços online e ferramentas de blogging ;
      • - Technorati.com e plugin WordPress
      • Certa concordância com os preceitos da W3C;
      • - “The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.” ( Tim Berners-Lee)
      • RDFa o “micro-formato oficial” da Web Semântica.
    MICRO-FORMATOS
    • Mineração Web e Micro-formatos: tendências.
    (GOOGLE TRENDS, 2008) (KHARE apud SCHAPRANOW, 2006)
  • EXEMPLO PRÁTICO
    • Cenário
    • Imagine que você precisa comprar um livro. Antes de sair navegando entre os diversos sites de editoras, livrarias ou lojas especializadas, você quer saber qual foi a avaliação de seus amigos, profissionais, ou especialistas sobre o livro.
    • Para isso, você acessa suas páginas pessoais ou blogs e analisa suas avaliações. Mas.. Quantas serão consideradas suficientes? Como encontrar estas informações? De que forma elas estarão disponíveis?
    • Independente do formato utilizado , o primeiro passo é centralizar todas as páginas e transformá-las em uma linguagem comum. Após isso, basta efetuar as consultas necessárias e obter suas respostas.
  • EXEMPLO PRÁTICO
    • Metodologia
    • Seleção de dados: escolha de avaliações publicadas na Web em páginas de lojas virtuais. Foi desenvolvido um formulário que mediante o preenchimento manual das avaliações gera automaticamente o código XHTML com o micro-formato hReview.
    • Pré-processamento: inserção destes blocos de avaliações em um arquivo XHTML, formando um conjunto de dados de 60 (sessenta) avaliações diferentes. Validação do arquivo XHTML via serviço disponibilizado pelo W3C.
    • Transformação: conjunto de dados XHTML para RDF utilizando um processamento GRDDL, através do GRDDL Service disponibilizado pelo W3C.
    • Consultas e Mineração: foram realizadas consultas com a SPARQL no conjunto de dados RDF, permitindo que algumas interpretações simples fossem realizadas (ex., analisar as avaliações de determinado livro).
    • Uma destas consultas permite a geração de um arquivo ARFF, adequado para o software WEKA, possibilitando a aplicação de técnicas de Mineração de Dados para a identificação de padrões e formalização do processo de descoberta de conhecimento.
  • EXEMPLO PRÁTICO
    • Etapas da Metodologia
    • Tecnologias Utilizadas
    RDF API for PHP
    • DEMONSTRAÇÃO
      • Ambiente MicroMining
      • hReview Creator;
      • Arquivo de Revisões (XHTML+hReview);
      • Validação e Transformação;
      • Arquivo e Grafo RDF;
      • Consultas;
      • Arquivo ARFF;
      • Mineração de Dados no WEKA.
    EXEMPLO PRÁTICO
  • Ambiente desenvolvido para a realização do exemplo prático MicroMining
  • Formulário para a geração do conteúdo com micro-formato hReview Creator
  • Trecho de código da avaliação (XHTML + hReview) gerado Visualização no navegador do código gerado Arquivo de Revisões (XHTML+hReview)
  • Serviços utilizados para Validação e Transformação do conjunto de dados
  • Visualização do conjunto de dados transformado e do grafo RDF
  • Formulário para a realização de consultas SPARQL no conjunto de dados
  • Resultado da consulta SPARQL que retorna todas as avaliações disponíveis SELECT DISTINCT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality }
  • Resultado da consulta SPARQL que retorna todas as avaliações de livros com nota maior que 4 SELECT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description; rev:createdOn ?date . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality . FILTER(?rating > "4") }
  • Resultado da consulta SPARQL que retorna todas as avaliações de livros cujo assunto é Java SELECT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality . FILTER (REGEX(?bookname, "java", "i")). }
  • Resultado da consulta SPARQL que retorna todas as avaliações de pessoas que moram em Salvador SELECT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality . FILTER(REGEX(?locality, "Salvador", "i")) }
  • Arquivo ARFF gerado após consulta SPARQL no conjunto de dados RDF
  • Etapa de Mineração de Dados no WEKA Visualização da quantidade de revisões por cidade ( locality ) Visualização da quantidade de revisões por assunto
  • Etapa de Mineração de Dados no WEKA Visualização da quantidade de revisões por cidade e assunto Visualização da quantidade de revisões por assunto e nota ( ratin g)
  • Etapa de Mineração de Dados no WEKA Resultado do processamento do algoritmo EM de clusterização. Identificados 2 clusters no atributo assunto do livro Identificados 2 clusters no atributo localidade Identificado 1 cluster no atributo nome do livro
  • Etapa de Mineração de Dados no WEKA Notas ( rating ) Assunto do livro ( booksubject )
    • Toda e qualquer maneira de dar maior significado ao conteúdo web beneficia a mineração de informação útil;
    • O processo de descoberta de conhecimento ocorreu naturalmente, com maiores esforços na fase de pré-processamento dos dados;
    • Extração e integração automática para obter um universo maior de revisões;
    • Prova de conceito realizada com sucesso.
    CONSIDERAÇÕES FINAIS
    • Allsopp, John. Microformats: empowering your markup for web 2.0. New York: Springer, 2007.
    • Berners-Lee, Tim. Information Management: a proposal. 1989. Disponível em: <http://www.w3.org/History/1989/proposal.html>. Acesso em: 03 mar. 2008.
    • Berners-Lee, Tim; Hendler, James; Lassila, Ora. The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American 284, pp. 34–43, 2001.
    • Brin, Sergey; Page, Lawrence. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks and ISDN Systems, v. 30, n. 1-7, pp. 107-117, April 1998.
    • Desikan, P., Srivastava, J., Kumar, V. and Tan, P. N., Hyperlink Analysis: Techniques and Applications. Technical Report 2002-0152, Army High Performance Computing and Research Center, 2002.
    • Desikan, Prasanna; Delong, Colin; Mane, Sandeep; Beemanapalli, Kalyan; Hsu, Kuo-Wei; Sriram, Prasad; Srivastava, Jaideep; Vanuturumilli, Vamsee. Web Mining for Business Computing. In: Handbook in Information Systems, 2007.
    • Dodds, Leigh. Introducing SPARQL: querying the semantic web. Disponível em: <http://www.xml.com/lpt/a/1628>. Acesso em: 20 fev. 2008.
    • Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases. Artificial Intelligence Magazine, American Association for Artificial Intelligence, 1996.
    • Google Search. Disponível em: <http://en.wikipedia.org/wiki/Google_search>. Acesso em: 23 fev. 2008.
    • GRDDL. Gleaning Resource Descriptions from Dialects of Languages. Disponível em: <http://www.w3.org/TR/grddl/>. Acesso em: 21 fev. 2008.
    • Halpin, Harry. Procedural versus Declarative Semantics on the Web: microformats, GRDDL, and RDFa. University of Edinburgh, 2007.
    • Khare, Rohit; Çelik, Tantek. Microformats: a pragmatic path to the semantic web. WWW 2006, Maio, 2006.
    • Kosala, R.; Blockell, H. Web Mining Research: a survey. SIGKDD Explorations, vol. 2, 2000. In: Machado, Letícia dos Santos. Mineração do Uso da Web na Educação a Distância. Dissertação de Mestrado, PUC/RS, PPGCC, 2002.
    REFERÊNCIAS
    • Machado, Letícia dos Santos. Mineração do Uso da Web na Educação a Distância: propostas para a condução de um processo a partir de um estudo de caso. Dissertação de Mestrado, PUC/RS, Programa de Pós-Graduação em Ciência da Computação, 2002.
    • Microformats. Website dos Micro-formatos. Disponível em: <http://www.microformats.org>. Acesso em: 20 fev. 2008.
    • Mobasher, Bamshad; Jain, Namit; Han, Eui-Hong; Srivastava, Jaideep. Web Mining: pattern discovery from world wide web transactions. University of Minnesota, Dept. Of Computer Science, Minneapolis, Technical Report TR 96-050, 1996. In: Machado, Letícia dos Santos. Mineração do Uso da Web na Educação a Distância. Dissertação de Mestrado, PUC/RS, PPGCC, 2002.
    • Nakahira, Katsuko T.; Matsui, Masashi; Mikami, Yoshiki. The Use of XML to Express a Historical Knowledge Base. In: WWW 2007, Canada, Maio 2007.
    • Quint, Vincent; Vatton, Irène; Flores, Francesc Campoy. Templates, Microformats and Structured Editing. Document Engineering 06, Out. 2006.
    • RDF. Resource Description Framework (RDF): Concepts and Abstract Syntax. W3C Recommendation, 2004. Disponível em: <http://www.w3.org/TR/rdf-concepts/>. Acesso em: 22 fev. 2008.
    • Rezende, Solange Oliveira. Mineração de Dados. [s.d.] Disponível em: <http://www.addlabs.uff.br/enia_site/dw/mineracaodedados.pdf>. Acesso em: 03 jan. 2008.
    • Schapranow, Matthieu-P. Microformats: a XML-document-immanent way for semantic annotations of web contents. University of Potsdam, Hasso-Plattner-Institute for IT Systems Engineering, 2006.
    • SPARQL. Query Language for RDF W3C Recommendation, 2008. Disponível em: <http://www.w3.org/TR/rdf-sparql-query/ >. Acesso em: 22 fev. 2008.
    • Stats. Internet World Stats. Disponível em: <http://www.internetworldstats.com/ stats.htm>. Acesso em: 22 fev. 2008.
    • WEKA. Waikato Environment for Knowledge Analysis. Disponível em: <http://www.cs.waikato.ac.nz/ ml/weka/>. Acesso em: 05 fev. 2008.
    REFERÊNCIAS
  • (DESIKAN e outros, 2007) Taxonomia da Mineração Web Perspectiva do usuário Perspectiva do criador