Seminário paty aula 9 04-05-2011

  • 172 views
Uploaded on

 

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
172
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Universidade Federal de Santa Catarina Centro de Ciências da Educação Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Mestrado em Ciência da Informação Disciplina: PCI3214 – Recuperação Inteligente de Informação Professor: Dr. Angel Freddy Godoy Viera Seminário – Aula 9 04 de maio de 2011 Patricia da Silva Neubert PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 2. Seminário – Aula 9 Temática: Mineração de conteúdo web; Spiders web inteligentes; Mineração de estruturas da web; Mineração de uso da web. Bibliografia recomendada: CHEN, Hsinchun; CHAU, Michael. Web Mining: machine learning for Web applications. In: CRONIN, Blaise (ed.). Annual Review of Information Science and Technology. Medford: Information Today, Inc., 2004, v.38, cap. 6, p. 289-329. PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 3. INTRODUÇÃO A WEB MINING Web      Tamanho; Conteúdo não-estruturado; Conteúdo dinâmico; Multilíngue; Dados em vários formatos. Nesse caso, a extração de conhecimento útil é um problema. (CHEN; CHAU, 2004) 2 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 4. INTRODUÇÃO A WEB MINING “O conhecimento não vem só do conteúdo das páginas em si, mas também das características únicas da Web, tais como a sua estrutura de hyperlink e sua diversidade de conteúdos e línguas. A análise destas características, muitas vezes revela padrões interessantes e novos conhecimentos. Tal conhecimento pode ser usado para melhorar a eficiência dos usuários e eficácia na busca de informações na Web, e também para aplicações não relacionadas com a Web, como suporte à tomada de decisão ou gestão empresarial” (CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso) 3 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 5. INTRODUÇÃO A WEB MINING A solução para o problema vem das.... ...técnicas de aprendizado de máquina. A pesquisa sobre Data Mining se tornou um subcampo significativo das pesquisas sobre aprendizagem de máquina. “O termo Web Mining foi criado por Etzioni (1996) para denotar o uso de técnicas de mineração de dados para descobrir automaticamente documentos e serviços Web, extrair informações a partir de recursos da Web, e descobrir padrões gerais na web.” (CHEN; CHAU, 2004, p.289-290, tradução nossa) 4 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 6. INTRODUÇÃO A WEB MINING Segundo colocam Chen e Chau (2004, p.289-290) a pesquisa de Web Mining foi, com o passar do tempo, estendida para abranger a utilização da mineração de dados e técnicas similares para descobrir recursos, padrões e conhecimento a partir da Web e dados relacionados à Web (por exemplo dados de uso da Web ou servidor de web logs). Os autores adotam a definição de Cooley, Mobasher e Srivastava (1997, apud CHEN; CHAU, 2004, p.289-290, tradução nossa) para Web Mining: “é a descoberta e análise de informações úteis a partir da World Wide Web.” 5 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 7. INTRODUÇÃO A WEB MINING Web Mining coincide com outras áreas, incluindo mineração de dados, mineração de texto, acesso e recuperação da informação. Fonte: Chen e Chau, 2004, p.291 6 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 8. INTRODUÇÃO A WEB MINING Web Mining coincide com outras áreas, incluindo mineração de dados, mineração de texto, acesso e recuperação da informação. A classificação é baseada no objetivo e na fonte dos dados. Fonte: Chen e Chau, 2004, p.291 6 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 9. INTRODUÇÃO A WEB MINING Web Mining coincide com outras áreas, incluindo mineração de dados, mineração de texto, acesso e recuperação da informação. A classificação é baseada no objetivo e na fonte dos dados. Fonte: Chen e Chau, 2004, p.291 6 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 10. INTRODUÇÃO A WEB MINING A pesquisa de Web Mining está na intersecção de várias áreas: Recuperação da informação Aprendizado de máquina Recuperação na Web Data Mining Bases de dados Text Mining  Aprendizagem de máquina é a base para a maioria das técnicas de mineração de dados e de mineração de textos;  As pesquisas de recuperação de informação tem grande influencia nas pesquisas de aplicações de Web Mining. (CHEN; CHAU, 2004) 7 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 11. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina Algoritmos de aprendizagem de máquina têm sido desenvolvidas para atenuar os problemas de aquisição de conhecimentos por computadores feitas manualmente – a partir de especialistas humanos – visando a aquisição de conhecimentos automaticamente a partir de exemplos ou dados de origem. Mitchell (1997, p. 2) define a aprendizagem de máquina como o estudo de "qualquer algoritmo de computador que melhora seu desempenho em algumas tarefas por meio da experiência.” (CHEN; CHAU, 2004) 8 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 12. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina São classificados em: Aprendizado supervisionado No aprendizado supervisionado, os exemplos de treinamento consiste nos padrões para input/output. O objetivo do algoritmo de aprendizagem é prever os valores de saída de novos exemplos, com base em seus valores de entrada. Aprendizado não supervisionado No aprendizado não supervisionado, os exemplos de treinamento contém apenas os padrões de entrada, não especificado o padrão de saída associado a entrada. O algoritmo de aprendizagem deve generalizar a partir dos padrões de entrada para descobrir os valores de saída. (CHEN; CHAU, 2004) 9 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 13. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina Com base em Chen (1995), Langley e Simon (1995) os autores identificaram cinco áreas de pesquisa em aprendizagem de máquina: I. II. III. IV. V. Modelos probabilísticos; Aprendizagem simbólica e indução de regras; Redes neurais; Algoritmos baseados na evolução; Aprendizagem analítica e lógica fuzzy. (CHEN; CHAU, 2004) 10 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 14. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina I . Modelos probabilísticos O uso de modelos probabilísticos, foi uma das primeiras tentativas de realizar aprendizado de máquina, dos quais o exemplo mais popular é o método Bayesiano Bayesiano. Classifica os diferentes objetos em classes pré-definidas com base em um conjunto de recursos, armazenando a probabilidade de cada classe, de cada característica, e de cada recurso, com base nos dados de treinamento. Quando uma nova instância for encontrado, ele pode ser classificado de acordo com essas probabilidades (Langley, Iba, & Thompson, 1992). (CHEN; CHAU, 2004) (CHEN; CHAU, 2004) 11 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 15. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina II. Aprendizagem simbólica e indução de regras São classificadas de acordo com a estratégia de aprendizagem: a) aprendizagem mecânica; b) aprendizagem por ensino; c) aprendizagem por analogia; d) aprendizagem a partir de exemplos; e) e aprendizagem por descoberta (Carbonell, Michalski, & Mitchell, 1983; Cohen & Feigenbaum, 1982). A aprendizagem por exemplos parece ser a mais promissora. Ela é implementado através da aplicação de um algoritmo que tenta induzir a descrição do conceito geral, que melhor descreve as diferentes classes de exemplos de treinamento. (CHEN; CHAU, 2004) 12 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 16. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina III. Redes neurais Uma rede neural é um gráfico de muitos nós ativos (neurônios), que são conectadas umas às outras por ligações ponderadas (sinapses). Com base em exemplos de treinamento, os algoritmos de aprendizagem podem ser usados ​para ajustar os pesos de conexão na rede para que ele possa prever ou classificar exemplos desconhecidos corretamente. (CHEN; CHAU, 2004) 13 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 17. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina IV. Algoritmos baseados em evolução Algoritmos baseados em evolução dependem de analogias com os processos naturais e da noção Darwiniana da sobrevivência dos mais aptos. Fogel (1994, apud CHEN; CHAU, 2004) identifica três categorias de algoritmos de evolução baseada em: algoritmos genéticos, estratégias evolutivas e a programação evolutiva. Uma população sofre um conjunto de operações genéticas (crossover e mutação). Seleção ‘natural’ de indivíduos mais aptos. Os indivíduos selecionados passam a formar a próxima geração e o processo continua. Após uma série de gerações, o programa converge e a solução ideal é representada pelo melhor indivíduo. 14 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 18. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina V. Aprendizagem analítica e lógica fuzzy Aprendizagem analítica representa o conhecimento como regras de lógica, e executa este raciocínio sobre estas regras para procurar provas. As provas podem ser compilados em regras mais complexas para resolver problemas com um pequeno número de pesquisas necessárias. Os sistemas tradicionais de aprendizagem analítica dependem de regras de computação rígido. Para resolver esse problema, sistemas de lógica fuzzy têm sido propostas. (CHEN; CHAU, 2004) 15 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 19. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap (CHEN; CHAU, 2004) 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 20. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap Os dados são divididos em um conjunto de treinamento (2/3) e um conjunto de testes (1/3 dos dados). Depois que o sistema é formado pelos dados de treinamento, é necessário prever o valor de saída de cada exemplo no conjunto de teste. Estes valores são então comparados com os valores de saída real para determinar a precisão. 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 21. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap O conjunto de dados é divididos em subconjuntos, geralmente subgrupos de 10. O sistema é então treinado e testado para 10 interações e, em cada interação 9 subconjuntos são usados ​como dados de treinamento e 1 como dados de teste. Na rotação, cada subconjunto de dados serve como teste de jogo em uma interação. A precisão do sistema é a precisão média das 10 interações. CHAU, 2004) (CHEN; . 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 22. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out leave-oneamostragem bootstrap Leave-one-out é o caso extremo de validação cruzada, onde os dados originais são divididos em n subgrupos, onde n é o número de observações nos dados originais. O sistema é treinado e testado por n interações, em cada um dos quais n-1 exemplos são usados ​para o treinamento e a instância restante é usado para testes. 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 23. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap n amostras aleatórias independentes são retirados do conjunto de dados original de tamanho n. Como as amostras são tomadas com a substituição, o número de instâncias exclusivas será inferior a n. Essas amostras são então utilizadas como conjunto de treinamento para o sistema de aprendizagem, e os restantes dados que não foram incluídos na amostra são usados ​para testar o sistema (Efron & Tibshirani, 1993). (CHEN; CHAU, 2004) 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 24. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Feedback de relevância Filtragem de informações e recomendação Classificação de texto e clustering. (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 25. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Técnica destinada a identificar Feedback de relevância automaticamente as informações Filtragem de informações e recomendação úteis a partir de documentos de texto. Classificação de texto e clustering. (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 26. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Método usado em sistemas de IR para ajudar os usuários a Feedback de relevância buscas de Filtragem de informações e recomendação realizarem e reformularforma interativa as Classificação de texto e clustering. consultas de pesquisa com base na avaliação de documentos obtidos anteriormente. (Ide, 1971; Rocchio, 1971). (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 27. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Também ajudam os usuários a Extração de informação reformular as consultas de Feedback de relevância pesquisa, mas tenta aprender Filtragem de informações e recomendação sobre os interesses dos usuários, por meio de suas avaliações e Classificação de texto e clustering. ações e, em seguida, usa essas informações para analisar novos documentos. (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 28. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Classificação de texto é a classificação dos documentos em Feedback de relevância (aprendizado Filtragem de informações e recomendação grupos pré-definidasclustering é o supervisionado), e Classificação de texto e clustering. agrupamento dos documentos em categorias definidas dinamicamente, com base nas suas semelhanças (CHEN; CHAU, 2004) (aprendizado não supervisionado). 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 29. WEB MINING Web Mining pode ser dividido em três categorias (Kosala & Blockeel, 2000):  Mineração de conteúdo da Web; refere-se à descoberta de informações úteis a partir do conteúdo da Web, incluindo texto, imagens, áudio e vídeo.  Mineração de estruturas da Web; Refere-se ao estudo de potenciais modelos subjacentes às estruturas de links da web. > Usada para a formação do ranking dos motores de busca.  Mineração de uso da Web. Centra-se na análise de pesquisas/consultas para encontrar padrões interessantes. > Aplicação no desenvolvimento de perfis de usuário 18 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 30. WEB MINING Desafios: 1. 2. 3. Documentos em HTML; Diversidade dos documentos (tamanho, formato, estrutura); Documentos dinâmicos. “Outra característica da Web, talvez o mais importante, é a estrutura de hyperlink.” (CHEN; CHAU, 2004) 19 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 31. MINERAÇÃO DE CONTEÚDO WEB Mineração de conteúdo Web é baseado principalmente na pesquisa em recuperação de informação e mineração de texto, como extração de informações, classificação e agrupamento de texto e visualização da informação. A maioria dos documentos na Web são documentos de texto, portanto, a mineração de texto para documentos na Web pode ser considerado um sub-campo de mineração de conteúdos da Web. (CHEN; CHAU, 2004) 20 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 32. MINERAÇÃO DE CONTEÚDO WEB Mineração de conteúdo Web é baseado principalmente na pesquisa em recuperação de informação e mineração de texto, como extração de informações, classificação e agrupamento de texto e visualização da informação. A maioria dos documentos na Web são documentos de texto, portanto, a mineração de texto para documentos na Web pode ser considerado um sub-campo de mineração de conteúdos da Web. extração de informação Aplicações de mineração de textos em documentos web: classificação de texto texto clustering 20 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 33. MINERAÇÃO DE CONTEÚDO WEB As técnicas de extração de informações tem sido aplicado a documentos de texto simples, nesse sentido, a extração de informações de páginas da Web - em HTML - pode apresentar problemas. Páginas não-estruturadas tags de marcação “Em vez de um documento composto de parágrafos, uma página da Web pode ser um documento composto de uma barra lateral com links de navegação, tabelas com dados textuais e numéricos, frases capitalizados, e palavras repetitivas. A gama de formatos e estruturas é muito diversificada em toda a web.” 21 (CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso) PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 34. MINERAÇÃO DE CONTEÚDO WEB A extração de informação analisa as páginas da Web individualmente, a classificação de texto e texto clustering analisam um conjunto de páginas web. Em algumas aplicações, as tags de HTML são simplesmente retirados dos documentos da Web e algoritmos tradicionais são então aplicadas para realizar a classificação e agrupamento de texto – ignorando, algumas características da página web. O texto de documentos vizinhos – links para os quais a página aponta - tem sido utilizado na tentativa de melhorar o desempenho da classificação. 22 (CHEN; CHAU, 2004) PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 35. MINERAÇÃO DE CONTEÚDO WEB Spiders Web Inteligentes Spiders são "programas de software que atravessam o espaço de informação da World Wide Web, seguindo links de hipertexto e recuperação de documentos na Web através do protocolo HTTP padrão" (CHEONG, 1996, p. 82, apud CHEN; CHAU, 2004) ... são usados por motores de busca para construir suas bases de dados. A maior parte usa algoritmos simples para descoberta de recursos web, mas há o uso de algoritmos avançados (algoritmo genético, redes neurais, modelos híbridos...) 23 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 36. MINERAÇÃO DE CONTEÚDO WEB Web Mining Multilíngue  Maior parte do conteúdo em inglês;  No entanto, número de páginas em outros idiomas vem crecendo. Problemas no processamento de texto de diferentes idiomas.  Alguns algoritmos são independentes de idioma (classificação de texto, clustering); algoritmos como o de extração de informações devem ser adaptados para os diferentes idiomas. (CHEN; CHAU, 2004) 24 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 37. MINERAÇÃO DE CONTEÚDO WEB Web Visualização Muitas vezes é difícil extrair conteúdo útil a partir da Web, neste caso, ferramentas de visualização têm sido utilizadas para ajudar os usuários a manterem uma “visualização geral" de um conjunto de resultados de recuperação de motores de busca. Nestes sistemas de visualização, técnicas de aprendizado de máquina são muitas vezes utilizados para determinar como as páginas Web devem ser apresentadas. (CHEN; CHAU, 2004) 25 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 38. MINERAÇÃO DE CONTEÚDO WEB Web Semântica 1. 2. 3. Os documentos da Web não serão mais textos não estruturados, eles serão identificados e entendidos por computadores. A aprendizagem de máquina pode desempenhar três papéis importantes na Web Semântica. Sendo usada para... criar automaticamente os metadados de marcação; criar, fundir, atualizar e manter ontologias; compreender e executar o raciocínio sobre os metadados fornecidos pela Web Semântica, a fim de extrair conhecimento a partir da Web de forma mais eficaz. 26 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 39. MINERAÇÃO DE ESTRUTURAS DA WEB A estrutura de links da Web tem sido amplamente utilizada para inferir informações importantes sobre as páginas web. A mineração de estruturas da Web tem sido largamente influenciado pelas pesquisas de análise de redes sociais e análise de citações (bibliometria). Citações (ligações) entre as páginas da Web geralmente são indicadores de grande relevância ou de boa qualidade. (CHEN; CHAU, 2004) 27 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 40. MINERAÇÃO DE ESTRUTURAS DA WEB Geralmente, quanto maior o número de links para uma determinada página, mais útil a página é considerada. O raciocínio é que uma página referenciada por muitas pessoas, é provável que seja mais importante do que uma página que raramente é mencionada. “Além disso, é razoável dar uma ligação de uma fonte autorizada (como Yahoo) um peso maior do que um link de uma página Web da importância pessoal.” (CHEN; CHAU, 2004, p.311) 28 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 41. MINERAÇÃO DE ESTRUTURAS DA WEB As técnicas de mineração de estruturas da Web são frequentemente utilizados para melhorar o desempenho de aplicações web. Por exemplo o PageRank: É eficaz no ranking dos resultados do motor de busca Google (http://www.google.com) (Brin e Page, 1998). É utilizado como uma medida para orientar as aranhas do Search Engine, onde URLs com PageRank mais elevado são visitadas primeiro (Cho et al., 1998). (CHEN; CHAU, 2004) 29 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 42. MINERAÇÃO DE USO DA WEB Servidores Web, proxies, e aplicações cliente podem facilmente capturar dados sobre o uso da Web. Logs do servidor Web contêm informações sobre todas as visitas às páginas hospedadas em um servidor. Ficheiros solicitados endereço de IP número de bytes enviados código de erro navegador usado Ao realizar a análise dos dados de uso da Web, os sistemas de mineração da Web podem descobrir conhecimentos úteis sobre as características de um sistema, do uso e os interesses dos usuários. (CHEN; CHAU, 2004) 30 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 43. MINERAÇÃO DE USO DA WEB Análise de padrões e tendências Um dos principais objetivos da mineração de utilização da Web é o interesse em revelar tendências e padrões. Esses padrões podem frequentemente fornecer conhecimentos importantes sobre os clientes de uma empresa ou dos usuários do sistema. Srivastava, Cooley, Despande e Tan (2000) fornecem uma estrutura para a mineração de uso da Web, que consiste em três etapas principais: I. pré-processamento; II. descoberta de padrões; III. análise de padrões. (CHEN; CHAU, 2004) 31 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 44. MINERAÇÃO DE USO DA WEB Personalização e colaboração Muitos dos objetivo de uso das técnicas de Web Mining são fornecer informações e serviços personalizados para os usuários. Os dados de uso da Web fornecem uma excelente maneira de aprender sobre o interesse dos usuários (Srivastava et al., 2000). al. 2000) Mineração de uso da Web pode ajudar a identificar usuários que acessaram páginas Web semelhante. Os padrões que emergem podem ser aplicados em pesquisas sobre a Web colaborativa e filtragem colaborativa. (CHEN; CHAU, 2004) 32 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 45. CONSIDERAÇÕES FINAIS A Web tornou-se o maior repositório de conhecimento do mundo. A extração de conhecimento da Web de forma eficiente e eficaz está se tornando cada vez mais importante. Limitações das pesquisas em Web Mining:  dificuldade de criação de coleções de ensaio adequadas;  dificuldade de coletar dados de uso da Web em sites diferentes (maioria dos dados de log do servidor e os dados recolhidos por empresas são proprietários). (CHEN; CHAU, 2004, p.316, tradução nossa) 33 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 46. CONSIDERAÇÕES FINAIS As atividades de Web Mining ainda estão em estágios iniciais e devem continuar a desenvolver-se como a evolução da web. No futuro... mineração de dados multimídia. multimídia. “Além dos documentos textuais, como HTML, MS Word Document, PDF e arquivos de texto, um grande número de documentos multimídia estão contidas na Web, tais como imagens, áudios e vídeos. Apesar de os documentos textuais serem relativamente fáceis de recuperar e analisar, as operações em arquivos de multimídia são muito mais difíceis de executar, e como o conteúdo multimídia na web cresce rapidamente, Web Mining tornou-se um problema desafiador.” (CHEN; CHAU, 2004, p.316-317, tradução nossa) 34 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 47. CONSIDERAÇÕES FINAIS Web Mining no futuro...  conteúdo multilíngüe;  Internet sem fio;  Web invisível. “A Web tornou-se a maior base de conhecimento que jamais existiu. No entanto, sem a representação do conhecimento adequado e algoritmos de descoberta de conhecimento, é apenas como um ser humano com a memória extraordinária, mas sem capacidade de pensar e raciocinar.” (CHEN; CHAU, 2004, p.319, tradução nossa) 35 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 48. OBRIGADA! PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert