Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
c...
Upcoming SlideShare
Loading in …5
×

Ferramentas Java para Recuperação e Mineração de Informações

247 views

Published on

Published in: Technology, News & Politics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
247
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ferramentas Java para Recuperação e Mineração de Informações

  1. 1. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Ferramentas Java para Recupera¸˜o e Minera¸˜o ca ca de Informa¸˜es co Fabr´ J. Barth1,2 ıcio 1 Funda¸˜o ca 2 Centro Atech Tecnologias Cr´ ıticas (fbarth@atech.br) Universit´rio SENAC (fabricio.jbarth@sp.senac.br) a 9 de setembro de 2008 Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  2. 2. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e 1 Contexto, Problemas e Objetivos Problema 1: recuperar a informa¸˜o ca Problema 2: tratar a informa¸˜o recuperada ca 2 Estudo de caso 3 Conceitos, t´cnicas e ferramentas e Agrupamento de documentos Classifica¸˜o de documentos ca Recupera¸˜o de Informa¸˜o ca ca 4 Considera¸˜es e Referˆncias co e Considera¸˜es co Referˆncias e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  3. 3. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Contexto: Enorme quantidade de dados que precisa ser processada Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  4. 4. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema 1: recuperar a informa¸˜o ca Problema 1: recuperar a informa¸˜o ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  5. 5. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema 2: tratar a informa¸˜o recuperada ca Problema 2: tratar a informa¸˜o recuperada ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  6. 6. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Quantidade de not´ ıcias produzidas na Web? Notícias publicadas na Internet 160000 Estadão Folha G1 Globo Online Terra Último Segundo Total 140000 Quantidade (Notícias) 120000 100000 80000 60000 40000 20000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Tempo (Dias) Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  7. 7. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Quantidade de not´ ıcias produzidas na Web? Relação Horário x Dia x Quantidade de Notícias Produzidas 500 450 400 350 300 250 200 150 100 50 0 500 400 Notícias 300 200 100 0 0 2 4 6 8 Horário 10 12 30 14 16 20 10 18 20 22 0 Fabr´ ıcio J. Barth - Just Java 2008 40 50 60 70 80 90 Dia Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  8. 8. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema e Sugest˜es o Problema: Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de ca e a a alguma forma... Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  9. 9. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema e Sugest˜es o Problema: Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de ca e a a alguma forma... Sugest˜es: o Agrupamento de Not´ ıcias. Classifica¸˜o, Recomenda¸˜o e Filtragem de Not´ ca ca ıcias. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  10. 10. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Por que agrupar not´ ıcias? Como agrup´-las? a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  11. 11. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Defini¸˜es de Algoritmos de Agrupamento co O objetivo dos algoritmos de agrupamento ´ colocar os e objetos similares em um mesmo grupo e objetos n˜o similares a em grupos diferentes. Normalmente, objetos s˜o descritos e agrupados usando um a conjunto de atributos e valores. N˜o existe nenhuma informa¸˜o sobre a classe ou categoria a ca dos objetos. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  12. 12. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Formato de um documento ... Esta disciplina tem como objetivo apresentar os principais conceitos da ´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e a e e m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um e a a ponto de vista introdut´rio. o A estrat´gia de trabalho, o conte´do ministrado e a forma depender˜o e u a dos projetos selecionados pelos alunos. Inicialmente, os alunos dever˜o a trazer os seus Projetos de Conclus˜o de Curso, identificar intersec¸˜es a co entre o projeto e a disciplina, e propor atividades para a disciplina. ... Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  13. 13. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  14. 14. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? − → di = (pi1 , pi2 , · · · , pin) (1) Os atributos s˜o as palavras que aparecem nos documentos. a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  15. 15. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? − → di = (pi1 , pi2 , · · · , pin) (1) Os atributos s˜o as palavras que aparecem nos documentos. a Se todas as palavras que aparecem nos documentos forem utilizadas, o vetor n˜o ficar´ muito grande? a a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  16. 16. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Diminuindo a dimensionalidade do vetor Como filtrar as palavras que devem ser usadas como atributos? Em todos os idiomas existem ´tomos (palavras) que n˜o a a significam muito. Stop-words Esta disciplina tem como objetivo apresentar os principais conceitos da ´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e a e e m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um e a a ponto de vista introdut´rio. o ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  17. 17. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Diminuindo ainda mais a dimensionalidade do vetor Algumas palavras podem aparecer no texto de diversas maneiras: t´cnica, t´cnicas, implementar, implementa¸˜o... e e ca Stemming - encontrar o radical da palavra e usar apenas o radical. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  18. 18. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores J´ conhecemos os atributos. a E os valores? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  19. 19. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores J´ conhecemos os atributos. a E os valores? Booleana - se a palavra aparece ou n˜o no documento (1 ou 0) a Por freq¨ˆncia do termo - a freq¨ˆncia com que a palavra ue ue aparece no documento (normalizada ou n˜o) a Pondera¸˜o tf-idf - o peso ´ proporcional ao n´mero de ca e u ocorrˆncias do termo no documento e inversamente e proporcional ao n´mero de documentos onde o termo aparece. u Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  20. 20. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Por freq¨ˆncia do termo ue (apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33) Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  21. 21. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Conjunto de Exemplos - Atributo/Valor Doc. apresent form tecnic caracteriz ··· d1 d2 d3 d4 d5 dn 0.33 0 1 0.4 1 ··· 0.33 0.5 0.6 0.3 0.4 ··· 0.33 0.2 0 0.33 0.1 ··· 0.33 0.33 0 0.4 0.1 ··· ··· ··· ··· ··· ··· ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  22. 22. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Componentes da Solu¸˜o ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  23. 23. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Coletor de RSS e Pr´-Processamento e function coletorRSS(Lista de RSS): tabela i ← 0; for cada rssi em RSS do for cada noticiaj em rssi do di ← di + rssi .noticiaj .TITLE; di ← di + rssi .noticiaj .DESCRIPTION; di ← eliminaStopWords(di ); di ← stemming(di ); i ← i + 1; end for end for return criaTabelaExemplos(d,TF-IDF); Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  24. 24. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - RapidMiner e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  25. 25. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Caracter´ ısticas e Funcionalidades do RapidMiner O usu´rio define um processo de tratamento dos dados. a Os operadores podem ser divididos nas seguintes categorias: IO Learner (Supervised / Unsupervised) OLAP (On-line Analytical Processing) Postprocessing Preprocessing Validation Visualization Cada operador pode ser devidamente configurado. Existem ambientes para: defini¸˜o do processo e execu¸˜o do ca ca processo. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  26. 26. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - RapidMiner e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  27. 27. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - C´digo e o § ¤ i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . stemmer . P o r t e r S t e m m e r W r a p p e r ; i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . t o k e n i z e r . S i m p l e T o k e n i z e r ; i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . w o r d f i l t e r . StopWordsWrapper ; ... p u b l i c S t r i n g manipulaTextoComStemming ( S t r i n g nomeArquivo ){ try{ WVTDocumentInfo d o c u m e n t I n f o = new WVTDocumentInfo ( n u l l , ” html ” , n u l l , ” e n g l i s h ” ) ; S i m p l e T o k e n i z e r t o k e n i z e r = new S i m p l e T o k e n i z e r ( ) ; TokenEnumeration t o k e n s = t o k e n i z e r . t o k e n i z e ( new I n p u t S t r e a m R e a d e r ( new F i l e I n p u t S t r e a m ( nomeArquivo ) ) , d o c u m e n t I n f o ) ; P o r t e r S t e m m e r W r a p p e r stemmer = new P o r t e r S t e m m e r W r a p p e r ( ) ; StopWordsWrapper s t o p W o r d s = new StopWordsWrapper ( ) ; T o k e n E n u m e r a t i o n tokenSemStopWord = s t o p W o r d s . f i l t e r ( tokens , documentInfo ) ; S t r i n g r e t o r n o = ”” ; w h i l e ( tokenSemStopWord . hasMoreTokens ( ) ) retorno = retorno + stemmer . g e t B a s e ( tokenSemStopWord . n e x t T o k e n ())+ ” ” ; return retorno ; ... ¦ Fabr´ ıcio J. Barth - Just Java 2008 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  28. 28. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Conjunto de treinamento - Arquivo Arff § ¤ @RELATION R a p i d M i n e r D a t a @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE ... ... ’ network ’ r e a l ’ februari ’ real ’ member ’ r e a l ’ wait ’ r e a l @DATA 0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318225 0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318 ,0 0.0 ,0.0 ,0.0 ,0.0 0.0 ,0.0 ,0.0 ,0.0 0.0 ,0.014857582309589007 ,0.0 ,0.0024848992203904758 ... ... ¦ Fabr´ ıcio J. Barth - Just Java 2008 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  29. 29. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Que algoritmo de agrupamento utilizar? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  30. 30. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmos para Agrupamento - K-means K significa o n´mero de agrupamentos (que deve ser u informado ` priori). a Sequˆncia de a¸˜es iterativas. e co A parada ´ baseada em algum crit´rio de qualidade dos e e agrupamentos (por exemplo, similaridade m´dia). e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  31. 31. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para Agrupamento - K-means 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 6 7 1 8 2 3 4 5 6 7 8 (2) Sorteio dos pontos centrais dos agrupamentos (1) Objetos que devem ser agrupados 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 6 7 8 (3) Atribuição dos objetos aos agrupamentos Fabr´ ıcio J. Barth - Just Java 2008 1 2 3 4 5 6 7 8 (4) Definição do centro do agrupamento Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  32. 32. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Weka Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  33. 33. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Caracter´ ısticas e Funcionalidades do Weka Mais simples que o RapidMiner. Com menos funcionalidades. Os operadores podem ser divididos nas seguintes categorias: Entrada e pr´-processamento. e Classifica¸˜o. ca Agrupamento. Associa¸˜o. ca Visualiza¸˜o. ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  34. 34. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Weka Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  35. 35. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - C´digo o § ¤ p u b l i c AgrupamentoComKMeans ( S t r i n g a r q u i v o ){ try{ I n s t a n c e s i n s t a n c e s = new I n s t a n c e s ( new F i l e R e a d e r ( a r q u i v o ) ) ; /∗ ∗ Para v i s u a l i z a r o s d a d o s do a r q u i v o a r f f ∗/ System . o u t . p r i n t l n ( ” D a t a s e t : ” ) ; System . o u t . p r i n t l n ( i n s t a n c e s ) ; /∗ ∗ U t i l i z a c ˜ o do KMeans ¸a ∗/ SimpleKMeans kmeans = new SimpleKMeans ( ) ; kmeans . b u i l d C l u s t e r e r ( i n s t a n c e s ) ; /∗ ∗ Imprimindo i n f o r m a c˜o s o b r e i n s t ˆ n c i a − agrupamento ¸a a ∗/ f o r ( i n t i =0; ii n s t a n c e s . n u m I n s t a n c e s ( ) ; i ++){ System . o u t . p r i n t l n ( ”A i n s t ˆ n c i a ”+ a i n s t a n c e s . i n s t a n c e ( i ) . t o S t r i n g ()+ ” e s t a h no c l u s t e r ”+ kmeans . c l u s t e r I n s t a n c e ( i n s t a n c e s . i n s t a n c e ( i ) ) ) ; } } c a t c h ( E x c e p t i o n e ){ System . o u t . p r i n t l n ( e ) ; } } ¦ ¥ Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  36. 36. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Resultados § A A A A A A A A A A A A A A ¦ ¤ instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a 0.1 0.1 0.3 0.3 0.3 0.8 0.1 0.1 0.1 0.6 0.6 0.1 0.2 0.1 ,0.1 ,0.2 ,0.4 ,0.1 ,0.1 ,0.7 ,0.1 ,0.1 ,0.1 ,0.5 ,0.5 ,0.1 ,0.8 ,0.1 ,0.1 ,0.3 ,0.5 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.7 ,0.1 ,0.1 ,0.8 ,0.9 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.9 ,0.1 est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a no no no no no no no no no no no no no no Fabr´ ıcio J. Barth - Just Java 2008 cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster 1 1 0 1 1 0 1 1 1 0 0 1 0 1 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  37. 37. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Classifica¸˜o e Filtragem de Not´ ca ıcias Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  38. 38. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Classifica¸˜o e Filtragem de Not´ ca ıcias Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  39. 39. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Conjunto de Exemplos - Atributo/Valor e Classe Doc. apresent form tecnic caracteriz ··· Relevante d1 d2 d3 d4 d5 dn 0.33 0 1 0.4 1 ··· 0.33 0.5 0.6 0.3 0.4 ··· 0.33 0.2 0 0.33 0.1 ··· 0.33 0.33 0 0.4 0.1 ··· ··· ··· ··· ··· ··· ··· 1 0 1 1 1 ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  40. 40. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Qual ´ o problema? e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  41. 41. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Uma solu¸˜o... ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  42. 42. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Processo de trabalho Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  43. 43. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Como construir sistemas de “busca” sob medida? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  44. 44. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Como construir sistemas de “busca” sob medida? Lucene: biblioteca para Recupera¸˜o de Informa¸˜o escrita ca ca em Java e c´digo aberto. Possui: indexador e search engine. o Outras funcionalidades (web crawler e parsing de p´ginas a HTML) s˜o implementados por outras ferramentas baseadas a no Lucene, i.e, Nutch. Mantido pela Apache Software Foundation. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  45. 45. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Utilizando o Lucene, o desenvolvedor pode alterar a search engine para ter um mecanismo de busca apropriado para o dom´ da sua aplica¸˜o. ınio ca Exemplos de altera¸˜es poss´ co ıveis: Expans˜o da consulta usando uma taxonomia da empresa. a Altera¸˜o da fun¸˜o de ordena¸˜o (PageRank, BM25, ca ca ca Booleano). Reordena¸˜o dos resultados utilizando informa¸˜es do perfil do ca co usu´rio. a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  46. 46. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Considera¸˜es co Considera¸˜es co Todas as fases de um sistema ou componente para tratamento de informa¸˜es podem ser implementadas com as co ferramentas vistas nesta apresenta¸˜o: ca Indexa¸˜o. ca Recupera¸˜o. ca Minera¸˜o (determina¸˜o de padr˜es). ca ca o Com o RapidMiner e Weka ´ poss´ e ıvel: Reutilizar diversos algoritmos necess´rios. a Prototipar (criar e validar) uma solu¸˜o rapidamente. ca Integrar a solu¸˜o criada em outras aplica¸˜es. ca co Com o Lucene ´ poss´ e ıvel: Desenvolver um mecanismo de “busca” sob medida. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  47. 47. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Referˆncias e Referˆncias (1/2) e Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), 2005. Weka 3: Data Mining Software in Java (http://www.cs.waikato.ac.nz/ml/weka/index.html). ˜ RapidMiner Community Edition (http://rapid-i.com/). Christopher D. Manning, Prabhakar Raghavan and Hinrich Sch¨tze, Introduction to Information Retrieval, Cambridge u University Press. 2008. (http://www˜ csli.stanford.edu/hinrich/information-retrieval-book.html). Apache Lucene (http://lucene.apache.org/java/docs/). Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  48. 48. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Referˆncias e Referˆncias (2/2) e Extra: Processamento de Linguagem Natural GATE, A General Architecture for Text Engineering (http://gate.ac.uk/). UIMA - Unstructured Information Management Architecture (www.research.ibm.com/UIMA/). Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co

×