Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ferramentas Java para Recuperação e Mineração de Informações

332 views

Published on

Published in: Technology, News & Politics
  • Be the first to comment

  • Be the first to like this

Ferramentas Java para Recuperação e Mineração de Informações

  1. 1. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Ferramentas Java para Recupera¸˜o e Minera¸˜o ca ca de Informa¸˜es co Fabr´ J. Barth1,2 ıcio 1 Funda¸˜o ca 2 Centro Atech Tecnologias Cr´ ıticas (fbarth@atech.br) Universit´rio SENAC (fabricio.jbarth@sp.senac.br) a 9 de setembro de 2008 Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  2. 2. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e 1 Contexto, Problemas e Objetivos Problema 1: recuperar a informa¸˜o ca Problema 2: tratar a informa¸˜o recuperada ca 2 Estudo de caso 3 Conceitos, t´cnicas e ferramentas e Agrupamento de documentos Classifica¸˜o de documentos ca Recupera¸˜o de Informa¸˜o ca ca 4 Considera¸˜es e Referˆncias co e Considera¸˜es co Referˆncias e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  3. 3. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Contexto: Enorme quantidade de dados que precisa ser processada Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  4. 4. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema 1: recuperar a informa¸˜o ca Problema 1: recuperar a informa¸˜o ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  5. 5. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema 2: tratar a informa¸˜o recuperada ca Problema 2: tratar a informa¸˜o recuperada ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  6. 6. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Quantidade de not´ ıcias produzidas na Web? Notícias publicadas na Internet 160000 Estadão Folha G1 Globo Online Terra Último Segundo Total 140000 Quantidade (Notícias) 120000 100000 80000 60000 40000 20000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Tempo (Dias) Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  7. 7. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Quantidade de not´ ıcias produzidas na Web? Relação Horário x Dia x Quantidade de Notícias Produzidas 500 450 400 350 300 250 200 150 100 50 0 500 400 Notícias 300 200 100 0 0 2 4 6 8 Horário 10 12 30 14 16 20 10 18 20 22 0 Fabr´ ıcio J. Barth - Just Java 2008 40 50 60 70 80 90 Dia Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  8. 8. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema e Sugest˜es o Problema: Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de ca e a a alguma forma... Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  9. 9. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema e Sugest˜es o Problema: Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de ca e a a alguma forma... Sugest˜es: o Agrupamento de Not´ ıcias. Classifica¸˜o, Recomenda¸˜o e Filtragem de Not´ ca ca ıcias. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  10. 10. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Por que agrupar not´ ıcias? Como agrup´-las? a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  11. 11. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Defini¸˜es de Algoritmos de Agrupamento co O objetivo dos algoritmos de agrupamento ´ colocar os e objetos similares em um mesmo grupo e objetos n˜o similares a em grupos diferentes. Normalmente, objetos s˜o descritos e agrupados usando um a conjunto de atributos e valores. N˜o existe nenhuma informa¸˜o sobre a classe ou categoria a ca dos objetos. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  12. 12. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Formato de um documento ... Esta disciplina tem como objetivo apresentar os principais conceitos da ´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e a e e m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um e a a ponto de vista introdut´rio. o A estrat´gia de trabalho, o conte´do ministrado e a forma depender˜o e u a dos projetos selecionados pelos alunos. Inicialmente, os alunos dever˜o a trazer os seus Projetos de Conclus˜o de Curso, identificar intersec¸˜es a co entre o projeto e a disciplina, e propor atividades para a disciplina. ... Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  13. 13. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  14. 14. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? − → di = (pi1 , pi2 , · · · , pin) (1) Os atributos s˜o as palavras que aparecem nos documentos. a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  15. 15. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? − → di = (pi1 , pi2 , · · · , pin) (1) Os atributos s˜o as palavras que aparecem nos documentos. a Se todas as palavras que aparecem nos documentos forem utilizadas, o vetor n˜o ficar´ muito grande? a a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  16. 16. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Diminuindo a dimensionalidade do vetor Como filtrar as palavras que devem ser usadas como atributos? Em todos os idiomas existem ´tomos (palavras) que n˜o a a significam muito. Stop-words Esta disciplina tem como objetivo apresentar os principais conceitos da ´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e a e e m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um e a a ponto de vista introdut´rio. o ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  17. 17. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Diminuindo ainda mais a dimensionalidade do vetor Algumas palavras podem aparecer no texto de diversas maneiras: t´cnica, t´cnicas, implementar, implementa¸˜o... e e ca Stemming - encontrar o radical da palavra e usar apenas o radical. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  18. 18. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores J´ conhecemos os atributos. a E os valores? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  19. 19. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores J´ conhecemos os atributos. a E os valores? Booleana - se a palavra aparece ou n˜o no documento (1 ou 0) a Por freq¨ˆncia do termo - a freq¨ˆncia com que a palavra ue ue aparece no documento (normalizada ou n˜o) a Pondera¸˜o tf-idf - o peso ´ proporcional ao n´mero de ca e u ocorrˆncias do termo no documento e inversamente e proporcional ao n´mero de documentos onde o termo aparece. u Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  20. 20. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Por freq¨ˆncia do termo ue (apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33) Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  21. 21. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Conjunto de Exemplos - Atributo/Valor Doc. apresent form tecnic caracteriz ··· d1 d2 d3 d4 d5 dn 0.33 0 1 0.4 1 ··· 0.33 0.5 0.6 0.3 0.4 ··· 0.33 0.2 0 0.33 0.1 ··· 0.33 0.33 0 0.4 0.1 ··· ··· ··· ··· ··· ··· ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  22. 22. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Componentes da Solu¸˜o ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  23. 23. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Coletor de RSS e Pr´-Processamento e function coletorRSS(Lista de RSS): tabela i ← 0; for cada rssi em RSS do for cada noticiaj em rssi do di ← di + rssi .noticiaj .TITLE; di ← di + rssi .noticiaj .DESCRIPTION; di ← eliminaStopWords(di ); di ← stemming(di ); i ← i + 1; end for end for return criaTabelaExemplos(d,TF-IDF); Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  24. 24. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - RapidMiner e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  25. 25. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Caracter´ ısticas e Funcionalidades do RapidMiner O usu´rio define um processo de tratamento dos dados. a Os operadores podem ser divididos nas seguintes categorias: IO Learner (Supervised / Unsupervised) OLAP (On-line Analytical Processing) Postprocessing Preprocessing Validation Visualization Cada operador pode ser devidamente configurado. Existem ambientes para: defini¸˜o do processo e execu¸˜o do ca ca processo. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  26. 26. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - RapidMiner e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  27. 27. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - C´digo e o § ¤ i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . stemmer . P o r t e r S t e m m e r W r a p p e r ; i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . t o k e n i z e r . S i m p l e T o k e n i z e r ; i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . w o r d f i l t e r . StopWordsWrapper ; ... p u b l i c S t r i n g manipulaTextoComStemming ( S t r i n g nomeArquivo ){ try{ WVTDocumentInfo d o c u m e n t I n f o = new WVTDocumentInfo ( n u l l , ” html ” , n u l l , ” e n g l i s h ” ) ; S i m p l e T o k e n i z e r t o k e n i z e r = new S i m p l e T o k e n i z e r ( ) ; TokenEnumeration t o k e n s = t o k e n i z e r . t o k e n i z e ( new I n p u t S t r e a m R e a d e r ( new F i l e I n p u t S t r e a m ( nomeArquivo ) ) , d o c u m e n t I n f o ) ; P o r t e r S t e m m e r W r a p p e r stemmer = new P o r t e r S t e m m e r W r a p p e r ( ) ; StopWordsWrapper s t o p W o r d s = new StopWordsWrapper ( ) ; T o k e n E n u m e r a t i o n tokenSemStopWord = s t o p W o r d s . f i l t e r ( tokens , documentInfo ) ; S t r i n g r e t o r n o = ”” ; w h i l e ( tokenSemStopWord . hasMoreTokens ( ) ) retorno = retorno + stemmer . g e t B a s e ( tokenSemStopWord . n e x t T o k e n ())+ ” ” ; return retorno ; ... ¦ Fabr´ ıcio J. Barth - Just Java 2008 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  28. 28. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Conjunto de treinamento - Arquivo Arff § ¤ @RELATION R a p i d M i n e r D a t a @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE ... ... ’ network ’ r e a l ’ februari ’ real ’ member ’ r e a l ’ wait ’ r e a l @DATA 0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318225 0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318 ,0 0.0 ,0.0 ,0.0 ,0.0 0.0 ,0.0 ,0.0 ,0.0 0.0 ,0.014857582309589007 ,0.0 ,0.0024848992203904758 ... ... ¦ Fabr´ ıcio J. Barth - Just Java 2008 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  29. 29. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Que algoritmo de agrupamento utilizar? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  30. 30. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmos para Agrupamento - K-means K significa o n´mero de agrupamentos (que deve ser u informado ` priori). a Sequˆncia de a¸˜es iterativas. e co A parada ´ baseada em algum crit´rio de qualidade dos e e agrupamentos (por exemplo, similaridade m´dia). e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  31. 31. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para Agrupamento - K-means 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 6 7 1 8 2 3 4 5 6 7 8 (2) Sorteio dos pontos centrais dos agrupamentos (1) Objetos que devem ser agrupados 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 6 7 8 (3) Atribuição dos objetos aos agrupamentos Fabr´ ıcio J. Barth - Just Java 2008 1 2 3 4 5 6 7 8 (4) Definição do centro do agrupamento Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  32. 32. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Weka Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  33. 33. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Caracter´ ısticas e Funcionalidades do Weka Mais simples que o RapidMiner. Com menos funcionalidades. Os operadores podem ser divididos nas seguintes categorias: Entrada e pr´-processamento. e Classifica¸˜o. ca Agrupamento. Associa¸˜o. ca Visualiza¸˜o. ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  34. 34. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Weka Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  35. 35. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - C´digo o § ¤ p u b l i c AgrupamentoComKMeans ( S t r i n g a r q u i v o ){ try{ I n s t a n c e s i n s t a n c e s = new I n s t a n c e s ( new F i l e R e a d e r ( a r q u i v o ) ) ; /∗ ∗ Para v i s u a l i z a r o s d a d o s do a r q u i v o a r f f ∗/ System . o u t . p r i n t l n ( ” D a t a s e t : ” ) ; System . o u t . p r i n t l n ( i n s t a n c e s ) ; /∗ ∗ U t i l i z a c ˜ o do KMeans ¸a ∗/ SimpleKMeans kmeans = new SimpleKMeans ( ) ; kmeans . b u i l d C l u s t e r e r ( i n s t a n c e s ) ; /∗ ∗ Imprimindo i n f o r m a c˜o s o b r e i n s t ˆ n c i a − agrupamento ¸a a ∗/ f o r ( i n t i =0; ii n s t a n c e s . n u m I n s t a n c e s ( ) ; i ++){ System . o u t . p r i n t l n ( ”A i n s t ˆ n c i a ”+ a i n s t a n c e s . i n s t a n c e ( i ) . t o S t r i n g ()+ ” e s t a h no c l u s t e r ”+ kmeans . c l u s t e r I n s t a n c e ( i n s t a n c e s . i n s t a n c e ( i ) ) ) ; } } c a t c h ( E x c e p t i o n e ){ System . o u t . p r i n t l n ( e ) ; } } ¦ ¥ Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  36. 36. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Resultados § A A A A A A A A A A A A A A ¦ ¤ instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a 0.1 0.1 0.3 0.3 0.3 0.8 0.1 0.1 0.1 0.6 0.6 0.1 0.2 0.1 ,0.1 ,0.2 ,0.4 ,0.1 ,0.1 ,0.7 ,0.1 ,0.1 ,0.1 ,0.5 ,0.5 ,0.1 ,0.8 ,0.1 ,0.1 ,0.3 ,0.5 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.7 ,0.1 ,0.1 ,0.8 ,0.9 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.9 ,0.1 est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a no no no no no no no no no no no no no no Fabr´ ıcio J. Barth - Just Java 2008 cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster 1 1 0 1 1 0 1 1 1 0 0 1 0 1 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  37. 37. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Classifica¸˜o e Filtragem de Not´ ca ıcias Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  38. 38. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Classifica¸˜o e Filtragem de Not´ ca ıcias Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  39. 39. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Conjunto de Exemplos - Atributo/Valor e Classe Doc. apresent form tecnic caracteriz ··· Relevante d1 d2 d3 d4 d5 dn 0.33 0 1 0.4 1 ··· 0.33 0.5 0.6 0.3 0.4 ··· 0.33 0.2 0 0.33 0.1 ··· 0.33 0.33 0 0.4 0.1 ··· ··· ··· ··· ··· ··· ··· 1 0 1 1 1 ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  40. 40. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Qual ´ o problema? e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  41. 41. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Uma solu¸˜o... ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  42. 42. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Processo de trabalho Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  43. 43. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Como construir sistemas de “busca” sob medida? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  44. 44. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Como construir sistemas de “busca” sob medida? Lucene: biblioteca para Recupera¸˜o de Informa¸˜o escrita ca ca em Java e c´digo aberto. Possui: indexador e search engine. o Outras funcionalidades (web crawler e parsing de p´ginas a HTML) s˜o implementados por outras ferramentas baseadas a no Lucene, i.e, Nutch. Mantido pela Apache Software Foundation. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  45. 45. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Utilizando o Lucene, o desenvolvedor pode alterar a search engine para ter um mecanismo de busca apropriado para o dom´ da sua aplica¸˜o. ınio ca Exemplos de altera¸˜es poss´ co ıveis: Expans˜o da consulta usando uma taxonomia da empresa. a Altera¸˜o da fun¸˜o de ordena¸˜o (PageRank, BM25, ca ca ca Booleano). Reordena¸˜o dos resultados utilizando informa¸˜es do perfil do ca co usu´rio. a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  46. 46. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Considera¸˜es co Considera¸˜es co Todas as fases de um sistema ou componente para tratamento de informa¸˜es podem ser implementadas com as co ferramentas vistas nesta apresenta¸˜o: ca Indexa¸˜o. ca Recupera¸˜o. ca Minera¸˜o (determina¸˜o de padr˜es). ca ca o Com o RapidMiner e Weka ´ poss´ e ıvel: Reutilizar diversos algoritmos necess´rios. a Prototipar (criar e validar) uma solu¸˜o rapidamente. ca Integrar a solu¸˜o criada em outras aplica¸˜es. ca co Com o Lucene ´ poss´ e ıvel: Desenvolver um mecanismo de “busca” sob medida. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  47. 47. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Referˆncias e Referˆncias (1/2) e Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), 2005. Weka 3: Data Mining Software in Java (http://www.cs.waikato.ac.nz/ml/weka/index.html). ˜ RapidMiner Community Edition (http://rapid-i.com/). Christopher D. Manning, Prabhakar Raghavan and Hinrich Sch¨tze, Introduction to Information Retrieval, Cambridge u University Press. 2008. (http://www˜ csli.stanford.edu/hinrich/information-retrieval-book.html). Apache Lucene (http://lucene.apache.org/java/docs/). Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  48. 48. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Referˆncias e Referˆncias (2/2) e Extra: Processamento de Linguagem Natural GATE, A General Architecture for Text Engineering (http://gate.ac.uk/). UIMA - Unstructured Information Management Architecture (www.research.ibm.com/UIMA/). Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co

×