Ferramentas para Mineração de Dados

857 views
785 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
857
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
36
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ferramentas para Mineração de Dados

  1. 1. Ferramentas para Mineração de Dados Manoel de Albuquerque Lira Amaroquinta-feira, 6 de dezembro de 12
  2. 2. Agenda • Introdução • Mahout • Weka • Introdução ao Mahout • Interface Gráfica • Conclusão/Referências • Arquivos ARFF • Ferramentas para ARFF • Exemplosquinta-feira, 6 de dezembro de 12
  3. 3. Introdução • Softwares: • Weka • Mahout • OpenSource • Utilizados pela academiaquinta-feira, 6 de dezembro de 12
  4. 4. Weka • Software de aprendizagem de máquina • Pré-processamento • Mineração de Dados • Escrito em JAVAquinta-feira, 6 de dezembro de 12
  5. 5. Weka • Algoritmos de: • Classificação • Clusterização • Regras de Associação • Permite • Seleção de Atributos • Visualização de Dadosquinta-feira, 6 de dezembro de 12
  6. 6. Interfacequinta-feira, 6 de dezembro de 12
  7. 7. Interface • Simple CLI • Command Line Interface • Simples e útil • Para sistemas sem interface gráfica • java weka.associations.Appriori -t veiculos.arffquinta-feira, 6 de dezembro de 12
  8. 8. Explorerquinta-feira, 6 de dezembro de 12
  9. 9. Entrada de dados Arquivo ARFF Por uma URL Banco de Dados JDBCquinta-feira, 6 de dezembro de 12
  10. 10. Arquivo ARFF • Arquivo de texto com todos os dados, precedido de um cabeçalho • Semelhante ao CSV • O cabeçalho define a estrutura dos dados • Nome, domínio, tipo, etc.quinta-feira, 6 de dezembro de 12
  11. 11. Arquivo ARFF • Cabeçalho • Dadosquinta-feira, 6 de dezembro de 12
  12. 12. Arquivo ARFF • @relation • nome do arquivo • @attribute [nome] [tipo|{valores}] • Declaração de atributos • Colunas de uma tabelaquinta-feira, 6 de dezembro de 12
  13. 13. Arquivo ARFF • @data • Segue a sequência definida pelos atributos • Linhas de uma tabelaquinta-feira, 6 de dezembro de 12
  14. 14. Ferramentas para ARFF • Formato pouco utilizado • Ferramentas para conversão • CSV > ARFF (online) • http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.phpquinta-feira, 6 de dezembro de 12
  15. 15. Ferramentas para ARFF • Programa em JAVA para conversão • API do Weka • Fácil adaptação para outras fontes de dadosquinta-feira, 6 de dezembro de 12
  16. 16. Exemplo 1 • ARFF • Venda de veículos • Atributos • idade, renda, carroquinta-feira, 6 de dezembro de 12
  17. 17. Exemplo 1 • Classificação • Base de dados precisa conter: • Um ou mais atributos preditivos; • Idade e Renda • Um atributo especial, denominado atributo classe (ou atributo alvo). • Carroquinta-feira, 6 de dezembro de 12
  18. 18. Exemplo 1quinta-feira, 6 de dezembro de 12
  19. 19. Exemplo 1quinta-feira, 6 de dezembro de 12
  20. 20. Exemplo 1quinta-feira, 6 de dezembro de 12
  21. 21. Exemplo 1- Resultadosquinta-feira, 6 de dezembro de 12
  22. 22. Exemplo 2 • Dataset de vendas do supermercado • Carrinho de compras • Departamentos do supermercadoquinta-feira, 6 de dezembro de 12
  23. 23. Exemplo 2 • Uso de um algoritmo de associação • Descobrir relações entre os departamentos, a partir do histórico de compras dos clientes.quinta-feira, 6 de dezembro de 12
  24. 24. Exemplo 2quinta-feira, 6 de dezembro de 12
  25. 25. Weka • Software bem didático • Alguns papers utilizaram para mineração de dados reais • Permite integração a aplicações JAVA via API (não tão simples assim) • Independente de plataforma • Atualizações frequentesquinta-feira, 6 de dezembro de 12
  26. 26. Apache Mahout • Biblioteca para Aprendizagem de Máquina • Licença OpenSource • Escalável • Paradigma Map/Reduce • Plataforma Hadoopquinta-feira, 6 de dezembro de 12
  27. 27. Hadoopquinta-feira, 6 de dezembro de 12
  28. 28. Referências • http://www.cs.waikato.ac.nz/ml/weka/ • http://www.metaemotion.com/ diego.garcia.morate/download/weka.pdf • http://mahout.apache.org/ • http://hadoop.apache.org/quinta-feira, 6 de dezembro de 12

×