SlideShare a Scribd company logo
1 of 19
Weka – Ferramenta Livre para Mineração de Dados
Acadêmico: Rubem Ventura
Agenda
● O que é Weka?
● Introdução
● Vantagens de Weka
● Sistemas Operacionais
● O Livro da Weka
● Alguns Algorítimos
● Formato .ARFF
● Weka Explorer
O que é Weka?
O que é Weka?
Weka é um Software livre do tipo open source
para mineração de dados, desenvolvido em Java,
dentro das especificações da GPL
(General Public License).
Introdução
Desenvolvido por um grupo de pesquisadores da
Universidade de Waikato, Nova Zelândia em 1993.
Sigla WEKA(Waikato Environment for Knowledge
Analysis) criada por Geoff Holmes .
Em 1997, foi tomada a decisão de reconstruir Weka
do zero em Java, incluindo implementações de
algoritmos de modelagem.
Introdução
Em 2005, Weka recebeu o SIGKDD Data Mining e o
prêmio de serviço de descoberta de conhecimento.
Em 2006, Pentaho Corporation adquiriu a licença
exclusiva para usar o Weka para business intelligence.
Forma a mineração de dados e a componente de análise
preditiva da suíte Pentaho de inteligência empresarial.
Versão Atual: 3.7.12
Introdução
Seu ponto forte é a tarefa de classificação, mas também
é capaz de minerar regras de associação e clusters de
dados.
Pode ser utilizada no modo console ou através da
interface gráfica Weka Explorer.
Ao longo dos anos se consolidou como a ferramenta de
data mining mais utilizada em ambiente acadêmico.
Vantagens de Weka
● Software Livre.
● Portabilidade.
● Uma coleção completa de dados de pré-
processamento e técnicas de modelagem.
● Facilidade de utilização com sua interfaces
gráficas de usuário.
Sistemas Operacionais
● Windows x86
● Mac OS X
● Linux
● Link para Download
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
O Livro da Weka
As características da Weka e as
técnicas nela implementadas são
apresentadas no livro “Data Mining:
Practical Machine Learning Tools and
Techniques”.
• Os autores do livro são os
idealizadores da ferramenta.
Alguns Algorítimos
● Aprendizagem de máquina
● Classificação baseados em redes neurais
● Estatística
● Outros
Formato .ARFF
Um arquivo no formato .ARFF é um arquivo de texto puro,
composto de três partes:
● Relação
● Atributos
● Dados
Formato .ARFF
%comentário
@relation pessoa
@attribute sexo {M,F}
@attribute idade real
@attribute doente {sim, não}
@data
M,17,não
F,15,sim
M,25,nao
F,18,nao
M,22,sim
Weka Explorer
Interface gráfica que permite a execução dos algoritmos
de data mining da Weka de forma interativa.
Weka Explorer
Interface
Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Sítio da IBM
– Mineração de dados com WEKA, Parte 1: Introdução e regressão
● http://www.ibm.com/developerworks/br/opensource/library/os-weka1/
– Mineração de dados com o WEKA, Parte 2: Classificação e
armazenamento em cluster
● http://www.ibm.com/developerworks/br/opensource/library/os-weka2/
Considerações finais
Weka é uma ferramenta Flexível
● Diversos Algorítimos
● Permite a descoberta de conhecimento tanto via interface com o usuário
quanto embutida na aplicação do desenvolvedor.
● Pode ser utilizada não somente para Data Mining.
Referências
● Weka 3 - Data Mining with Open Source Machine Learning Software in Java
<http://www.cs.waikato.ac.nz/ml/weka/index.html>
Ian H. Witten; Eibe Frank; Mark A. Hall (2011). "Data Mining: Practical
machine learning tools and techniques, 3rd Edition"
Obrigado =)

More Related Content

What's hot

What's hot (20)

Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Estrutura de Dados e Algoritmos com Java #02-12: Vetores e Arrays
Estrutura de Dados e Algoritmos com Java #02-12: Vetores e ArraysEstrutura de Dados e Algoritmos com Java #02-12: Vetores e Arrays
Estrutura de Dados e Algoritmos com Java #02-12: Vetores e Arrays
 
Aula 4 - Diagrama Entidade Relacionamento (com exercício no final)
Aula 4  - Diagrama Entidade Relacionamento (com exercício no final)Aula 4  - Diagrama Entidade Relacionamento (com exercício no final)
Aula 4 - Diagrama Entidade Relacionamento (com exercício no final)
 
POO - 13 - Arrays em Java
POO - 13 - Arrays em JavaPOO - 13 - Arrays em Java
POO - 13 - Arrays em Java
 
Aula 09 - introducao oo
Aula 09 - introducao ooAula 09 - introducao oo
Aula 09 - introducao oo
 
Aula diagrama de classes
Aula diagrama de classesAula diagrama de classes
Aula diagrama de classes
 
Apresentação da UML
Apresentação da UMLApresentação da UML
Apresentação da UML
 
UML
UMLUML
UML
 
Engenharia de requisitos
Engenharia de requisitosEngenharia de requisitos
Engenharia de requisitos
 
Programação Orientada a Objetos parte 1
Programação Orientada a Objetos parte 1Programação Orientada a Objetos parte 1
Programação Orientada a Objetos parte 1
 
8 02
8 028 02
8 02
 
Haskell
HaskellHaskell
Haskell
 
Programação orientada a objetos
Programação orientada a objetosProgramação orientada a objetos
Programação orientada a objetos
 
POO - 19 - Elementos Estáticos
POO - 19 - Elementos EstáticosPOO - 19 - Elementos Estáticos
POO - 19 - Elementos Estáticos
 
Diagrama de Classes
Diagrama de ClassesDiagrama de Classes
Diagrama de Classes
 
Modelagem de Sistemas de Informação 08 - Diagrama de Classes
Modelagem de Sistemas de Informação 08 - Diagrama de ClassesModelagem de Sistemas de Informação 08 - Diagrama de Classes
Modelagem de Sistemas de Informação 08 - Diagrama de Classes
 
Javascript (parte 1)
Javascript (parte 1)Javascript (parte 1)
Javascript (parte 1)
 
3 - Modelo Entidade Relacionamento
3 - Modelo Entidade Relacionamento3 - Modelo Entidade Relacionamento
3 - Modelo Entidade Relacionamento
 
Padrões de Projeto de Software
Padrões de Projeto de SoftwarePadrões de Projeto de Software
Padrões de Projeto de Software
 
BD I - Aula 08 A - Algebra Relacional
BD I - Aula 08 A - Algebra RelacionalBD I - Aula 08 A - Algebra Relacional
BD I - Aula 08 A - Algebra Relacional
 

Viewers also liked

Ferramentas para Mineração de Dados
Ferramentas para Mineração de DadosFerramentas para Mineração de Dados
Ferramentas para Mineração de Dados
Manoel Amaro
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Caio Moreno
 
Filiação partidária e risco de corrupção de servidores públicos federais
Filiação partidária e risco de corrupção de servidores públicos federaisFiliação partidária e risco de corrupção de servidores públicos federais
Filiação partidária e risco de corrupção de servidores públicos federais
Rommel Carvalho
 
Uso de mineração de dados e textos para cálculo de preços de referência em co...
Uso de mineração de dados e textos para cálculo de preços de referência em co...Uso de mineração de dados e textos para cálculo de preços de referência em co...
Uso de mineração de dados e textos para cálculo de preços de referência em co...
Rommel Carvalho
 
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate SearchTurbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
Paulo César M Jeveaux
 

Viewers also liked (20)

Ferramentas para Mineração de Dados
Ferramentas para Mineração de DadosFerramentas para Mineração de Dados
Ferramentas para Mineração de Dados
 
Boas práticas para aplicativos android
Boas práticas para aplicativos androidBoas práticas para aplicativos android
Boas práticas para aplicativos android
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
 
Weka em aplicações java
Weka em aplicações javaWeka em aplicações java
Weka em aplicações java
 
DevCamp 2014 - Mineração de Dados com Weka API - Everton Gago
DevCamp 2014 - Mineração de Dados com Weka API - Everton GagoDevCamp 2014 - Mineração de Dados com Weka API - Everton Gago
DevCamp 2014 - Mineração de Dados com Weka API - Everton Gago
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Weka básico
Weka básicoWeka básico
Weka básico
 
Filiação partidária e risco de corrupção de servidores públicos federais
Filiação partidária e risco de corrupção de servidores públicos federaisFiliação partidária e risco de corrupção de servidores públicos federais
Filiação partidária e risco de corrupção de servidores públicos federais
 
Uso de mineração de dados e textos para cálculo de preços de referência em co...
Uso de mineração de dados e textos para cálculo de preços de referência em co...Uso de mineração de dados e textos para cálculo de preços de referência em co...
Uso de mineração de dados e textos para cálculo de preços de referência em co...
 
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate SearchTurbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...
 
Pesquisa Operacional - Definição e Origem
Pesquisa Operacional - Definição e OrigemPesquisa Operacional - Definição e Origem
Pesquisa Operacional - Definição e Origem
 
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache LuceneExtração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
 
Text Mining
Text MiningText Mining
Text Mining
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 

Similar to Weka – Ferramenta Livre para Mineração de Dados

Template_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdfTemplate_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdf
Valdir Adorni
 
Projeto Indiana
Projeto IndianaProjeto Indiana
Projeto Indiana
hellequin
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
Campus Party Brasil
 

Similar to Weka – Ferramenta Livre para Mineração de Dados (20)

Weka - IA
Weka - IAWeka - IA
Weka - IA
 
Python x R: mas e o Weka?
Python x R: mas e o Weka? Python x R: mas e o Weka?
Python x R: mas e o Weka?
 
TDC2016SP - Python x R: mas e o Weka?
TDC2016SP - Python x R: mas e o Weka?TDC2016SP - Python x R: mas e o Weka?
TDC2016SP - Python x R: mas e o Weka?
 
Template_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdfTemplate_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdf
 
Cacti
CactiCacti
Cacti
 
Frameworks em Java
Frameworks em JavaFrameworks em Java
Frameworks em Java
 
LabTeX Presentation
LabTeX  PresentationLabTeX  Presentation
LabTeX Presentation
 
Bi ferramentas olap 1
Bi   ferramentas olap 1Bi   ferramentas olap 1
Bi ferramentas olap 1
 
Projeto Indiana
Projeto IndianaProjeto Indiana
Projeto Indiana
 
Ferramentas de monitoramento de redes de computadors
Ferramentas de monitoramento de redes de computadorsFerramentas de monitoramento de redes de computadors
Ferramentas de monitoramento de redes de computadors
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Machine Learning Black Boxes
Machine Learning Black BoxesMachine Learning Black Boxes
Machine Learning Black Boxes
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
 
Desmitificando as aplicações RESTFul usando Django Rest Framework
Desmitificando as aplicações RESTFul usando Django Rest FrameworkDesmitificando as aplicações RESTFul usando Django Rest Framework
Desmitificando as aplicações RESTFul usando Django Rest Framework
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Artigo Bruno Rodrigues Spark Toolkit 0317
Artigo Bruno Rodrigues Spark Toolkit 0317Artigo Bruno Rodrigues Spark Toolkit 0317
Artigo Bruno Rodrigues Spark Toolkit 0317
 
Spark Toolkit
Spark ToolkitSpark Toolkit
Spark Toolkit
 

Weka – Ferramenta Livre para Mineração de Dados

  • 1. Weka – Ferramenta Livre para Mineração de Dados Acadêmico: Rubem Ventura
  • 2. Agenda ● O que é Weka? ● Introdução ● Vantagens de Weka ● Sistemas Operacionais ● O Livro da Weka ● Alguns Algorítimos ● Formato .ARFF ● Weka Explorer
  • 3. O que é Weka?
  • 4. O que é Weka? Weka é um Software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License).
  • 5. Introdução Desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelândia em 1993. Sigla WEKA(Waikato Environment for Knowledge Analysis) criada por Geoff Holmes . Em 1997, foi tomada a decisão de reconstruir Weka do zero em Java, incluindo implementações de algoritmos de modelagem.
  • 6. Introdução Em 2005, Weka recebeu o SIGKDD Data Mining e o prêmio de serviço de descoberta de conhecimento. Em 2006, Pentaho Corporation adquiriu a licença exclusiva para usar o Weka para business intelligence. Forma a mineração de dados e a componente de análise preditiva da suíte Pentaho de inteligência empresarial. Versão Atual: 3.7.12
  • 7. Introdução Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados. Pode ser utilizada no modo console ou através da interface gráfica Weka Explorer. Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico.
  • 8. Vantagens de Weka ● Software Livre. ● Portabilidade. ● Uma coleção completa de dados de pré- processamento e técnicas de modelagem. ● Facilidade de utilização com sua interfaces gráficas de usuário.
  • 9. Sistemas Operacionais ● Windows x86 ● Mac OS X ● Linux ● Link para Download http://www.cs.waikato.ac.nz/ml/weka/downloading.html
  • 10. O Livro da Weka As características da Weka e as técnicas nela implementadas são apresentadas no livro “Data Mining: Practical Machine Learning Tools and Techniques”. • Os autores do livro são os idealizadores da ferramenta.
  • 11. Alguns Algorítimos ● Aprendizagem de máquina ● Classificação baseados em redes neurais ● Estatística ● Outros
  • 12. Formato .ARFF Um arquivo no formato .ARFF é um arquivo de texto puro, composto de três partes: ● Relação ● Atributos ● Dados
  • 13. Formato .ARFF %comentário @relation pessoa @attribute sexo {M,F} @attribute idade real @attribute doente {sim, não} @data M,17,não F,15,sim M,25,nao F,18,nao M,22,sim
  • 14. Weka Explorer Interface gráfica que permite a execução dos algoritmos de data mining da Weka de forma interativa.
  • 16. Onde conseguir mais informações? ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Sítio da IBM – Mineração de dados com WEKA, Parte 1: Introdução e regressão ● http://www.ibm.com/developerworks/br/opensource/library/os-weka1/ – Mineração de dados com o WEKA, Parte 2: Classificação e armazenamento em cluster ● http://www.ibm.com/developerworks/br/opensource/library/os-weka2/
  • 17. Considerações finais Weka é uma ferramenta Flexível ● Diversos Algorítimos ● Permite a descoberta de conhecimento tanto via interface com o usuário quanto embutida na aplicação do desenvolvedor. ● Pode ser utilizada não somente para Data Mining.
  • 18. Referências ● Weka 3 - Data Mining with Open Source Machine Learning Software in Java <http://www.cs.waikato.ac.nz/ml/weka/index.html> Ian H. Witten; Eibe Frank; Mark A. Hall (2011). "Data Mining: Practical machine learning tools and techniques, 3rd Edition"