4. Sobre
o
WEKA
Ê Projeto acadêmico de 1990;
Ê Coleção de Algoritmos de Aprendizado de Máquina;
Ê Aplicação a Mineração de Dados;
Ê Standalone ou API;
Ê WEKA – Waikato Environment for Knowledge Analysis;
Ê Grupo de Aprendizado de Máquina da Universidade de
Waikato, Nova Zelândia;
Ê Associate Professor Eibe Frank, Dr. Mark Hall, Professor
Ian Witten.
38. Biblioteca
Ê Classpath = weka.jar
Ê Código-fonte = weka-src.jar
Ê Javadoc = <caminho da versão do weka>/doc
39. Manipulação de Dados
Ê Criação de conjunto de dados na memória;
Ê Formatar a base e adicionar valores:
Ê weka.core.Instances;
Ê weka.core.Attribute.
40. Formatando
o
dataset
procedimento para
atributos nominais
procedimento para
atributos numéricos
procedimento para
adicionar os atributos
Nome da relação Reserva de memória
41. Adicionando valores
Ê Adição de linha por linha:
Ê weka.core.Instance;
Atributos
numéricos
Peso padrão de uma instância
42. Principais
Métodos
Ê Instances:
Ê toSummaryString();
Ê numInstances();
Ê numAttributes();
Ê numClasses();
Ê meanOrMode(Attribute att) | meanOrMode(int attIndex);
Ê attributeToDoubleArray(int index);
Ê instance(int index);
Ê attribute(int index);
Ê delete(int index);
Ê sort(Attribute att);
Ê swap(int i, int j);
Ê testCV(int numFolds, int numFold);
Ê trainCV(int numFolds, int numFold).
48. Exercitando…
Ê Criar uma base com 4 atributos e 150 instancias:
Ê Att 1 – Numérico – de 10~37;
Ê Att2 – Nominal – V ou F;
Ê Att3 – Numérico – de 20 ~ 200;
Ê Att4 – Nominal – Bom, Médio, Ruim (Classe);
Ê Imprimir sumário da base.
Ê Persistir base em Files/minhaPrimeiraBase.arff
49. Exercitando…
Ê Ler base hepatitis.arff;
Ê Imprimir relatório da base;
Ê Mostrar quantidade de cada valor nominal do atributo
SEX, HISTOLOGY e ANOREXIA;
51. Classificadores
Ê Tarefa de Classificação;
Ê weka.classifiers;
Ê Batch-trainable – a base inteira é treinada de uma vez;
Ê Incrementais – atualizam o modelo interno on-the-go;
53. Classificadores - Incremental
Ê Implementam a interface UpdateableClassifier;
Ê Inicializar o modelo;
Ê Atualizar linha à linha – updateClassifier(Instance);
weka.core.converters
Lê
a
estrutura
e
cria
instâncias
vazias
54. Avaliação
Ê Qualidade da performance do modelo do classificador
gerado a partir dos dados;
Ê Coss-validation – Utiliza uma base e gera avaliações
realísticas;
Ê Teste dedicado.
63. Visualização
–
Curva
ROC
Ê Curvas de Características de Operação do Receptor
( do inglês Receiver Operating Characteristic);
Ê Avaliação de modelos de classificação;
Ê Taxa de verdadeiros positivos e taxa de falsos positivos;
Ê weka.gui.visualize;
Ê Base usada: colic.arff.
64. Exemplo
–
Curva
ROC
ROC para determinado
label de classe
Container para o ROC
Painel para o container
JFrame
70. Referências
Ê Witten, I.H. and Frank, E. (2005) Data Mining: Practical
machine learn- ing tools and techniques. 2nd edition Morgan
Kaufmann, San Francisco.
Ê WekaWiki – http://weka.wikispaces.com/
Ê Weka Examples – A collection of example classes, as part of
an ANT project, included in the WEKA snapshots (available
for download on the homepage) or directly from subversion
https://svn.scms.waikato.ac.nz/svn/weka/branches/stable-3-6/
wekaexamples/
Ê Bouckaert et al. (2013) Weka Manual for Version 3-6-9. The
University of Waikato, Hamilton, Nova Zelândia.