Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Mineração de	dados	com	
RapidMiner +	WEKA
Clusterização
PROF.	JOÃO GABRIEL	LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIEL...
Prof.	João Gabriel	Lima
• Pesquisador em Mineração de	dados	e	Inteligência Computacional;	
• Engenheiro da	Computação,	esp...
Processo de	Extração do	conhecimento
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Conhecendo nossa base	de	dados
ENTENDER O	DOMÍNIO E	O	CONHECIMENTO QUE	PODEMOS
EXTRAIR
Mineração de	dados	com	RapidMiner +...
Qual a	história dos	seus dados?	
…E	AS	PERGUNTAS QUE	QUEREMOS RESPONDER
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	J...
Base	de	dados	- BMW
Os exemplos giram em torno de	uma concessionária local	da	BMW	e	como ela pode aumentar as	vendas.	
A	c...
Como	podemos extrair esse
conhecimento?
VAMOS	VER	UM	POUCO	SOBRE	QUAIS	MÉTODOS	VAMOS	APLICAR...
Mineração de	dados	com	Rap...
Regressão
◦ Determinar quanto as	pessoas pagaram pelos carros anteriores da	
concessionária,	baseando-se	nos atributos e	c...
Classificação
Qual a	probabilidade de	uma pessoa X	comprar o	mais novo	
modelo BMW	M5?
Criando uma árvore de	classificação...
Clusterização
Comparar a idade dos compradores prévios de
carros e as cores que eles compraram no passado.
A partir desses...
Clusterização
ENCONTRANDO	GRUPOS EM	SEUS	DADOS
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
O	que	é?
o Método que	permite que	um	usuário faça grupos de	dados	para	
determinar padrões a	partir dos	dados.
o Um	benefí...
Visão matemática
§ Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada
valor é dividido pela difere...
Visão matemática
§ Dado o número de clusters desejados, selecione, de
maneira aleatória, esse número de amostras do conjun...
Visão matemática
• Calcule a distância de cada amostra de dados até o centro
do cluster (ou linha de dados selecionada ale...
Visão matemática
• Calcule o	centroide, que	é a	média de	cada coluna de	dados	
usando somente os membros de	cada cluster.
...
Esse é o	
processo de	
clusterização!
Perfeito!	e	aí?
Vamos lá:	Passo-a-Passo
o Carregue o	arquivo de	dados	no	WEKA	usando as	mesmas etapas que	usamos para	carregar
dados	na gu...
Vamos lá:	Passo-a-Passo
oNa	guia Cluster,	clique	em Choose e	selecione SimpleKMeans a	partir das	opções que	
aparecem
Vamos lá:	Passo-a-Passo
o Vamos justar o	campo	numClusters,	que	nos diz quantos clusters	desejamos criar
Vamos lá:	Passo-a-Passo
oSaída da	clusterização:
Interpretando o	modelo de	clusterização
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	0	
Grupo de	"Sonhadores",	eles andam pela	
concessionária,	mas	diminui no	que	diz
respei...
Interpretando o	resultado
Cluster	1
"Amantes do	M5”,	pois tendem a	ir
diretamente em direção aos M5,	ignorando os
carros 3...
Interpretando o	resultado
Cluster	2
Não são estatisticamente relevantes e	não
podemos tirar nenhuma conclusão boa	de	seu
c...
Interpretando o	resultado
Cluster	3
Sempre acabam comprando um	carro e	
sempre acabam financiando-o.	Eles andam
pelo estac...
Interpretando o	resultado
Cluster	4
Sempre olham o	3-series	e	nunca olham para	o	
M5,	que	é muito mais caro.	Entram direta...
Já to	safo!
Agora	é
minha vez!
Atividade
HORA	DE	COLOCAR SEUS CONHECIMENTOS EM PRÁTICA
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Atividade
o Com	uma base	de	dados	om	perfils de	clientes de	um	banco,	faça a	
clusterização dos	clientes analizando,	respe...
Algumas outras fontes de	dados
https://archive.ics.uci.edu/ml/datasets.html
http://snap.stanford.edu/data/index.html
https...
Créditos
https://www.ibm.com/developerworks/br/opensource/library/os-weka2/
https://mineracaodedados.wordpress.com/
http:/...
Mineração de	dados	com	
RapidMiner +	WEKA
Clusterização
PROF.	JOÃO GABRIEL	LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIEL...
Upcoming SlideShare
Loading in …5
×

Mineração de dados com RapidMiner + WEKA - Clusterização

665 views

Published on

Nesta apresentação, apresento um passo a passo prático de como clusterizar e mais importante que isso, como interpretar os resultados aplicando isso para auxiliar a tomada de decisão.
No final temos um exercício de fixação muito interessante que nos dá a oportunidade de aplicar os conhecimentos adquiridos.
jgabriel.ufpa@gmail.com

Published in: Technology
  • Be the first to comment

Mineração de dados com RapidMiner + WEKA - Clusterização

  1. 1. Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  2. 2. Prof. João Gabriel Lima • Pesquisador em Mineração de dados e Inteligência Computacional; • Engenheiro da Computação, especialista em Software e Hardware; • Doutorando em Computação Aplicada; Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  3. 3. Processo de Extração do conhecimento Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  4. 4. Conhecendo nossa base de dados ENTENDER O DOMÍNIO E O CONHECIMENTO QUE PODEMOS EXTRAIR Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  5. 5. Qual a história dos seus dados? …E AS PERGUNTAS QUE QUEREMOS RESPONDER Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  6. 6. Base de dados - BMW Os exemplos giram em torno de uma concessionária local da BMW e como ela pode aumentar as vendas. A concessionária armazenou todas suas informações de vendas passadas e informações a respeito de cada pessoa que: comprou uma BMW olhou uma BMW procurou algo no salão de exposição da BMW. A concessionária quer aumentar suas vendas futuras e empregar mineração de dados para conseguir isso. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  7. 7. Como podemos extrair esse conhecimento? VAMOS VER UM POUCO SOBRE QUAIS MÉTODOS VAMOS APLICAR... Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  8. 8. Regressão ◦ Determinar quanto as pessoas pagaram pelos carros anteriores da concessionária, baseando-se nos atributos e características de vendas dos carros vendidos. O modelo permitiria que a concessionária da BMW inserisse os novos atributos do carro para determinar o preço. "Quanto deveríamos cobrar pela nova BMW M5?” Um modelo de regressão usaria dados de vendas passadas sobre BMWs e M5s Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  9. 9. Classificação Qual a probabilidade de uma pessoa X comprar o mais novo modelo BMW M5? Criando uma árvore de classificação, os dados podem ser minerados para determinar a probabilidade de essa pessoa comprar um novo M5. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  10. 10. Clusterização Comparar a idade dos compradores prévios de carros e as cores que eles compraram no passado. A partir desses dados, é possível encontrar se certas faixas estão mais propensas a comprar um certo tipo de cor da BMW M5. Que faixa etária gosta da BMW M5 da cor prata? Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  11. 11. Clusterização ENCONTRANDO GRUPOS EM SEUS DADOS Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  12. 12. O que é? o Método que permite que um usuário faça grupos de dados para determinar padrões a partir dos dados. o Um benefício decisivo do armazenamento em cluster sobre a classificação é que cada atributo no conjunto de dados será usado para analisar os dados. o Uma grave desvantagem de usar o armazenamento em cluster é que o usuário necessita saber de antemão quantos grupos ele gostaria de criar Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  13. 13. Visão matemática § Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada valor é dividido pela diferença entre o valor alto e o valor baixo no conjunto de dados para esse atributo. § Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais baixo for 16, então, a idade 32 deve ser normalizada para 0,5714. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  14. 14. Visão matemática § Dado o número de clusters desejados, selecione, de maneira aleatória, esse número de amostras do conjunto de dados para servir como nossos centros iniciais de teste de clusters. § Por exemplo, caso deseje ter três clusters, você selecionaria, de maneira aleatória, três linhas de dados do conjunto de dados. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  15. 15. Visão matemática • Calcule a distância de cada amostra de dados até o centro do cluster (ou linha de dados selecionada aleatoriamente), usando o método de cálculo de distância dos mínimos quadrados. • Atribua cada linha de dados a um cluster, baseando-se na distância mínima até cada centro do cluster. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  16. 16. Visão matemática • Calcule o centroide, que é a média de cada coluna de dados usando somente os membros de cada cluster. • Calcule a distância de cada amostra de dados até os centroides recém-criados. •Se os clusters e membros de cluster não mudarem, você terminou e os clusters estão criados. •Caso eles mudem, é necessário começar novamente voltando à etapa 3 e continuando novamente até que os clusters não sejam modificados. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  17. 17. Esse é o processo de clusterização!
  18. 18. Perfeito! e aí?
  19. 19. Vamos lá: Passo-a-Passo o Carregue o arquivo de dados no WEKA usando as mesmas etapas que usamos para carregar dados na guia Preprocess
  20. 20. Vamos lá: Passo-a-Passo oNa guia Cluster, clique em Choose e selecione SimpleKMeans a partir das opções que aparecem
  21. 21. Vamos lá: Passo-a-Passo o Vamos justar o campo numClusters, que nos diz quantos clusters desejamos criar
  22. 22. Vamos lá: Passo-a-Passo oSaída da clusterização:
  23. 23. Interpretando o modelo de clusterização Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  24. 24. Interpretando o resultado Cluster 0 Grupo de "Sonhadores", eles andam pela concessionária, mas diminui no que diz respeito a entrar na concessionária e, o pior de tudo, eles não compram nada. Atributos Cluster 0 Dealership 0.9615 Showroom 0.6923 ComputerSearch 0.6538 M5 0.4615 3Series 0.3846 Z4 0.5385 Financing 0.4615 Purchase 0 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  25. 25. Interpretando o resultado Cluster 1 "Amantes do M5”, pois tendem a ir diretamente em direção aos M5, ignorando os carros 3-series e o Z4. Não possuem uma alta taxa de compra. Poderia ser um foco de melhoria para a concessionária, talvez enviando mais vendedores para a seção do M5 Atributos Cluster 1 Dealership 0.6667 Showroom 0.6667 ComputerSearch 0 M5 0.963 3Series 0.4444 Z4 0 Financing 0.6296 Purchase 0.5185 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  26. 26. Interpretando o resultado Cluster 2 Não são estatisticamente relevantes e não podemos tirar nenhuma conclusão boa de seu comportamento Atributos Cluster 2 Dealership 1 Showroom 0 ComputerSearch 1 M5 1 3Series 0.8 Z4 0.8 Financing 0.8 Purchase 0.4 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  27. 27. Interpretando o resultado Cluster 3 Sempre acabam comprando um carro e sempre acabam financiando-o. Eles andam pelo estacionamento olhando para os carros, então usam a pesquisa do computador disponível na concessionária. Tendem a comprar M5s ou Z4s (mas nunca 3-series) Atributos Cluster 3 Dealership 0.8571 Showroom 0.5714 ComputerSearch 0.8571 M5 0.7143 3Series 0.0714 Z4 0.5714 Financing 1 Purchase 1 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  28. 28. Interpretando o resultado Cluster 4 Sempre olham o 3-series e nunca olham para o M5, que é muito mais caro. Entram diretamente no salão de exibição, 50 por cento chegam ao estágio de financiamento, somente 32 por cento acabam finalizando a transação. Atributos Cluster 4 Dealership 0 Showroom 1 ComputerSearch 0.3214 M5 0 3Series 1 Z4 0.6786 Financing 0.5 Purchase 0.3214 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  29. 29. Já to safo! Agora é minha vez!
  30. 30. Atividade HORA DE COLOCAR SEUS CONHECIMENTOS EM PRÁTICA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  31. 31. Atividade o Com uma base de dados om perfils de clientes de um banco, faça a clusterização dos clientes analizando, respectivamente, o risco de conceder créditos. o O resultado deve ser um relatório que mostre o processo de clusterização realizado e principalmente INTERPRETE e EXPLIQUE os resultados, mostrando como esse resultado pode vir a auxiliar a tomada de decisão. oBase de dados: https://goo.gl/1ooaYP Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  32. 32. Algumas outras fontes de dados https://archive.ics.uci.edu/ml/datasets.html http://snap.stanford.edu/data/index.html https://www.kaggle.com/datasets Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  33. 33. Créditos https://www.ibm.com/developerworks/br/opensource/library/os-weka2/ https://mineracaodedados.wordpress.com/ http://hunch.net/?p=3692542 http://en.wikipedia.org/wiki/Regression_analysis http://weka.wikispaces.com/ARFF+%28book+version%29 http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5 https://pt.wikipedia.org/wiki/R%C2%B2 https://pt.wikipedia.org/wiki/Qui-quadrado Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  34. 34. Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima

×