Palestra garimpando com pentaho data mining latinoware

12ª Conferencia Latino-americana de Software Livre
Garimpando com Pentaho Data Mining
Palestrante:
Marcos Vinicius Fidelis

Palestrante
● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná
(UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área
Acadêmica da Universidade Estadual de Ponta Grossa (UEPG).
● É graduado em Processamento de Dados e Especialista em Análise e
Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em
Desenvolvimento de Sistemas Computacionais pela PUC-PR.
● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre
outros projetos, liderou a implantação dos Frameworks Grails e JasperReports.
● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco
de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão,
Mineração de Dados e Gerenciamento de Sistemas de Informação.
● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org.
● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e
PentahoDay.

Introdução
● Em um PDV ou em um sítio de vendas, uma grande quantidade de
dados está sendo coletada e armazenada a cada minuto:
– Web data, e-commerce
– Dados de faturamento
– Transações de cartões de crédito ou bancários
– Reservas de produtos
– Computadores tem se tornado baratos e mais poderosos
● Estas pequenas entradas de dados podem ser muito importantes
– (investigação de crimes, retorno de produtos, etc)
● A pressão competitiva no mundo dos negócios é muito grande
– Fornecer serviços melhores e customizados para uma clientela (ex: CRM)

Source : www.go-gulf.com
Date post : May 26, 2015

Questões atuais
“Somente persistir os dados já não é mais
suficiente para encontrar oportunidades de
negócio. Atualmente, é cada vez mais necessário
que se tire um proveito maior dos dados.”
“Estamos nos afogando em dados, mas sedentos
por informação!”
“Torture os dados até confessarem!”

●
Tendências que nos levam a um cenário de alta disponibilidade
dados
– Instituições financeiras, telecomunicações, transações em empresas.
– Dados científicos: astronomia, biologia, etc.
– Dados na Web, Dados em textos, comércio eletrônico, …
– IoT
●
Capacidades de coletar/armazenar superaram nossas habilidades
de analisar/extrair conhecimento dos dados:
– É necessária a aplicação de técnicas/ferramentas que transformem, de maneira
inteligente e automática, os dados disponíveis em informações úteis, que
representem conhecimento.
Questões atuais

Padrões são a parte chave da
Inteligência
● Evolução: os animais mais
capazes de encontrar e usar
padrões são aqueles com
maiores chances de sobreviver.
● Pessoas tem uma habilidade e
o desejo de encontrar padrões
● As empresas não oferecem
mais espaço para pessoas
intuitivas.
● A ciência ajuda a separar
padrões válidos de inválidos.

Estudo de Caso: e-commerce
mau sucedido (KDD Cup 2000)
● Claro que a aplicação de mineração de dados não é garantia de sucesso e
durante a bolha da internet de 1999-2000, temos visto muitos exemplos.
● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de
compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ )
● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $
12 em uma compra média no sítio
● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes
● Uma análise muito interessante e esclarecedora foi feito por dezenas de
participantes da Copa. O gasto de tempo total foi de milhares de horas, o que
teria sido equivalente a milhões de dólares em honorários de consultoria.
● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares
de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los.
Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.

Estudo de Caso: e-commerce
bem sucedido
● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para
música, eletrônicos e outros produtos.
● Amazon.com tem um grupo de mineração de dados ativo, que se foca na
personalização. Por que personalização? Considere uma pessoa que compra um
livro (produto) na Amazon.com.
● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é
susceptível de comprar.
● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado
em livros comprados.
● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento
e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy ,
também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e
técnicas práticas com implementações de Java" , por Witten e Eibe .
● Programas de Recomendação são muito bem sucedido e programas mais
avançados estão sendo desenvolvidos.

História
● 1900 - Estatística
● 1960s - Data Mining = bad activity, data “dredging”
● 1990 - “Data Mining” é bom (Fayyad, 1996)
● 2003 - “Data Mining” peaks
● 2006 - Google Analytics
● 2007 - Business/Data/Predictive Analytics
● 2012 - Big Data
● 2013 - Data Science
● 2015 - ??

O que é Data Mining
● Extração de informações interessantes (não
triviais, implícitas, previamente desconhecidas
e potencialmente úteis) ou padrões de dados
em grandes bancos de dados.
● Nomes alternativos
– Knowledge Discorery in Databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business inteligence, etc.

Entendendo melhor...
● O que não é DM
– Pesquisar um número
de telefone em uma
lista
– Consultar um serviço
de busca web por
informações sobre
“amazon”
● O que é DM
– Certos nomes são mais
frequentes em certas
áreas
– Agrupar documentos
similares retornados
através de um serviço
de busca de acordo com
seu contexto (amazon
florest, amazon.com)

Como funciona o Data Mining (DM)?
Como funciona o Knowledge Database
Discovery(KDD)?
Descoberta de Conhecimento em Banco de Dados

Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em
dados novos e possuir o mesmo grau de confiança. Estes
padrões são considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento
de um problema ou um procedimento de tomada de decisão

Necessidade é a a mãe das invenções
● Problema de Explosão de Dados
– Ferramentas de coleta de dados automatizadas e
avançadas tecnologias de banco de dados levaram a
quantidades imensas de dados armazenados em bancos
de dados, DW e outros repositórios de informações.
● Solução = Data Mining
– Extração de conhecimento interessante de grandes
banco de dados
– Regras, regularidades, padrões, restrições.

Outras definições para DM
É um processo de análise de
dados a partir de várias
perspectivas com o objetivos
de sumarizá-los através de
informações úteis.
É um processo para
descobrir inteligência em
armazéns de dados, que
está escondida em
relatórios e consultas.
A inteligência é obtida a partir de padrões e
relacionamentos encontrados nos dados:
● Fatores internos: preços, localização do
negócio, competências pessoais
● Fatores externos: indicadores
econômicos, concorrência, dados
demográficos
Mineração de dados é o processo de
explorar grandes quantidades de dados à
procura de padrões consistentes, como
regras de associação ou sequências
temporais, para detectar relacionamentos
sistemáticos entre variáveis, detectando
assim novos subconjuntos de dados.

O que é Pentaho
● Pentaho é uma suíte de aplicativos de código aberto
para inteligência empresarial (BI – Businnes Intelligence
ou BA – Businnes Analytics como estão chamando
atualmente), desenvolvido em Java.
● A solução cobre as àreas de ETL (Extraction,
Transformation and Load), reporting, OLAP e
mineração de dados (data-mining).
● Desenvolvido desde 2004 pela Pentaho Corporation o
software foi considerado uma das melhores aplicações
para inteligência empresarial em 2008 pela InfoWorld.

Componentes do Pentaho
● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para
extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar
diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente.
● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta
de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o
BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados,
independentemente do seu tamanho.
● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad-
hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV.
●
Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a
mineração de dados.
● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de
indicadores de performance.
● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para
aprimorar a performance de suas consultas OLAP (Mondrian)
● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do
Mondrian.
● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios.
● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais
relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e
assim estender as capacidades da ferramenta.

Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais eficaz você
pode ser
● Buscando padrões úteis em dados de vendas, políticas
públicas, medicina, seguros, esportes e etc.
● Analisar os dados de sensores, IoT.

Problemas adequados para DM
●
Requerem decisões baseadas em conhecimento;
●
Ambiente dinâmico (dados novos);
●
Existem métodos sub-ótimos;
●
Há dados acessíveis, relevantes e em quantidade
suficiente;
●
Proporcionam recompensas elevadas pelas decisões
corretas;
●
Privacidade é um assunto importante.

Principais técnicas de
Mineração de Dados
● Métodos Preditivos
– Classificação
– Regressão
– Detecção de desvios
● Métodos Descritivos
– Agrupamento
– Associação
– Descoberta de
Padrões Sequenciais

Pentaho Data Mining (PDM)
● Explorer: testar
classificadores/filtros
● Experimenter:
Comparação de
desempenho
● KnowledgeFlow:
Interface gráfica
● SimpleCli: Interface de
linha de comando

História
● 1992 – submissão do projeto ao governo de NZ
(Ian Witten)
● 1993 – aprovado pelo governo
● 1994 – Primeira versão (principalmente em C)
● 1996 – Primeira versão pública – WEKA 2.1
● 1997 – Convertido para Java
● 1998 – WEKA 3 (completamente Java)
● 2006 – O projeto foi incorporado ao Pentaho

O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como Artificial
Immune Systems, Ant Colony e Genetic Algorithms

Onde buscar dados para mineração de dados?

Exemplo de Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
●
@relation <relation-name>
● @attribute <attribute-name> <datatype>
– numeric
– <nominal-specification>
– string
– date [<date-format>]
– Ex: @ATTRIBUTE timestamp DATE "yyyy-
MM-dd HH:mm:ss"
● Sparse ARFF files
– @data
– 0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
– @data
– {1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}

Como trabalhar com a alta
dimensionalidade dos dados?
● Seleção de Atributos
– Realizada no pré-processamento dos dados
– Usada para investigar quais atributos (subconjuntos
deles) são mais preditivos
– 2 etapas:
● Um método de busca
● Um método de avaliação
– Flexibilidade: (quase) qualquer combinação de
busca/avaliação

Limitações
● Algoritmos tradicionais precisam ter todos os
dados na memória
● Solução
– Incremental schemes
– Stream algorithms
– MOA (Massive Online Analysis)
● http://moa.cs.waikato.ac.nz/

ETL utilizando PDI – dados para o
PDM

Agrupamento (Clustering)
Encontrar grupos naturais de exemplos
(dados não rotulados)

Classificação
Ponto de classe desconhecida
que se deseja prever
Dado um conjunto de pontos das classes conhecidas: (V)erde e
(A)zul. Qual é a classe para o novo ponto (D)esconhecido?
Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo
(Classificador) para classificar novos casos.
Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural,
etc.

Construindo um modelo
(classificador)
Dataset de exemplos classificados para
construir um modelo que classifica novos
exemplos

Classificador ZeroR
O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para
Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.

Classificador OneR
● É uma árvore de
decisão de um nível,
ou seja, regras que
utilizam um atributo
particular (1993)

Classificador Bayes
● Oposto do OneR: utiliza todos os atributos e
regras Bayes para estimar a probabilidade de
uma classe para uma instância
● Naive Bayes tem um desempenho muito bom
● Pode ser prejudicado por muitos atributos
redundantes

Classificador J48 (C4.5)
Árvore de Decisão

Classificadores: Árvores de
decisão
if X > 5 then blue
else if Y > 3 then
blue
else if X > 2 then
green
else blue

Classificadores: Redes
Neurais
Podem selecionar regiões mais complexas
Podem ser mais precisas
Podem se ajustar aos dados - encontrar padrões em dados com ruído

Outras abordagens para
classificadores
● Rules
● Genetic Algorithms
● Ensemble
● E muitos outros

Como avaliar classificadores?
● Acurácia
● Custo/benefício total – quando diferentes erros
envolvem diferentes custos
● Curvas de Lift e ROC
● Erro em predições numéricas
A questão é estimar quanto confiável são os
resultados previstos?

Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado

Mudando o jeito de gerenciar o
negócio
● Uma fase do negócio é o BI
utilizando ETL e ferramentas
analíticas para suporte a
decisão.
●
Outra fase é utilizar o BI antes
de acontecer os problemas,
prever problemas, e/ou utilizar
os sistemas de apoio a decisão
baseados em aprendizagem de
máquina junto aos sistemas
transacionais.
Linha 1 Linha 2 Linha 3 Linha 4
0
2
4
6
8
10
12
Coluna 1
Coluna 2
Coluna 3

Big Data
● 2a Revolução Industrial
● Executar velhas atividades melhor
● Criar novos negócios e atividades

Executar melhor velhas atividades
● Áreas de aplicação
– marketing direto / modelagem Cliente
– previsão
– recomendações
– Detecção de fraude
– Segurança / Inteligência
● Melhorias são reais, mas são limitadas pela
aleatoriedade humana
● Concorrência irá nivelar empresas

Aspectos negativos
● Como toda a tecnologia, cabe ao usuário, utilizá-la
de uma forma positiva ou negativa
● DM pode ser usado negativamente nas áreas:
– Social
– Ética
– Legal
● Problema principal: privacidade
– Informações estão sendo armazenadas sem o
consentimento do consumidor

● Analytics on-demand, analytics in the cloud.
● BI (Business Intelligence), Database and
OLAP software
● Bioinformatics and Pharmaceutical solutions
● CRM (Customer Relationship Management)
● Data Providers, Data Cleansing (Cleaning)
Tools
● eCommerce solutions
● Education, using predictive analytics and
data mining to improve learning.
● Email analysis, response, and marketing
● Fraud Detection solutions
● Healthcare Analytics solutions
● Human Resources and Staff Analytics
solutions
● Knowledge Management and News
● Marketing solutions, including real-time,
email, web, and affiliate marketing
Em que área trabalhar?
● Music Discovery and Music Data Mining.
● Personalization solutions
● Privacy software and solutions
● Real-Time Analytics and Decisioning solutions
● Retail solutions
● Risk Analysis and Credit Scoring
● Security and Intelligence solutions.
● Sports and Entertainment
● Stock and Investment Analysis and Prediction
● Survey creation and analysis
● Telecom
● Travel sites and solutions
● Twitter Analytics sites and solutions.
● Web Advertising
● Web Mining, Web Content Mining

Como aprender Data Mining
● Linguagens: Aprenda R, Python e SQL
● Ferramentas: aprenda como usar ferramentas de visualização e de
mineração de dados
● Literatura: leia textos introdutórios para compreender os
fundamentos
● Educação: assista webminars, faça cursos, e considere uma
certificação ou graduação em ciência de dados
● Dados: verifique recursos de dados disponíveis e encontre algo lá
● Competições: participe de competições de mineração de dados
● Interaja com outros cientistas de dados, através de redes sociais,
grupos e conferências

Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third
Edition (The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd

Você não está sozinho!
Esta é a comunidade Pentaho no Brasil.
http://www.pentahobrasil.com.br
https://www.facebook.com/pentahobrasil

Dúvidas?
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
mvfidelis@gmail.com

Tópico
Texto do tópico ou assunto

Palestra garimpando com pentaho data mining latinoware

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Palestra garimpando com pentaho data mining latinoware

Similar to Palestra garimpando com pentaho data mining latinoware (20)

Palestra garimpando com pentaho data mining latinoware