SlideShare a Scribd company logo
1 of 64
Download to read offline
12ª Conferencia Latino-americana de Software Livre
Garimpando com Pentaho Data Mining
Palestrante:
Marcos Vinicius Fidelis
12ª Conferencia Latino-americana de Software Livre
Palestrante
● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná
(UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área
Acadêmica da Universidade Estadual de Ponta Grossa (UEPG).
● É graduado em Processamento de Dados e Especialista em Análise e
Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em
Desenvolvimento de Sistemas Computacionais pela PUC-PR.
● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre
outros projetos, liderou a implantação dos Frameworks Grails e JasperReports.
● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco
de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão,
Mineração de Dados e Gerenciamento de Sistemas de Informação.
● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org.
● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e
PentahoDay.
Introdução
● Em um PDV ou em um sítio de vendas, uma grande quantidade de
dados está sendo coletada e armazenada a cada minuto:
– Web data, e-commerce
– Dados de faturamento
– Transações de cartões de crédito ou bancários
– Reservas de produtos
– Computadores tem se tornado baratos e mais poderosos
● Estas pequenas entradas de dados podem ser muito importantes
– (investigação de crimes, retorno de produtos, etc)
● A pressão competitiva no mundo dos negócios é muito grande
– Fornecer serviços melhores e customizados para uma clientela (ex: CRM)
Source : www.go-gulf.com
Date post : May 26, 2015
Questões atuais
“Somente persistir os dados já não é mais
suficiente para encontrar oportunidades de
negócio. Atualmente, é cada vez mais necessário
que se tire um proveito maior dos dados.”
“Estamos nos afogando em dados, mas sedentos
por informação!”
“Torture os dados até confessarem!”
●
Tendências que nos levam a um cenário de alta disponibilidade
dados
– Instituições financeiras, telecomunicações, transações em empresas.
– Dados científicos: astronomia, biologia, etc.
– Dados na Web, Dados em textos, comércio eletrônico, …
– IoT
●
Capacidades de coletar/armazenar superaram nossas habilidades
de analisar/extrair conhecimento dos dados:
– É necessária a aplicação de técnicas/ferramentas que transformem, de maneira
inteligente e automática, os dados disponíveis em informações úteis, que
representem conhecimento.
Questões atuais
Padrões são a parte chave da
Inteligência
● Evolução: os animais mais
capazes de encontrar e usar
padrões são aqueles com
maiores chances de sobreviver.
● Pessoas tem uma habilidade e
o desejo de encontrar padrões
● As empresas não oferecem
mais espaço para pessoas
intuitivas.
● A ciência ajuda a separar
padrões válidos de inválidos.
Estudo de Caso: e-commerce
mau sucedido (KDD Cup 2000)
● Claro que a aplicação de mineração de dados não é garantia de sucesso e
durante a bolha da internet de 1999-2000, temos visto muitos exemplos.
● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de
compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ )
● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $
12 em uma compra média no sítio
● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes
● Uma análise muito interessante e esclarecedora foi feito por dezenas de
participantes da Copa. O gasto de tempo total foi de milhares de horas, o que
teria sido equivalente a milhões de dólares em honorários de consultoria.
● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares
de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los.
Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.
Estudo de Caso: e-commerce
bem sucedido
● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para
música, eletrônicos e outros produtos.
● Amazon.com tem um grupo de mineração de dados ativo, que se foca na
personalização. Por que personalização? Considere uma pessoa que compra um
livro (produto) na Amazon.com.
● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é
susceptível de comprar.
● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado
em livros comprados.
● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento
e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy ,
também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e
técnicas práticas com implementações de Java" , por Witten e Eibe .
● Programas de Recomendação são muito bem sucedido e programas mais
avançados estão sendo desenvolvidos.
História
● 1900 - Estatística
● 1960s - Data Mining = bad activity, data “dredging”
● 1990 - “Data Mining” é bom (Fayyad, 1996)
● 2003 - “Data Mining” peaks
● 2006 - Google Analytics
● 2007 - Business/Data/Predictive Analytics
● 2012 - Big Data
● 2013 - Data Science
● 2015 - ??
O que é Data Mining
● Extração de informações interessantes (não
triviais, implícitas, previamente desconhecidas
e potencialmente úteis) ou padrões de dados
em grandes bancos de dados.
● Nomes alternativos
– Knowledge Discorery in Databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business inteligence, etc.
Entendendo melhor...
● O que não é DM
– Pesquisar um número
de telefone em uma
lista
– Consultar um serviço
de busca web por
informações sobre
“amazon”
● O que é DM
– Certos nomes são mais
frequentes em certas
áreas
– Agrupar documentos
similares retornados
através de um serviço
de busca de acordo com
seu contexto (amazon
florest, amazon.com)
Como funciona o Data Mining (DM)?
Como funciona o Knowledge Database
Discovery(KDD)?
Descoberta de Conhecimento em Banco de Dados
Processo de KDD
Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em
dados novos e possuir o mesmo grau de confiança. Estes
padrões são considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento
de um problema ou um procedimento de tomada de decisão
Necessidade é a a mãe das invenções
● Problema de Explosão de Dados
– Ferramentas de coleta de dados automatizadas e
avançadas tecnologias de banco de dados levaram a
quantidades imensas de dados armazenados em bancos
de dados, DW e outros repositórios de informações.
● Solução = Data Mining
– Extração de conhecimento interessante de grandes
banco de dados
– Regras, regularidades, padrões, restrições.
Outras definições para DM
É um processo de análise de
dados a partir de várias
perspectivas com o objetivos
de sumarizá-los através de
informações úteis.
É um processo para
descobrir inteligência em
armazéns de dados, que
está escondida em
relatórios e consultas.
A inteligência é obtida a partir de padrões e
relacionamentos encontrados nos dados:
● Fatores internos: preços, localização do
negócio, competências pessoais
● Fatores externos: indicadores
econômicos, concorrência, dados
demográficos
Mineração de dados é o processo de
explorar grandes quantidades de dados à
procura de padrões consistentes, como
regras de associação ou sequências
temporais, para detectar relacionamentos
sistemáticos entre variáveis, detectando
assim novos subconjuntos de dados.
O que é Pentaho
● Pentaho é uma suíte de aplicativos de código aberto
para inteligência empresarial (BI – Businnes Intelligence
ou BA – Businnes Analytics como estão chamando
atualmente), desenvolvido em Java.
● A solução cobre as àreas de ETL (Extraction,
Transformation and Load), reporting, OLAP e
mineração de dados (data-mining).
● Desenvolvido desde 2004 pela Pentaho Corporation o
software foi considerado uma das melhores aplicações
para inteligência empresarial em 2008 pela InfoWorld.
Módulos Pentaho
Componentes do Pentaho
● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para
extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar
diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente.
● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta
de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o
BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados,
independentemente do seu tamanho.
● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad-
hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV.
●
Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a
mineração de dados.
● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de
indicadores de performance.
● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para
aprimorar a performance de suas consultas OLAP (Mondrian)
● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do
Mondrian.
● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios.
● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais
relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e
assim estender as capacidades da ferramenta.
Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais eficaz você
pode ser
● Buscando padrões úteis em dados de vendas, políticas
públicas, medicina, seguros, esportes e etc.
● Analisar os dados de sensores, IoT.
Problemas adequados para DM
●
Requerem decisões baseadas em conhecimento;
●
Ambiente dinâmico (dados novos);
●
Existem métodos sub-ótimos;
●
Há dados acessíveis, relevantes e em quantidade
suficiente;
●
Proporcionam recompensas elevadas pelas decisões
corretas;
●
Privacidade é um assunto importante.
Principais técnicas de
Mineração de Dados
● Métodos Preditivos
– Classificação
– Regressão
– Detecção de desvios
● Métodos Descritivos
– Agrupamento
– Associação
– Descoberta de
Padrões Sequenciais
Pentaho Data Mining (PDM)
● Explorer: testar
classificadores/filtros
● Experimenter:
Comparação de
desempenho
● KnowledgeFlow:
Interface gráfica
● SimpleCli: Interface de
linha de comando
História
● 1992 – submissão do projeto ao governo de NZ
(Ian Witten)
● 1993 – aprovado pelo governo
● 1994 – Primeira versão (principalmente em C)
● 1996 – Primeira versão pública – WEKA 2.1
● 1997 – Convertido para Java
● 1998 – WEKA 3 (completamente Java)
● 2006 – O projeto foi incorporado ao Pentaho
O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como Artificial
Immune Systems, Ant Colony e Genetic Algorithms
Onde buscar dados para mineração de dados?
Machine Learning Repository
dados.gov.br
data.rio
Exemplo de Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
●
@relation <relation-name>
● @attribute <attribute-name> <datatype>
– numeric
– <nominal-specification>
– string
– date [<date-format>]
– Ex: @ATTRIBUTE timestamp DATE "yyyy-
MM-dd HH:mm:ss"
● Sparse ARFF files
– @data
– 0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
– @data
– {1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}
Como trabalhar com a alta
dimensionalidade dos dados?
● Seleção de Atributos
– Realizada no pré-processamento dos dados
– Usada para investigar quais atributos (subconjuntos
deles) são mais preditivos
– 2 etapas:
● Um método de busca
● Um método de avaliação
– Flexibilidade: (quase) qualquer combinação de
busca/avaliação
Limitações
● Algoritmos tradicionais precisam ter todos os
dados na memória
● Solução
– Incremental schemes
– Stream algorithms
– MOA (Massive Online Analysis)
● http://moa.cs.waikato.ac.nz/
ETL utilizando PDI – dados para o
PDM
Agrupamento (Clustering)
Encontrar grupos naturais de exemplos
(dados não rotulados)
Classificação
Ponto de classe desconhecida
que se deseja prever
Dado um conjunto de pontos das classes conhecidas: (V)erde e
(A)zul. Qual é a classe para o novo ponto (D)esconhecido?
Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo
(Classificador) para classificar novos casos.
Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural,
etc.
Construindo um modelo
(classificador)
Dataset de exemplos classificados para
construir um modelo que classifica novos
exemplos
Weka – Explorer
Visualização Gráfica
Avaliando cada atributo
Classificador ZeroR
O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para
Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
Classificador OneR
● É uma árvore de
decisão de um nível,
ou seja, regras que
utilizam um atributo
particular (1993)
Classificador Bayes
● Oposto do OneR: utiliza todos os atributos e
regras Bayes para estimar a probabilidade de
uma classe para uma instância
● Naive Bayes tem um desempenho muito bom
● Pode ser prejudicado por muitos atributos
redundantes
Classificador J48 (C4.5)
Árvore de Decisão
Classificadores: Árvores de
decisão
if X > 5 then blue
else if Y > 3 then
blue
else if X > 2 then
green
else blue
Classificadores: Redes
Neurais
Podem selecionar regiões mais complexas
Podem ser mais precisas
Podem se ajustar aos dados - encontrar padrões em dados com ruído
Outras abordagens para
classificadores
● Rules
● Genetic Algorithms
● Ensemble
● E muitos outros
Output source code
Como avaliar classificadores?
● Acurácia
● Custo/benefício total – quando diferentes erros
envolvem diferentes custos
● Curvas de Lift e ROC
● Erro em predições numéricas
A questão é estimar quanto confiável são os
resultados previstos?
Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado
Experimenter
Experimenter
Mudando o jeito de gerenciar o
negócio
● Uma fase do negócio é o BI
utilizando ETL e ferramentas
analíticas para suporte a
decisão.
●
Outra fase é utilizar o BI antes
de acontecer os problemas,
prever problemas, e/ou utilizar
os sistemas de apoio a decisão
baseados em aprendizagem de
máquina junto aos sistemas
transacionais.
Linha 1 Linha 2 Linha 3 Linha 4
0
2
4
6
8
10
12
Coluna 1
Coluna 2
Coluna 3
Big Data
● 2a Revolução Industrial
● Executar velhas atividades melhor
● Criar novos negócios e atividades
Executar melhor velhas atividades
● Áreas de aplicação
– marketing direto / modelagem Cliente
– previsão
– recomendações
– Detecção de fraude
– Segurança / Inteligência
● Melhorias são reais, mas são limitadas pela
aleatoriedade humana
● Concorrência irá nivelar empresas
Aspectos negativos
● Como toda a tecnologia, cabe ao usuário, utilizá-la
de uma forma positiva ou negativa
● DM pode ser usado negativamente nas áreas:
– Social
– Ética
– Legal
● Problema principal: privacidade
– Informações estão sendo armazenadas sem o
consentimento do consumidor
● Analytics on-demand, analytics in the cloud.
● BI (Business Intelligence), Database and
OLAP software
● Bioinformatics and Pharmaceutical solutions
● CRM (Customer Relationship Management)
● Data Providers, Data Cleansing (Cleaning)
Tools
● eCommerce solutions
● Education, using predictive analytics and
data mining to improve learning.
● Email analysis, response, and marketing
● Fraud Detection solutions
● Healthcare Analytics solutions
● Human Resources and Staff Analytics
solutions
● Knowledge Management and News
● Marketing solutions, including real-time,
email, web, and affiliate marketing
Em que área trabalhar?
● Music Discovery and Music Data Mining.
● Personalization solutions
● Privacy software and solutions
● Real-Time Analytics and Decisioning solutions
● Retail solutions
● Risk Analysis and Credit Scoring
● Security and Intelligence solutions.
● Sports and Entertainment
● Stock and Investment Analysis and Prediction
● Survey creation and analysis
● Telecom
● Travel sites and solutions
● Twitter Analytics sites and solutions.
● Web Advertising
● Web Mining, Web Content Mining
Como aprender Data Mining
● Linguagens: Aprenda R, Python e SQL
● Ferramentas: aprenda como usar ferramentas de visualização e de
mineração de dados
● Literatura: leia textos introdutórios para compreender os
fundamentos
● Educação: assista webminars, faça cursos, e considere uma
certificação ou graduação em ciência de dados
● Dados: verifique recursos de dados disponíveis e encontre algo lá
● Competições: participe de competições de mineração de dados
● Interaja com outros cientistas de dados, através de redes sociais,
grupos e conferências
Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third
Edition (The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd
Cursos
12ª Conferencia Latino-americana de Software Livre
Você não está sozinho!
Esta é a comunidade Pentaho no Brasil.
http://www.pentahobrasil.com.br
https://www.facebook.com/pentahobrasil
Dúvidas?
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
mvfidelis@gmail.com
Tópico
12ª Conferencia Latino-americana de Software Livre
Texto do tópico ou assunto

More Related Content

What's hot

Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosEduardo de Lucena Falcão
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 

What's hot (20)

Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
Data Mining
Data Mining Data Mining
Data Mining
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 

Similar to Palestra garimpando com pentaho data mining latinoware

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Como utilizar Bid Data na minha empres
Como utilizar Bid Data na minha empresComo utilizar Bid Data na minha empres
Como utilizar Bid Data na minha empresJosé Bringel Filho
 
Gestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdfGestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdfjoeljose321235
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesAlexandre Mendes
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisãoEcoplas
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business IntelligenceDouglas Scheibler
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 

Similar to Palestra garimpando com pentaho data mining latinoware (20)

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Sistemas de Apoio à Decisão
Sistemas de Apoio à DecisãoSistemas de Apoio à Decisão
Sistemas de Apoio à Decisão
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Como utilizar Bid Data na minha empres
Como utilizar Bid Data na minha empresComo utilizar Bid Data na minha empres
Como utilizar Bid Data na minha empres
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Gestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdfGestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdf
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a Decisoes
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisão
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Data mining
Data miningData mining
Data mining
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 

Palestra garimpando com pentaho data mining latinoware

  • 1. 12ª Conferencia Latino-americana de Software Livre Garimpando com Pentaho Data Mining Palestrante: Marcos Vinicius Fidelis
  • 2. 12ª Conferencia Latino-americana de Software Livre Palestrante ● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná (UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área Acadêmica da Universidade Estadual de Ponta Grossa (UEPG). ● É graduado em Processamento de Dados e Especialista em Análise e Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em Desenvolvimento de Sistemas Computacionais pela PUC-PR. ● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre outros projetos, liderou a implantação dos Frameworks Grails e JasperReports. ● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão, Mineração de Dados e Gerenciamento de Sistemas de Informação. ● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org. ● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e PentahoDay.
  • 3. Introdução ● Em um PDV ou em um sítio de vendas, uma grande quantidade de dados está sendo coletada e armazenada a cada minuto: – Web data, e-commerce – Dados de faturamento – Transações de cartões de crédito ou bancários – Reservas de produtos – Computadores tem se tornado baratos e mais poderosos ● Estas pequenas entradas de dados podem ser muito importantes – (investigação de crimes, retorno de produtos, etc) ● A pressão competitiva no mundo dos negócios é muito grande – Fornecer serviços melhores e customizados para uma clientela (ex: CRM)
  • 4. Source : www.go-gulf.com Date post : May 26, 2015
  • 5. Questões atuais “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados.” “Estamos nos afogando em dados, mas sedentos por informação!” “Torture os dados até confessarem!”
  • 6. ● Tendências que nos levam a um cenário de alta disponibilidade dados – Instituições financeiras, telecomunicações, transações em empresas. – Dados científicos: astronomia, biologia, etc. – Dados na Web, Dados em textos, comércio eletrônico, … – IoT ● Capacidades de coletar/armazenar superaram nossas habilidades de analisar/extrair conhecimento dos dados: – É necessária a aplicação de técnicas/ferramentas que transformem, de maneira inteligente e automática, os dados disponíveis em informações úteis, que representem conhecimento. Questões atuais
  • 7. Padrões são a parte chave da Inteligência ● Evolução: os animais mais capazes de encontrar e usar padrões são aqueles com maiores chances de sobreviver. ● Pessoas tem uma habilidade e o desejo de encontrar padrões ● As empresas não oferecem mais espaço para pessoas intuitivas. ● A ciência ajuda a separar padrões válidos de inválidos.
  • 8. Estudo de Caso: e-commerce mau sucedido (KDD Cup 2000) ● Claro que a aplicação de mineração de dados não é garantia de sucesso e durante a bolha da internet de 1999-2000, temos visto muitos exemplos. ● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ ) ● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $ 12 em uma compra média no sítio ● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes ● Uma análise muito interessante e esclarecedora foi feito por dezenas de participantes da Copa. O gasto de tempo total foi de milhares de horas, o que teria sido equivalente a milhões de dólares em honorários de consultoria. ● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los. Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.
  • 9. Estudo de Caso: e-commerce bem sucedido ● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para música, eletrônicos e outros produtos. ● Amazon.com tem um grupo de mineração de dados ativo, que se foca na personalização. Por que personalização? Considere uma pessoa que compra um livro (produto) na Amazon.com. ● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é susceptível de comprar. ● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado em livros comprados. ● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy , também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e técnicas práticas com implementações de Java" , por Witten e Eibe . ● Programas de Recomendação são muito bem sucedido e programas mais avançados estão sendo desenvolvidos.
  • 10. História ● 1900 - Estatística ● 1960s - Data Mining = bad activity, data “dredging” ● 1990 - “Data Mining” é bom (Fayyad, 1996) ● 2003 - “Data Mining” peaks ● 2006 - Google Analytics ● 2007 - Business/Data/Predictive Analytics ● 2012 - Big Data ● 2013 - Data Science ● 2015 - ??
  • 11. O que é Data Mining ● Extração de informações interessantes (não triviais, implícitas, previamente desconhecidas e potencialmente úteis) ou padrões de dados em grandes bancos de dados. ● Nomes alternativos – Knowledge Discorery in Databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business inteligence, etc.
  • 12. Entendendo melhor... ● O que não é DM – Pesquisar um número de telefone em uma lista – Consultar um serviço de busca web por informações sobre “amazon” ● O que é DM – Certos nomes são mais frequentes em certas áreas – Agrupar documentos similares retornados através de um serviço de busca de acordo com seu contexto (amazon florest, amazon.com)
  • 13. Como funciona o Data Mining (DM)? Como funciona o Knowledge Database Discovery(KDD)? Descoberta de Conhecimento em Banco de Dados
  • 15. Knowledge Database Discovery ● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados) ● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo ● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão
  • 16. Necessidade é a a mãe das invenções ● Problema de Explosão de Dados – Ferramentas de coleta de dados automatizadas e avançadas tecnologias de banco de dados levaram a quantidades imensas de dados armazenados em bancos de dados, DW e outros repositórios de informações. ● Solução = Data Mining – Extração de conhecimento interessante de grandes banco de dados – Regras, regularidades, padrões, restrições.
  • 17. Outras definições para DM É um processo de análise de dados a partir de várias perspectivas com o objetivos de sumarizá-los através de informações úteis. É um processo para descobrir inteligência em armazéns de dados, que está escondida em relatórios e consultas. A inteligência é obtida a partir de padrões e relacionamentos encontrados nos dados: ● Fatores internos: preços, localização do negócio, competências pessoais ● Fatores externos: indicadores econômicos, concorrência, dados demográficos Mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.
  • 18. O que é Pentaho ● Pentaho é uma suíte de aplicativos de código aberto para inteligência empresarial (BI – Businnes Intelligence ou BA – Businnes Analytics como estão chamando atualmente), desenvolvido em Java. ● A solução cobre as àreas de ETL (Extraction, Transformation and Load), reporting, OLAP e mineração de dados (data-mining). ● Desenvolvido desde 2004 pela Pentaho Corporation o software foi considerado uma das melhores aplicações para inteligência empresarial em 2008 pela InfoWorld.
  • 20. Componentes do Pentaho ● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente. ● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados, independentemente do seu tamanho. ● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad- hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV. ● Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a mineração de dados. ● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de indicadores de performance. ● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para aprimorar a performance de suas consultas OLAP (Mondrian) ● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do Mondrian. ● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios. ● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e assim estender as capacidades da ferramenta.
  • 21.
  • 22. Onde utilizar DM? ● Quanto mais direcionados os anúncios, mais eficaz você pode ser ● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc. ● Analisar os dados de sensores, IoT.
  • 23. Problemas adequados para DM ● Requerem decisões baseadas em conhecimento; ● Ambiente dinâmico (dados novos); ● Existem métodos sub-ótimos; ● Há dados acessíveis, relevantes e em quantidade suficiente; ● Proporcionam recompensas elevadas pelas decisões corretas; ● Privacidade é um assunto importante.
  • 24. Principais técnicas de Mineração de Dados ● Métodos Preditivos – Classificação – Regressão – Detecção de desvios ● Métodos Descritivos – Agrupamento – Associação – Descoberta de Padrões Sequenciais
  • 25. Pentaho Data Mining (PDM) ● Explorer: testar classificadores/filtros ● Experimenter: Comparação de desempenho ● KnowledgeFlow: Interface gráfica ● SimpleCli: Interface de linha de comando
  • 26. História ● 1992 – submissão do projeto ao governo de NZ (Ian Witten) ● 1993 – aprovado pelo governo ● 1994 – Primeira versão (principalmente em C) ● 1996 – Primeira versão pública – WEKA 2.1 ● 1997 – Convertido para Java ● 1998 – WEKA 3 (completamente Java) ● 2006 – O projeto foi incorporado ao Pentaho
  • 27. O que tenho disponível? ● 100+ algoritmos de classificação ● 75 para pré-processamento de dados ● 25 para apoiar o processo de Seleção de Atributos ● 20 para agrupamento, regras de associação, etc ● E muitas outras contribuições como Artificial Immune Systems, Ant Colony e Genetic Algorithms
  • 28. Onde buscar dados para mineração de dados?
  • 32. Exemplo de Arquivo ARFF % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa ● @relation <relation-name> ● @attribute <attribute-name> <datatype> – numeric – <nominal-specification> – string – date [<date-format>] – Ex: @ATTRIBUTE timestamp DATE "yyyy- MM-dd HH:mm:ss" ● Sparse ARFF files – @data – 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" – @data – {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
  • 33. Como trabalhar com a alta dimensionalidade dos dados? ● Seleção de Atributos – Realizada no pré-processamento dos dados – Usada para investigar quais atributos (subconjuntos deles) são mais preditivos – 2 etapas: ● Um método de busca ● Um método de avaliação – Flexibilidade: (quase) qualquer combinação de busca/avaliação
  • 34. Limitações ● Algoritmos tradicionais precisam ter todos os dados na memória ● Solução – Incremental schemes – Stream algorithms – MOA (Massive Online Analysis) ● http://moa.cs.waikato.ac.nz/
  • 35. ETL utilizando PDI – dados para o PDM
  • 36. Agrupamento (Clustering) Encontrar grupos naturais de exemplos (dados não rotulados)
  • 37. Classificação Ponto de classe desconhecida que se deseja prever Dado um conjunto de pontos das classes conhecidas: (V)erde e (A)zul. Qual é a classe para o novo ponto (D)esconhecido? Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo (Classificador) para classificar novos casos. Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural, etc.
  • 38. Construindo um modelo (classificador) Dataset de exemplos classificados para construir um modelo que classifica novos exemplos
  • 42. Classificador ZeroR O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
  • 43. Classificador OneR ● É uma árvore de decisão de um nível, ou seja, regras que utilizam um atributo particular (1993)
  • 44. Classificador Bayes ● Oposto do OneR: utiliza todos os atributos e regras Bayes para estimar a probabilidade de uma classe para uma instância ● Naive Bayes tem um desempenho muito bom ● Pode ser prejudicado por muitos atributos redundantes
  • 46. Classificadores: Árvores de decisão if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue
  • 47. Classificadores: Redes Neurais Podem selecionar regiões mais complexas Podem ser mais precisas Podem se ajustar aos dados - encontrar padrões em dados com ruído
  • 48. Outras abordagens para classificadores ● Rules ● Genetic Algorithms ● Ensemble ● E muitos outros
  • 50. Como avaliar classificadores? ● Acurácia ● Custo/benefício total – quando diferentes erros envolvem diferentes custos ● Curvas de Lift e ROC ● Erro em predições numéricas A questão é estimar quanto confiável são os resultados previstos?
  • 51. Experimenter ● permite a comparação de diferentes estratégias de aprendizagem. ● Para problemas de classificação e regressão ● Resultados escritos em um arquivo ou base de dados ● Opções de avaliação: cross-validation, curva de aprendizagem, hold-out ● Pode ser executado com diferentes configurações de parâmetros ● Teste de significância acoplado
  • 54. Mudando o jeito de gerenciar o negócio ● Uma fase do negócio é o BI utilizando ETL e ferramentas analíticas para suporte a decisão. ● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais. Linha 1 Linha 2 Linha 3 Linha 4 0 2 4 6 8 10 12 Coluna 1 Coluna 2 Coluna 3
  • 55. Big Data ● 2a Revolução Industrial ● Executar velhas atividades melhor ● Criar novos negócios e atividades
  • 56. Executar melhor velhas atividades ● Áreas de aplicação – marketing direto / modelagem Cliente – previsão – recomendações – Detecção de fraude – Segurança / Inteligência ● Melhorias são reais, mas são limitadas pela aleatoriedade humana ● Concorrência irá nivelar empresas
  • 57. Aspectos negativos ● Como toda a tecnologia, cabe ao usuário, utilizá-la de uma forma positiva ou negativa ● DM pode ser usado negativamente nas áreas: – Social – Ética – Legal ● Problema principal: privacidade – Informações estão sendo armazenadas sem o consentimento do consumidor
  • 58. ● Analytics on-demand, analytics in the cloud. ● BI (Business Intelligence), Database and OLAP software ● Bioinformatics and Pharmaceutical solutions ● CRM (Customer Relationship Management) ● Data Providers, Data Cleansing (Cleaning) Tools ● eCommerce solutions ● Education, using predictive analytics and data mining to improve learning. ● Email analysis, response, and marketing ● Fraud Detection solutions ● Healthcare Analytics solutions ● Human Resources and Staff Analytics solutions ● Knowledge Management and News ● Marketing solutions, including real-time, email, web, and affiliate marketing Em que área trabalhar? ● Music Discovery and Music Data Mining. ● Personalization solutions ● Privacy software and solutions ● Real-Time Analytics and Decisioning solutions ● Retail solutions ● Risk Analysis and Credit Scoring ● Security and Intelligence solutions. ● Sports and Entertainment ● Stock and Investment Analysis and Prediction ● Survey creation and analysis ● Telecom ● Travel sites and solutions ● Twitter Analytics sites and solutions. ● Web Advertising ● Web Mining, Web Content Mining
  • 59. Como aprender Data Mining ● Linguagens: Aprenda R, Python e SQL ● Ferramentas: aprenda como usar ferramentas de visualização e de mineração de dados ● Literatura: leia textos introdutórios para compreender os fundamentos ● Educação: assista webminars, faça cursos, e considere uma certificação ou graduação em ciência de dados ● Dados: verifique recursos de dados disponíveis e encontre algo lá ● Competições: participe de competições de mineração de dados ● Interaja com outros cientistas de dados, através de redes sociais, grupos e conferências
  • 60. Onde conseguir mais informações? ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) ● KDnuggets – news, software, jobs, courses,… – www.KDnuggets.com ● ACM SIGKDD – data mining association – www.acm.org/sigkdd
  • 62. 12ª Conferencia Latino-americana de Software Livre Você não está sozinho! Esta é a comunidade Pentaho no Brasil. http://www.pentahobrasil.com.br https://www.facebook.com/pentahobrasil
  • 63. Dúvidas? Obrigado a todos! Prof. Marcos Vinicius Fidelis mvfidelis@gmail.com
  • 64. Tópico 12ª Conferencia Latino-americana de Software Livre Texto do tópico ou assunto