SlideShare a Scribd company logo
1 of 49
Download to read offline
AEL
Adaptive Execution Layer
on Spark Cluster with
Pentaho Data Integration
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
Prof. MBA Universidade Positivo
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-cv
●
17 anos de experiência em informática, vivência em desenvolvimento e análise de
sistemas de Gestão empresarial e Analise de Dados.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria e treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS em: FISL, LATINOWARE,Campus Party, Pentaho Day,
TDC e agora Ticnova :)
●
Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014.
●
CEO da Ambiente Livre, Prof de MBA em Big Data da Univ. Positivo.
●
Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
●
Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na
IBM, Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura,
Embraer entre outras.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Pentaho - Hitachi Vantara
●
Plataforma abrangente para integração de dados e Business
Analytics. 3 Pilares do Pentaho
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Pentaho Data Integration - PDI
Data Integration
• Pentaho Data Integration (PDI, também chamado Kettle) é um componente da
suíte do Pentaho responsável pelos processos de Extração, Transformação e
Carga (ETL).
ETL
• ETL - Extract, transform, load.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Pentaho Data Integration - Funcionalidades
Funcionalidades Tradicionais
• Usadas em projetos de data warehouse
Funcionalidades Adicionais
• Migração de dados entre aplicações/banco de dados
• Exportar dados de banco de dados para arquivos texto
• Carregar massivamente dados em banco de dados
• Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse
• Integração de aplicações.
• Gerenciamento de Filesystem ( File management )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O que é uma Transformação?
Definição
• Rotina com coleção de passos interligados
• Os primeiros são a fonte de dados.
• O último representa a saída de dados.
• Pode ser colocadas varias fontes de dados e saídas ou entrada
• É recomendado 1 transformação para cada dimensão ou tabela fato
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O que são Steps?
Definição de Steps
• Um passo é uma unidade mínima dentro de uma transformação.
• Grande variedade de passos
• Agrupada em categorias ( input , Output, etc )
• Os tipos básicos são :
Entrada, Transformação, Saída.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O que são Hops?
Definição
• Representação gráfica do fluxo de dados entre dois passos (conexão)
• Um deles Origem e outro Destino.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
O que são Jobs?
Definição
• É uma rotina de execução
• Pode executar uma ou mais transformações
• Utilizado para cargas de tabelas fatos
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
A História de um Pedro!
●
Pedro queria trabalhar com TI mas
ainda não tem uma especialidade.
●
Pedro “ama dados”
●
Pedro é muito estudioso!
●
Pedro é “brasileiro e não desiste
nunca”!!!
●
Pedro leu que Data Scientist e um dos
cargos mais “Sexys do Mundo”
Pedro
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
A História do Matt!
●
Matt trabalha com dados a 20 anos
●
Matt desenvolve open sources e
software livres.
●
Matt tem diversos apoiadores em seus
projetos que colaboram com ideia,
revisões, documentações, e melhorias.
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pedro e Matt!
●
Pedro conheceu matt de um blog
●
Pedro se inspira em Matt e tenta
aprender sobre tudo que Matt fala
em seu blog...
●
Mas Matt não está sozinho...
Pedro
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pedro e Matt!
●
Matt está usando Hadoop
MapReduce e Programando em
Java, Pig, manipulando com Hive
Matt
● Pedro compra tudo sobre
Java Mapreduce e Hadoop e
começa a estudar
Pedro
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Pedro e Matt!
●
Hadoop Mapreduce 100% mais
lendo que Spark Java verboso...
●
Agora e Spark e Scala!!! diz Matt
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Pedro e Matt!
●
Streaming, Real Time, Kafka, Nifi,
Cloud, ORC, parquet, Apex, Flume,
Knox, Tez, Deap Learning..
●
Matt esta postando muito muito
mesmo em 2016...
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Pedro e Matt!
●
Matt apresenta a stack de Big
Data, Data Science 2017
Matt
Pedro
●
Pedro entra na Faculdade de
Administração!
●
Biblioteca da cidade do Pedro
recebe a maior doação de
Livros da sua história
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Pedro e Matt!
●
Matt perde seu mais fiel seguidor
●
E não deu tempo de avisar que Spark já não e
mais tendência e agora e Apache Flink e ele
poderia reusar o conhecimento de Java e
Scala...
●
E surge uma ideia!
●
Porque não encapsular seus conhecimento em
um “framework” de trabalho que caso a
tecnologia mude possamos manter os mesmos
processo de trabalho com uma curva baixa de
implementação e aprendizado, alias o que o
Pedro gosta e dos dados!
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Pentaho Data Integration - PDI
●
Processa em Paralelo Cluster Apache Spark
●
Acessar dados diretamente (DW opcional)
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports
e Dashboards com uso integrado do Pentaho Server.
●
“Programação e Fluxo Visual” com aproximadamente 350
steps/funções diferentes + plugins
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Modos de Execução do PDI
●
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Quem é o Apache Spark?
●
É um Mecanismo de análise unificada para processamento de
dados em larga escala.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Evolução do Apache Spark
●
Hoje podemos processar dados executando comando “SQL” no
Spark, mas nem sempre foi assim!
●
Cada vez mais conceitos estão sendo “encapsulados” e ficando
mais faceis para os desenvolvedores
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Como usamos Spark Tradicionalmente
●
Carregamos datasets do HDFS, Hive, Cassandra, Hbase,
Streaming, etc.
●
Criamos RDDs e DataFrames.
●
Processamos os Dados usando SparkSQL, Dataframes, Maps,
Reduces, etc
●
Os resultados gerar novos dados (Dataframes , RDDs etc)
●
E segue o pipeline de processamento…
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
AEL - Adaptive Execution Layer
●
O Pentaho usa a AEL) para executar transformações em
diferentes mecanismos.
●
Adapta etapas da transformação que você desenvolveu no PDI
para operadores nativos no mecanismo selecionado para seu
ambiente (Spark, Hadoop, Flink).
●
O motor de Spark é mais adequado para a execução de grandes
transformações de dados em um cluster Hadoop (Hoje!).
●
Selecionando o mecanismo Spark para executar sua
transformação, a AEL compara as etapas de sua transformação
aos operadores nativos do Spark.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
AEL - Adaptive Execution Layer
●
Exemplo: se sua transformação contiver uma etapa de Entrada
de Arquivo do Hadoop, a AEL usará um operador Spark
equivalente.
●
A AEL cria uma definição de transformação para o Spark, que
move a execução diretamente para o cluster, aproveitando a
capacidade do Spark de coordenar uma grande quantidade de
dados em vários nós.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
AEL – A ideia original
●
Começamos por Driver PDI para Spark a partir
de uma instância PDI, ponto de partida
importante porque usando esta metodologia
garantimos que qualquer plug-in que
tenhamos desenvolvido / instalado funcionará
quando executarmos a transformação
(extensibilidade do Pentaho).
●
O driver é instalado em um “edge node” do
cluster responsável pela execução da
transformação. Ao usar a spark, aproveitamos
todas as suas características, podenddo
executar standalone ou yarn mode/ cluster
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
AEL
●
Disponível no Pentaho deste Maio/2017 – já estamos na segunda
onda de melhorias ( agora Streaming, Kafka, etc) .
●
Enviei 4 vezes a proposta disso a 3 eventos diferentes, nunca
ninguém entendeu a proposta da AEL!
●
“Obrigado TDC Florianópolis” e os coodenadores por me
entenderem
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Spark - RDD
●
O Spark trabalha com datasets chamado RDD
●
Uma transformação (não é o mesmo que uma transformação PDI)
descreve como produzir um novo RDD de um anterior:
●
Uma ação executa um conjunto de transformações para produzir
um resultado.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Spark - RDD
●
O executor é o “trabalhador” no Spark
●
Um RDD representa um dataset inteiro, que é dividido em partitions
●
As divisões de arquivos do Hadoop geralmente definem o
particionamento para RDD baseado em arquivo.
●
Dados paralelizados pelo Spark Driver são divididos entre os
executores
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Spark - Tasks
●
Representa a execução de transformações do Spark em uma partição
de dados
●
Cores especificam o número máximo de tarefas simultâneas a serem
executadas
●
Efetivamente, o número máximo de threads de processamento por
executor
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
AEL – Arquitetura – Visão Geral
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Spark – Directed Acyclic Graph (DAG)
●
Dirigido = Arestas podem ser percorridos em uma única direção
●
Acíclico = Não há ciclos no grafos (você não pode visitar novamente
um vértice)
●
Grafos = Coleção de Vértices e Arestas
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Transformações PDI como Spark DAGs
●
Cada step executada como uma ou mais transformações do Spark
●
A maioria dos steps são executados como transformações Spark
- Utiliza o método processRow() do Kettle StepInterface
- O mecanismo do PDI não executada no contexto do Spark, e sim
como PMR (Pentaho MapReduce)
- Muitas implementações processRow() existentes podem ser
executadas em paralelo
RDD’ = RDD.mapPartitions( processRow() )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Exemplo
●
Hadoop File Input = Built-in Spark Input (Partitions data)
●
Calculator = Generic Kettle Step (Partitioned)
●
Sort rows = Built-in Spark Sort
●
Hadoop File Output = Built-in Spark Output
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
AEL – Kettle Engine
●
Cada step é executado dentro de uma thread
- As threads chamam um metodo chamado processRow()
●
Ao executar, as linhas são roteadas pela transformação
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
AEL – Kettle Engine - Paralelismo
●
Podemos configurar o numero de copias para inicialização
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Querys simples e implementação fácil
●
Cloudera usa Hive on Spark com Hive2
●
Hortonworks use SparkSQL via Simba
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Steps que não tem paralelização
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Dataset Coalescing
Coalesce(1)●
A operação de Coalescing
pode ser usada para mesclar
as partições de um RDD
●
Alguns ids de etapa são
definidos na lista
forceCoalesceSteps
●
Configurável em
org.pentaho.pdi.engine.spark
.cfg
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
AEL – Arquitetura e Tecnologias
●
Implementação em Spark
●
O que é o Daemon?
- Servidor web Lightweight
Spring Boot
- Orquestra as transformações
em execução
●
O que temos do Daemon?
●
- Karaf / OSGi
- Spark Modes
- Rede DMZ
- Menos configurações para
o desenvolvedor do PDI
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Websockets (JSR 356)
●
Uso de padrões
●
comunicação de 2 vias
●
Interface e API orientada para anotações
●
Mensagens leves
●
Protegido pelo Spring Security (JAAS / Kerberos)
●
Pode ser balanceado a carga
●
Expansível para futuros recursos
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Segurança
●
SSL(SecureSockets Layer)
- Criptografar dados enviados pela rede
●
Kerberos
- Mecanismo de autenticação
- Alavancar o KDC (Key Distribution Center) existente
- Servidor Spoon / Pentaho para Daemon & Daemon -> Spark
●
Proxy User
- Usado quando conectado ao servidor Pentaho
- Permite um usuário Pentaho executar jobs como esse usuário.
●
Configuração simplificada
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Compatibilidade e Suporte da AEL (Pentaho 8.0)
●
Cloudera version 5.10 ou superior
●
Hortonworks 2.5 ou superior
●
MapR Spark 2.1
●
Ou seu Cluster 100% Apache!
●
Spark Client 2x.
●
Microsoft Azure HD Insights shim
●
Ranger support
●
Kerberos Impersonation (Hortonworks) – Somente na EE
●
Spark Streaming
●
Kafka
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Machine Learning e Data Science
inclusive R, Python, WEKA com Spark
●
Automação e orquestração do fluxo
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Orquestraçao total com Pentaho
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Resumo AEL
●
Pentaho Data Integration
Hadoop
Map Reduce
E Java
Apache Spark e
Scala,Python,Java
Apache Flink
Java e Scala
Quem
é o próximo?
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Setup AEL
●
Step-by-Step
https://help.pentaho.com/Documentation/8.0/Setup/Configuration/Adaptive_Execution_Layer
●
Download Pentaho Data Integration
https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/client-tools/
●
Download Apache Spark
http://spark.apache.org/downloads.html
●
Download Pentaho Shmis
https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/shims/
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Referências
●
Pentaho World 2017
- Dev-by-Dev: PDI Engine and Adaptive Execution, Under the Hood
- Design Patterns Leveraging Spark in PDI
- Parallelism with the PDI AEL Spark Engine
●
Blog Pedro Alves -
http://pedroalves-bi.blogspot.com.br/2017/05/pentaho-7.1.html
●
Pentaho Day 2017.
Pentaho 7, Visão e Roadmap
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
@marviojvieira @ambientelivre
https://www.linkedin.com/in/mvieira1/
Slide da Palestra será publicada em:
Linkedin….: https://www.linkedin.com/in/mvieira1/
SlideShare: http://slideshare.net/ambientelivre/
Blog……...: http://blogs.ambientelivre.com.br/marcio/
- Pedro está feliz de novo!
- E voltou a seguir Matt!
- É usuário Pentaho fiel!
- Pedro e um Data Scientist

More Related Content

What's hot

Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data tdc-globalcode
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 

What's hot (19)

Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 

Similar to AEL on Spark Cluster

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Marcio Junior Vieira
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoPentahoBrasil
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...
Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...
Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...IT4biz IT Solutions
 
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021Renato Groffe
 
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...Ambiente Livre
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Durotdc-globalcode
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 

Similar to AEL on Spark Cluster (20)

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...
Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...
Slide de Divulgação do Curso Inteligência de Negócios (Business Intelligence)...
 
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | MVPConf Latam 2021
 
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
 
Machine Learning Black Boxes
Machine Learning Black BoxesMachine Learning Black Boxes
Machine Learning Black Boxes
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 

More from Ambiente Livre

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectAmbiente Livre
 

More from Ambiente Livre (11)

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

AEL on Spark Cluster

  • 1. AEL Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  • 2. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-cv ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: FISL, LATINOWARE,Campus Party, Pentaho Day, TDC e agora Ticnova :) ● Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014. ● CEO da Ambiente Livre, Prof de MBA em Big Data da Univ. Positivo. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas. ● Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na IBM, Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura, Embraer entre outras.
  • 3. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 4. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  • 5. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Pentaho Data Integration - PDI Data Integration • Pentaho Data Integration (PDI, também chamado Kettle) é um componente da suíte do Pentaho responsável pelos processos de Extração, Transformação e Carga (ETL). ETL • ETL - Extract, transform, load.
  • 6. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Pentaho Data Integration - Funcionalidades Funcionalidades Tradicionais • Usadas em projetos de data warehouse Funcionalidades Adicionais • Migração de dados entre aplicações/banco de dados • Exportar dados de banco de dados para arquivos texto • Carregar massivamente dados em banco de dados • Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse • Integração de aplicações. • Gerenciamento de Filesystem ( File management )
  • 7. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O que é uma Transformação? Definição • Rotina com coleção de passos interligados • Os primeiros são a fonte de dados. • O último representa a saída de dados. • Pode ser colocadas varias fontes de dados e saídas ou entrada • É recomendado 1 transformação para cada dimensão ou tabela fato
  • 8. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O que são Steps? Definição de Steps • Um passo é uma unidade mínima dentro de uma transformação. • Grande variedade de passos • Agrupada em categorias ( input , Output, etc ) • Os tipos básicos são : Entrada, Transformação, Saída.
  • 9. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O que são Hops? Definição • Representação gráfica do fluxo de dados entre dois passos (conexão) • Um deles Origem e outro Destino.
  • 10. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 O que são Jobs? Definição • É uma rotina de execução • Pode executar uma ou mais transformações • Utilizado para cargas de tabelas fatos
  • 11. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 A História de um Pedro! ● Pedro queria trabalhar com TI mas ainda não tem uma especialidade. ● Pedro “ama dados” ● Pedro é muito estudioso! ● Pedro é “brasileiro e não desiste nunca”!!! ● Pedro leu que Data Scientist e um dos cargos mais “Sexys do Mundo” Pedro
  • 12. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 A História do Matt! ● Matt trabalha com dados a 20 anos ● Matt desenvolve open sources e software livres. ● Matt tem diversos apoiadores em seus projetos que colaboram com ideia, revisões, documentações, e melhorias. Matt
  • 13. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pedro e Matt! ● Pedro conheceu matt de um blog ● Pedro se inspira em Matt e tenta aprender sobre tudo que Matt fala em seu blog... ● Mas Matt não está sozinho... Pedro Matt
  • 14. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pedro e Matt! ● Matt está usando Hadoop MapReduce e Programando em Java, Pig, manipulando com Hive Matt ● Pedro compra tudo sobre Java Mapreduce e Hadoop e começa a estudar Pedro
  • 15. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pedro e Matt! ● Hadoop Mapreduce 100% mais lendo que Spark Java verboso... ● Agora e Spark e Scala!!! diz Matt Matt
  • 16. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Pedro e Matt! ● Streaming, Real Time, Kafka, Nifi, Cloud, ORC, parquet, Apex, Flume, Knox, Tez, Deap Learning.. ● Matt esta postando muito muito mesmo em 2016... Matt
  • 17. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Pedro e Matt! ● Matt apresenta a stack de Big Data, Data Science 2017 Matt Pedro ● Pedro entra na Faculdade de Administração! ● Biblioteca da cidade do Pedro recebe a maior doação de Livros da sua história
  • 18. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Pedro e Matt! ● Matt perde seu mais fiel seguidor ● E não deu tempo de avisar que Spark já não e mais tendência e agora e Apache Flink e ele poderia reusar o conhecimento de Java e Scala... ● E surge uma ideia! ● Porque não encapsular seus conhecimento em um “framework” de trabalho que caso a tecnologia mude possamos manter os mesmos processo de trabalho com uma curva baixa de implementação e aprendizado, alias o que o Pedro gosta e dos dados! Matt
  • 19. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Pentaho Data Integration - PDI ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (DW opcional) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dashboards com uso integrado do Pentaho Server. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes + plugins
  • 20. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Modos de Execução do PDI ●
  • 21. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Quem é o Apache Spark? ● É um Mecanismo de análise unificada para processamento de dados em larga escala.
  • 22. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Evolução do Apache Spark ● Hoje podemos processar dados executando comando “SQL” no Spark, mas nem sempre foi assim! ● Cada vez mais conceitos estão sendo “encapsulados” e ficando mais faceis para os desenvolvedores
  • 23. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Como usamos Spark Tradicionalmente ● Carregamos datasets do HDFS, Hive, Cassandra, Hbase, Streaming, etc. ● Criamos RDDs e DataFrames. ● Processamos os Dados usando SparkSQL, Dataframes, Maps, Reduces, etc ● Os resultados gerar novos dados (Dataframes , RDDs etc) ● E segue o pipeline de processamento…
  • 24. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 AEL - Adaptive Execution Layer ● O Pentaho usa a AEL) para executar transformações em diferentes mecanismos. ● Adapta etapas da transformação que você desenvolveu no PDI para operadores nativos no mecanismo selecionado para seu ambiente (Spark, Hadoop, Flink). ● O motor de Spark é mais adequado para a execução de grandes transformações de dados em um cluster Hadoop (Hoje!). ● Selecionando o mecanismo Spark para executar sua transformação, a AEL compara as etapas de sua transformação aos operadores nativos do Spark.
  • 25. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 AEL - Adaptive Execution Layer ● Exemplo: se sua transformação contiver uma etapa de Entrada de Arquivo do Hadoop, a AEL usará um operador Spark equivalente. ● A AEL cria uma definição de transformação para o Spark, que move a execução diretamente para o cluster, aproveitando a capacidade do Spark de coordenar uma grande quantidade de dados em vários nós.
  • 26. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 AEL – A ideia original ● Começamos por Driver PDI para Spark a partir de uma instância PDI, ponto de partida importante porque usando esta metodologia garantimos que qualquer plug-in que tenhamos desenvolvido / instalado funcionará quando executarmos a transformação (extensibilidade do Pentaho). ● O driver é instalado em um “edge node” do cluster responsável pela execução da transformação. Ao usar a spark, aproveitamos todas as suas características, podenddo executar standalone ou yarn mode/ cluster
  • 27. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 AEL ● Disponível no Pentaho deste Maio/2017 – já estamos na segunda onda de melhorias ( agora Streaming, Kafka, etc) . ● Enviei 4 vezes a proposta disso a 3 eventos diferentes, nunca ninguém entendeu a proposta da AEL! ● “Obrigado TDC Florianópolis” e os coodenadores por me entenderem
  • 28. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Spark - RDD ● O Spark trabalha com datasets chamado RDD ● Uma transformação (não é o mesmo que uma transformação PDI) descreve como produzir um novo RDD de um anterior: ● Uma ação executa um conjunto de transformações para produzir um resultado.
  • 29. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Spark - RDD ● O executor é o “trabalhador” no Spark ● Um RDD representa um dataset inteiro, que é dividido em partitions ● As divisões de arquivos do Hadoop geralmente definem o particionamento para RDD baseado em arquivo. ● Dados paralelizados pelo Spark Driver são divididos entre os executores
  • 30. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Spark - Tasks ● Representa a execução de transformações do Spark em uma partição de dados ● Cores especificam o número máximo de tarefas simultâneas a serem executadas ● Efetivamente, o número máximo de threads de processamento por executor
  • 31. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 AEL – Arquitetura – Visão Geral
  • 32. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Spark – Directed Acyclic Graph (DAG) ● Dirigido = Arestas podem ser percorridos em uma única direção ● Acíclico = Não há ciclos no grafos (você não pode visitar novamente um vértice) ● Grafos = Coleção de Vértices e Arestas
  • 33. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Transformações PDI como Spark DAGs ● Cada step executada como uma ou mais transformações do Spark ● A maioria dos steps são executados como transformações Spark - Utiliza o método processRow() do Kettle StepInterface - O mecanismo do PDI não executada no contexto do Spark, e sim como PMR (Pentaho MapReduce) - Muitas implementações processRow() existentes podem ser executadas em paralelo RDD’ = RDD.mapPartitions( processRow() )
  • 34. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Exemplo ● Hadoop File Input = Built-in Spark Input (Partitions data) ● Calculator = Generic Kettle Step (Partitioned) ● Sort rows = Built-in Spark Sort ● Hadoop File Output = Built-in Spark Output
  • 35. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 AEL – Kettle Engine ● Cada step é executado dentro de uma thread - As threads chamam um metodo chamado processRow() ● Ao executar, as linhas são roteadas pela transformação
  • 36. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 AEL – Kettle Engine - Paralelismo ● Podemos configurar o numero de copias para inicialização
  • 37. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Querys simples e implementação fácil ● Cloudera usa Hive on Spark com Hive2 ● Hortonworks use SparkSQL via Simba
  • 38. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Steps que não tem paralelização
  • 39. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Dataset Coalescing Coalesce(1)● A operação de Coalescing pode ser usada para mesclar as partições de um RDD ● Alguns ids de etapa são definidos na lista forceCoalesceSteps ● Configurável em org.pentaho.pdi.engine.spark .cfg
  • 40. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 AEL – Arquitetura e Tecnologias ● Implementação em Spark ● O que é o Daemon? - Servidor web Lightweight Spring Boot - Orquestra as transformações em execução ● O que temos do Daemon? ● - Karaf / OSGi - Spark Modes - Rede DMZ - Menos configurações para o desenvolvedor do PDI
  • 41. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Websockets (JSR 356) ● Uso de padrões ● comunicação de 2 vias ● Interface e API orientada para anotações ● Mensagens leves ● Protegido pelo Spring Security (JAAS / Kerberos) ● Pode ser balanceado a carga ● Expansível para futuros recursos
  • 42. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Segurança ● SSL(SecureSockets Layer) - Criptografar dados enviados pela rede ● Kerberos - Mecanismo de autenticação - Alavancar o KDC (Key Distribution Center) existente - Servidor Spoon / Pentaho para Daemon & Daemon -> Spark ● Proxy User - Usado quando conectado ao servidor Pentaho - Permite um usuário Pentaho executar jobs como esse usuário. ● Configuração simplificada
  • 43. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Compatibilidade e Suporte da AEL (Pentaho 8.0) ● Cloudera version 5.10 ou superior ● Hortonworks 2.5 ou superior ● MapR Spark 2.1 ● Ou seu Cluster 100% Apache! ● Spark Client 2x. ● Microsoft Azure HD Insights shim ● Ranger support ● Kerberos Impersonation (Hortonworks) – Somente na EE ● Spark Streaming ● Kafka
  • 44. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Machine Learning e Data Science inclusive R, Python, WEKA com Spark ● Automação e orquestração do fluxo
  • 45. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Orquestraçao total com Pentaho
  • 46. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Resumo AEL ● Pentaho Data Integration Hadoop Map Reduce E Java Apache Spark e Scala,Python,Java Apache Flink Java e Scala Quem é o próximo?
  • 47. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Setup AEL ● Step-by-Step https://help.pentaho.com/Documentation/8.0/Setup/Configuration/Adaptive_Execution_Layer ● Download Pentaho Data Integration https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/client-tools/ ● Download Apache Spark http://spark.apache.org/downloads.html ● Download Pentaho Shmis https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/shims/
  • 48. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Referências ● Pentaho World 2017 - Dev-by-Dev: PDI Engine and Adaptive Execution, Under the Hood - Design Patterns Leveraging Spark in PDI - Parallelism with the PDI AEL Spark Engine ● Blog Pedro Alves - http://pedroalves-bi.blogspot.com.br/2017/05/pentaho-7.1.html ● Pentaho Day 2017. Pentaho 7, Visão e Roadmap
  • 49. Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira @ambientelivre https://www.linkedin.com/in/mvieira1/ Slide da Palestra será publicada em: Linkedin….: https://www.linkedin.com/in/mvieira1/ SlideShare: http://slideshare.net/ambientelivre/ Blog……...: http://blogs.ambientelivre.com.br/marcio/ - Pedro está feliz de novo! - E voltou a seguir Matt! - É usuário Pentaho fiel! - Pedro e um Data Scientist