Treinamento hadoop - dia3

Alexandre Uehara
Alexandre UeharaConsultor Inovação at Inovação
Treinamento Hadoop
Parte 3
Alexandre Uehara
● Analista Desenvolvedor (E-commerce)
● Coordenador Trilha Big Data (TDC
2013)
http://www.thedevelopersconference.com.
br/tdc/2013/saopaulo/trilha-bigdata#programacao
● Geek e nerd, trabalha com Python,
Java, C, BigData, NoSQL, e outras
coisas mais que aparecem no dia a dia
Nossa
Agenda:
Dia 3!!!
Dia 1:
Introdução
Conceitos Básicos
Big Data
→ O que é?
→ 4 V's
→ Por que
agora?
→ Onde Usar?
→ Desafio
→ BI x Big Data
→Profissional de
Big Data
→ Ferramentas
→ Dicas
Dia 2 e 3:
Map Reduce e
Hadoop
→ História
(Google)
→ Conceito
MapReduce
→ Hadoop
→ Cases
Dia 4
Outras
Ferramentas
→ Ecossistema
→ Ferramentas
→ Distribuições
Hadoop
→ Hadoop na
Nuvem
→ NoSQL Tipos
→ NoSQL
Exemplos
→ Data Science
→ Machine
Learning
Dia 5, 6 e 7
Hands-on
→ Pyhton
→ Hadoop
Resumo...
Treinamento hadoop - dia3
Treinamento hadoop - dia3
Treinamento hadoop - dia3
Treinamento hadoop - dia3
Treinamento hadoop - dia3
Big data
Big data ferramenta
Big data Hadoopferramenta
Big data Hadoopferramenta
A partir dele
criou-se
Big data Hadoop
MapReduce
ferramenta
A partir dele
criou-se
Big data Hadoop
MapReduce
ferramenta
A partir dele
criou-se
Criou
Big data Hadoop
MapReduceGoogle
ferramenta
A partir dele
criou-se
Criou
Google Map
Reduce
Map Reduce
Google Map
Reduce
Map Reduce Google
FileSystem
Google Map
Reduce
Por que utilizamos Map Reduce +
GFS?
Por que utilizamos Map Reduce +
GFS?
● Escalável
● Econômico
● Eficiente
● Confiável
Map Reduce
● Decompõe tudo em ???
Map Reduce
● Decompõe tudo em Pares - chave :
valor
● Depois???
Map Reduce
● Decompõe tudo em Pares - chave :
valor
● Depois sumariza os resultados
Treinamento hadoop - dia3
Por que um elefante amarelo?
Por que Hadoop?
Treinamento hadoop - dia3
Framework open source para escrever e
processar de forma escalável, aplicações
distribuídas com grandes volumes de
dados
Definição
● Para executivos: projeto de software livre da Apache que tem como objetivo obter
valor do volume/velocidade/variedade incrível de dados sobre sua organização.
Use os dados em vez de jogar a maioria fora.
● Para gerentes técnicos: um conjunto de softwares livres que mina o BigData
estruturado e não estruturado de sua empresa. Ele integra com seu ecossistema
existente de Business Intelligence.
● Para o Jurídico: um conjunto de software livre empacotado e suportado por
diversos fornecedores
● Para a Engenharia: um ambiente de execução Mapear/Reduzir massivamente
paralelo, sem compartilhamento e baseado em Java.
O que é
● Código aberto - Licença Apache
Software Foundation
● Implementado em Java
● Inspirado no GFS e MapReduce do
Google
● Projeto top-level da Fundação Apache
O que é
● Máquinas comuns - hardware comodities
(de baixo custo, de baixa confiabilidade)
● Rede comum
● Tolerância a falhas automática
● Poucos administradores
● Facilidade de uso
● Poucos programadores
● Foco na regra de negócio
Vantagens
http://thoughtworks.fileburst.com/assets/technology-radar-jan-2014-pt.pdf
Sub-Projetos
Hadoop
Map Reduce Google
FileSystem
Google Map
Reduce
Hadoop
MapReduce
HDFS
Hadoop
Hadoop
MapReduce
HDFS
Hadoop
Hadoop
Commons
● HDFS - Sistema de Armazenamento de
Dados distribuidos (Hadoop
Distributed File System)
● Map Reduce - Processamento paralelo
● Hadoop Commons - abstração
Serviços Chave
Arquitetura Hadoop
Nó Master
Nó Slave
Nó Master
Nó Master
Nó Master
Nó Slave
Nó Master
Nó Slave
Nó Master
Nó Master
● NameNode
● SecondaryNameNode
● JobTracker
Nó Slave
Nó Slave
● DataNode
● TaskTracker
Nó Master
Nó Slave
● DataNode
● TaskTracker
● NameNode
● SecondaryNameNode
● JobTracker
Nó Master
● NameNode
● Nó master (apesar de master
não armazena nada)
● Só tem metadados
● Ele é o core, o daemon vital
Nó Master
● SecondaryNameNode
● Monitora o estado dos clusters (se um
cair ele sabe o que fazer)
● Cuida do log
● Um único SNN para cada cluster
● Não armazena dados
● De tempos em tempos faz o merge dos
dados
Nó Master
● JobTracker
● Ligações entre as Aplicações e o
Hadoop
● Em caso de falha, ele quem sabe o que
fazer
Nó Slave
● DataNode
● armazena dados
● Datanodes se reportam a
namenodes
● separa em no mínimo 3
réplicas
● se cai sistema não perde os
dados
Nó Slave
● TaskTracker
● responsável pela execução
designada pelo JobTracker
Nó Master
Nó Slave
● DataNode (armazena dados)
● TaskTracker (executa)
● NameNode (core)
● SecondaryNameNode (monitora)
● JobTracker (liga a aplicação/Hadoop)
Treinamento hadoop - dia3
Treinamento hadoop - dia3
● Garante alto gerenciamento, confiabilidade,
usabilidade e desempenho
● Divide em poucos arquivos grades (padrão 64MB)
● Vai distribuindo cada parte para cada nó
● Recuperação é transparente
HDFS
● Todos os arquivos no HDFS possuem múltiplas
réplicas (3 réplicas)
● Cada réplica em um nó diferente
● Ex: se tiver arquivo de 256MB, vai dividir em 4
blocos de 64MB, e cada bloco dividido em 3
máquinas diferentes para garantir redundâcia
e tolerancia a falha
HDFS
Treinamento hadoop - dia3
Treinamento hadoop - dia3
Comunicação
ComunicaçãoSSH
Treinamento hadoop - dia3
Hadoop Facts
● Não é banco de dados
● Processamento background
● Tudo entra por um nó principal
(master) - um ponto de falha
● Precisa ser "Alimentado" com
dados. (como colocar 30TB onde vai
rodar o Hadoop?)
Treinamento hadoop - dia3
Cases
Armazena log, como fontes de
estudos analíticos e machine
learning
Armazena log, como fontes de
estudos analíticos e machine
learning
Otimização de buscas e
pesquisas
Armazena log, como fontes de
estudos analíticos e machine
learning
Otimização de buscas e
pesquisas
Cálculo de gráfico,
análise de log, teste
A/B
Recomendações: Quem você
pode conhecer
Recomendações: Quem você
pode conhecer
Análise de logs e e
minerar dados para
sistema de recomendação
Recomendações: Quem você
pode conhecer
Análise de logs e e
minerar dados para
sistema de recomendação
Gerar conteúdo e
agregar dados, fazer
análise e relatórios
Armazenar e processar
tweets, arquivos de
logs, e outras coisas
mais
Armazenar e processar
tweets, arquivos de
logs, e outras coisas
mais
Armazenar e processar
tweets, arquivos de
logs, e outras coisas
mais
Um resumo, Big Data, Map Reduce, Hadoop
Alexandre Uehara
@AleUehara
linkedin.com/in/aleuehara
uehara.alexandre@gmail.com
slideshare.net/aleuehara
1 of 82

More Related Content

What's hot(20)

Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
Thiago Santiago2.5K views
Seminário HadoopSeminário Hadoop
Seminário Hadoop
Ivanilton Polato1.7K views
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
Felipe RENZ - MBA TI / Big 2.3K views
Hadoop - Primeiros passosHadoop - Primeiros passos
Hadoop - Primeiros passos
Sensedia14.9K views
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
Flavio Fonte, PMP, ITIL53.1K views
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
Amazon Web Services LATAM2.9K views
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
Adriano Rodrigo Guerreiro Laranjeira1.1K views
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Ricardo Wendell Rodrigues da Silveira3.3K views
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
Ambiente Livre1.1K views
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
Ambiente Livre757 views
HadoopHadoop
Hadoop
Gustavo De Lima Rosolen701 views
Big DataBig Data
Big Data
Randy Ambrosio Qj882 views
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Leonardo Dias6.7K views

Viewers also liked(20)

Business AnalyticsBusiness Analytics
Business Analytics
Petronio Candido1.6K views
Qmeeting Conceitos_qlik_sense_PabloQmeeting Conceitos_qlik_sense_Pablo
Qmeeting Conceitos_qlik_sense_Pablo
Roberto Oliveira999 views
Open Source Business IntelligenceOpen Source Business Intelligence
Open Source Business Intelligence
Daniel Rabelo1.7K views
Trabalho BI QlikviewTrabalho BI Qlikview
Trabalho BI Qlikview
Jose Silva1.1K views
Business intelligence com QlikViewBusiness intelligence com QlikView
Business intelligence com QlikView
Toccato Tecnologia - QlikView2.4K views
Apresentação QlikViewApresentação QlikView
Apresentação QlikView
Alexandre da Silva2K views
PentahoPentaho
Pentaho
Tiago Barreto4.8K views
Aula qlikview tipo de licençasAula qlikview tipo de licenças
Aula qlikview tipo de licenças
Roberto Oliveira6.1K views
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
BDA Solutions | Big Data & Analytics1.6K views
Qlikview com Google MapsQlikview com Google Maps
Qlikview com Google Maps
carlos_h_ramos1.2K views
QlikBrandQlikBrand
QlikBrand
Guilherme Torres631 views

Similar to Treinamento hadoop - dia3

HadoopHadoop
HadoopGustavo De Lima Rosolen
382 views34 slides
HadoopHadoop
HadoopBruno Dadalt Zambiazi
1.1K views24 slides
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSMLuciano Vargas
368 views17 slides

Similar to Treinamento hadoop - dia3(20)

HadoopHadoop
Hadoop
Gustavo De Lima Rosolen382 views
HadoopHadoop
Hadoop
Bruno Dadalt Zambiazi1.1K views
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
rhpinotti148 views
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
Alessandro Binhara1.3K views
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
Luciano Vargas368 views
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
Ambiente Livre2.2K views
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
José Renato Pequeno849 views
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
FaBIana Ravanêda Vercezes1.2K views
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
Roberto Oliveira487 views
Big DataBig Data
Big Data
Suzana Viana Mota261 views
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
Meritt - Cada Aluno é Único1.1K views
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
Elton Meira2K views
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no Hadoop
Big Data Week São Paulo528 views
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
tdc-globalcode327 views
Big dataBig data
Big data
Maria Luiza Vasconcelos809 views

More from Alexandre Uehara(20)

Metodologia Ágil - Acelera ImpactoMetodologia Ágil - Acelera Impacto
Metodologia Ágil - Acelera Impacto
Alexandre Uehara132 views
Métodos Ágeis - ESPM 2018 (Inovação)Métodos Ágeis - ESPM 2018 (Inovação)
Métodos Ágeis - ESPM 2018 (Inovação)
Alexandre Uehara125 views
Inovação - Google Campus 2018Inovação - Google Campus 2018
Inovação - Google Campus 2018
Alexandre Uehara79 views
Scrum para RH e Financeiro (Alelo)Scrum para RH e Financeiro (Alelo)
Scrum para RH e Financeiro (Alelo)
Alexandre Uehara590 views
FintechFintech
Fintech
Alexandre Uehara295 views
ChatbotChatbot
Chatbot
Alexandre Uehara1.1K views
Machine learning for dummiesMachine learning for dummies
Machine learning for dummies
Alexandre Uehara2.1K views

Treinamento hadoop - dia3