2. Alexandre Uehara
● Analista Desenvolvedor (E-commerce)
● Coordenador Trilha Big Data (TDC
2013)
http://www.thedevelopersconference.com.
br/tdc/2013/saopaulo/trilha-bigdata#programacao
● Geek e nerd, trabalha com Python,
Java, C, BigData, NoSQL, e outras
coisas mais que aparecem no dia a dia
5. Dia 1:
Introdução
Conceitos Básicos
Big Data
→ O que é?
→ 4 V's
→ Por que
agora?
→ Onde Usar?
→ Desafio
→ BI x Big Data
→Profissional de
Big Data
→ Ferramentas
→ Dicas
6. Dia 2 e 3:
Map Reduce e
Hadoop
→ História
(Google)
→ Conceito
MapReduce
→ Hadoop
→ Cases
33. Framework open source para escrever e
processar de forma escalável, aplicações
distribuídas com grandes volumes de
dados
Definição
34. ● Para executivos: projeto de software livre da Apache que tem como objetivo obter
valor do volume/velocidade/variedade incrível de dados sobre sua organização.
Use os dados em vez de jogar a maioria fora.
● Para gerentes técnicos: um conjunto de softwares livres que mina o BigData
estruturado e não estruturado de sua empresa. Ele integra com seu ecossistema
existente de Business Intelligence.
● Para o Jurídico: um conjunto de software livre empacotado e suportado por
diversos fornecedores
● Para a Engenharia: um ambiente de execução Mapear/Reduzir massivamente
paralelo, sem compartilhamento e baseado em Java.
O que é
35. ● Código aberto - Licença Apache
Software Foundation
● Implementado em Java
● Inspirado no GFS e MapReduce do
Google
● Projeto top-level da Fundação Apache
O que é
36. ● Máquinas comuns - hardware comodities
(de baixo custo, de baixa confiabilidade)
● Rede comum
● Tolerância a falhas automática
● Poucos administradores
● Facilidade de uso
● Poucos programadores
● Foco na regra de negócio
Vantagens
53. Nó Master
Nó Slave
● DataNode
● TaskTracker
● NameNode
● SecondaryNameNode
● JobTracker
54. Nó Master
● NameNode
● Nó master (apesar de master
não armazena nada)
● Só tem metadados
● Ele é o core, o daemon vital
55. Nó Master
● SecondaryNameNode
● Monitora o estado dos clusters (se um
cair ele sabe o que fazer)
● Cuida do log
● Um único SNN para cada cluster
● Não armazena dados
● De tempos em tempos faz o merge dos
dados
56. Nó Master
● JobTracker
● Ligações entre as Aplicações e o
Hadoop
● Em caso de falha, ele quem sabe o que
fazer
57. Nó Slave
● DataNode
● armazena dados
● Datanodes se reportam a
namenodes
● separa em no mínimo 3
réplicas
● se cai sistema não perde os
dados
59. Nó Master
Nó Slave
● DataNode (armazena dados)
● TaskTracker (executa)
● NameNode (core)
● SecondaryNameNode (monitora)
● JobTracker (liga a aplicação/Hadoop)
62. ● Garante alto gerenciamento, confiabilidade,
usabilidade e desempenho
● Divide em poucos arquivos grades (padrão 64MB)
● Vai distribuindo cada parte para cada nó
● Recuperação é transparente
HDFS
63. ● Todos os arquivos no HDFS possuem múltiplas
réplicas (3 réplicas)
● Cada réplica em um nó diferente
● Ex: se tiver arquivo de 256MB, vai dividir em 4
blocos de 64MB, e cada bloco dividido em 3
máquinas diferentes para garantir redundâcia
e tolerancia a falha
HDFS
69. Hadoop Facts
● Não é banco de dados
● Processamento background
● Tudo entra por um nó principal
(master) - um ponto de falha
● Precisa ser "Alimentado" com
dados. (como colocar 30TB onde vai
rodar o Hadoop?)
77. Recomendações: Quem você
pode conhecer
Análise de logs e e
minerar dados para
sistema de recomendação
Gerar conteúdo e
agregar dados, fazer
análise e relatórios