Treinamento Hadoop
Parte 4
Alexandre Uehara
● Analista Desenvolvedor (E-commerce)
● Coordenador Trilha Big Data (TDC
2013)
http://www.thedevelopersco...
Nossa
Agenda:
Dia 4!!!
Dia 1:
Introdução
Conceitos Básicos
Big Data
→ O que é?
→ 4 V's
→ Por que
agora?
→ Onde Usar?
→ Desafio
→ BI x Big Data
→P...
Dia 2 e 3:
Map Reduce e
Hadoop
→ História
(Google)
→ Conceito
MapReduce
→ Hadoop
→ Cases
Dia 4
Outras
Ferramentas
→ Ecossistema
→ Ferramentas
→ Distribuições
Hadoop
→ Hadoop na
Nuvem
→ NoSQL Tipos
→ NoSQL
Exempl...
Dia 5, 6 e 7
Hands-on
→ Python
→ Hadoop
Não aguento!!!
Calma…
Último dia
teórico
Big data
Big data ferramenta
Big data Hadoopferramenta
Big data Hadoopferramenta
A partir dele
criou-se
Big data Hadoop
MapReduce
ferramenta
A partir dele
criou-se
Big data Hadoop
MapReduce
ferramenta
A partir dele
criou-se
Criou
Big data Hadoop
MapReduceGoogle
ferramenta
A partir dele
criou-se
Criou
Map Reduce
Google
FileSystem
Google Map
Reduce
Map Reduce
Google
FileSystem
Google Map
Reduce
Hadoop
Map Reduce
Google
FileSystem
Google Map
Reduce
Hadoop
Map Reduce
Hadoop
Map Reduce
Google
FileSystem
Google Map
Reduce
Hadoop
Map Reduce
HDFS
Hadoop
Map Reduce
Google
FileSystem
Google Map
Reduce
Hadoop
Map Reduce
HDFS
Hadoop
Hadoop
Commons
Map Reduce
● Decompõe tudo em ???
Map Reduce
● Decompõe tudo em Pares - chave :
valor
● Depois???
Map Reduce
● Decompõe tudo em Pares - chave :
valor
● Depois sumariza os resultados
Nó Master
Nó Slave
Nó Master
Nó Slave
● NameNode
Nó Master
Nó Slave
● NameNode
● SecondaryNameNode
Nó Master
Nó Slave
● NameNode
● SecondaryNameNode
● JobTracker
Nó Master
Nó Slave
● DataNode
●
● NameNode
● SecondaryNameNode
● JobTracker
Nó Master
Nó Slave
● DataNode
● TaskTracker
● NameNode
● SecondaryNameNode
● JobTracker
Por que um elefante amarelo?
Por que Hadoop?
Vamos….
vamos!!!
Ecossistema Hadoop
● Banco de Dados Hadoop
● Baseado no Google BigTable
● NoSQL - Orientado a
Colunas
● Leitura e Escrita em Real-
Time
● Fun...
● Sistema de exportação de logs
contendo grande quantidade de dados
para o HDFS
● Um loader em tempo real para
transmissão...
● Ferramenta de exportação de dados de
SGBDs
● Fornece transferência de dados
bidirecional entre o Hadoop e seu
banco de d...
● Biblioteca de algoritmos de
aprendizado de máquina (Machine
Learning) e data mining
● Principal objetivo: ser escalável ...
O Mahout é utilizado quando se é preciso
trabalhar com:
● Matrizes e vetores
● Estruturas esparsas e densas
● Agrupamento
...
● "Coordenador" de serviços
● Permite que os processos
distribuídos em sistemas de grande
porte sincronizem informações um...
● monitoramento e coleta de dados
de sistemas distribuídos
● Gerencia o fluxo de trabalho do
Hadoop
● um "Workflow scheduler"
Storm
● Para processamento em tempo real
distribuído
● Independente de linguagem
● Desenvolvido pelo Twitter
Converte queries SQL em Map
Reduce
Não foi desenhado para
OLTP ou real-time
● Criado pelo Yahoo!
● Linguagem de script
(alto nível) para
MapReduce
● Script com SQL
● A linguagem Pig é
chamada Pig La...
● Problema:
● Exemplo Código PIG:
Users = load `users' as (name, age);
Fltrd = filter Users by age >= 18 and age <= 25;
Pages = load `...
Em 2010, tarefas MapReduce geradas pelo
Pig correspondiam a 70% das tarefas
executadas no Yahoo!
O Pig também é usado pelo...
Usos comuns:
● Processamento de logs de servidores web
● Construção de modelos de predição de
comportamento de usuários
● ...
http://thoughtworks.fileburst.com/assets/technology-radar-jan-2014-pt.pdf
Distribuições
Hadoop
2014 Forrester
Wave for Hadoop
● Custo acessível.
● 5 a 10 anos atrás era impossível
● Apenas para grandes empresas. Hoje startup, consegue
● Custo acessível.
● 5 a 10 anos atrás era
impossível
● Apenas para grandes
empresas. Hoje startup,
consegue
● Amazon Elastic MapReduce (Amazon
EMR)
● Distribui os dados e processa em um
cluster redimensionável de
instâncias do Ama...
● 2007
● Converteu para PDF todos seus os
artigos publicados entre 1851 e 1980
● O Hadoop foi utilizado para converter
4 T...
● Duração 24 horas
● 100 instâncias EC2 da Amazon
● Gerado 1,5 TB de arquivos PDF
● Custo aproximado: US$ 240,00
noSQL
Por que agora?
● Dados crescendo exponencialmente
● Dados não estruturados
● Arquitetura
Compressão 60% a 70% mais eficiente que nos
bancos orientados a linhas.
Principais benefícios
● Acesso rápido a dados (desde que você
possa manter tudo na memória);
● Rápida replicação de dados ...
Que problemas
podem ser
resolvidos (ou as
pessoas acham que
podem resolver)
com a ajuda de
NoSQL e Big Data?
Que problemas
podem ser
resolvidos (ou as
pessoas acham que
podem resolver)
com a ajuda de
NoSQL e Big Data?
Mais
desempen...
SQL x NoSQL
● Consistência e
integridade
● Normalização para
evitar dados
redundantes
● Linguagem
padronizada de
consulta ...
Machine
Learning
É um ramo da inteligência
artificial, onde o aprendizado é
feito a partir de dados.
Machine Learning - como?
1. dados são obtidos e armazenados
2. um modelo de análise é criado
3. quando novos dados chegam,...
Benchmark - Statistcs Programming Language
Linguagem R
● É a linguagem mais usada para Data Scientist (Pesquisa O'Reilley - Janeiro
2014)
● 70% dos Data Miners usam ...
Data
Scientist
As principais habilidades para os
cientistas de dados são:
● algoritmos,
● programas de back-end como JAVA,
● estatísticas...
● manipulação de dados como SAS,
● programas de front-end como
HTML,
● modelos gráficos como análise
estrutural de redes s...
● simuladores,
● estatísticas espaciais,
● dados estruturados como SQL,
● marketing e pesquisa,
● sistemas administrativos...
Hadoop x SQL
Alexandre Uehara
@AleUehara
linkedin.com/in/aleuehara
uehara.alexandre@gmail.com
slideshare.net/aleuehara
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Treinamento hadoop - dia4
Upcoming SlideShare
Loading in...5
×

Treinamento hadoop - dia4

473

Published on

Treinamento hadoop - dia4

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
473
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
53
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Treinamento hadoop - dia4

  1. 1. Treinamento Hadoop Parte 4
  2. 2. Alexandre Uehara ● Analista Desenvolvedor (E-commerce) ● Coordenador Trilha Big Data (TDC 2013) http://www.thedevelopersconference.com. br/tdc/2013/saopaulo/trilha-bigdata#programacao ● Geek e nerd, trabalha com Python, Java, C, BigData, NoSQL, e outras coisas mais que aparecem no dia a dia
  3. 3. Nossa Agenda:
  4. 4. Dia 4!!!
  5. 5. Dia 1: Introdução Conceitos Básicos Big Data → O que é? → 4 V's → Por que agora? → Onde Usar? → Desafio → BI x Big Data →Profissional de Big Data → Ferramentas → Dicas
  6. 6. Dia 2 e 3: Map Reduce e Hadoop → História (Google) → Conceito MapReduce → Hadoop → Cases
  7. 7. Dia 4 Outras Ferramentas → Ecossistema → Ferramentas → Distribuições Hadoop → Hadoop na Nuvem → NoSQL Tipos → NoSQL Exemplos → Data Science → Machine Learning
  8. 8. Dia 5, 6 e 7 Hands-on → Python → Hadoop
  9. 9. Não aguento!!!
  10. 10. Calma… Último dia teórico
  11. 11. Big data
  12. 12. Big data ferramenta
  13. 13. Big data Hadoopferramenta
  14. 14. Big data Hadoopferramenta A partir dele criou-se
  15. 15. Big data Hadoop MapReduce ferramenta A partir dele criou-se
  16. 16. Big data Hadoop MapReduce ferramenta A partir dele criou-se Criou
  17. 17. Big data Hadoop MapReduceGoogle ferramenta A partir dele criou-se Criou
  18. 18. Map Reduce Google FileSystem Google Map Reduce
  19. 19. Map Reduce Google FileSystem Google Map Reduce Hadoop
  20. 20. Map Reduce Google FileSystem Google Map Reduce Hadoop Map Reduce Hadoop
  21. 21. Map Reduce Google FileSystem Google Map Reduce Hadoop Map Reduce HDFS Hadoop
  22. 22. Map Reduce Google FileSystem Google Map Reduce Hadoop Map Reduce HDFS Hadoop Hadoop Commons
  23. 23. Map Reduce ● Decompõe tudo em ???
  24. 24. Map Reduce ● Decompõe tudo em Pares - chave : valor ● Depois???
  25. 25. Map Reduce ● Decompõe tudo em Pares - chave : valor ● Depois sumariza os resultados
  26. 26. Nó Master Nó Slave
  27. 27. Nó Master Nó Slave ● NameNode
  28. 28. Nó Master Nó Slave ● NameNode ● SecondaryNameNode
  29. 29. Nó Master Nó Slave ● NameNode ● SecondaryNameNode ● JobTracker
  30. 30. Nó Master Nó Slave ● DataNode ● ● NameNode ● SecondaryNameNode ● JobTracker
  31. 31. Nó Master Nó Slave ● DataNode ● TaskTracker ● NameNode ● SecondaryNameNode ● JobTracker
  32. 32. Por que um elefante amarelo? Por que Hadoop?
  33. 33. Vamos…. vamos!!!
  34. 34. Ecossistema Hadoop
  35. 35. ● Banco de Dados Hadoop ● Baseado no Google BigTable ● NoSQL - Orientado a Colunas ● Leitura e Escrita em Real- Time ● Funciona sobre o HDFS ● HSQL para quem sabe SQL
  36. 36. ● Sistema de exportação de logs contendo grande quantidade de dados para o HDFS ● Um loader em tempo real para transmissão de seus dados para o Hadoop ● Armazena dados no HDFS e HBase
  37. 37. ● Ferramenta de exportação de dados de SGBDs ● Fornece transferência de dados bidirecional entre o Hadoop e seu banco de dados relacional ● Usa JDBC
  38. 38. ● Biblioteca de algoritmos de aprendizado de máquina (Machine Learning) e data mining ● Principal objetivo: ser escalável para manipular grandes volumes de dados
  39. 39. O Mahout é utilizado quando se é preciso trabalhar com: ● Matrizes e vetores ● Estruturas esparsas e densas ● Agrupamento ● Cobertura ● K-Means ● Análise de densidade de funções ● Filtragem colaborativa
  40. 40. ● "Coordenador" de serviços ● Permite que os processos distribuídos em sistemas de grande porte sincronizem informações um com o outro sem falha, de modo que todos os clientes que fazem solicitações recebam dados consistentes
  41. 41. ● monitoramento e coleta de dados de sistemas distribuídos
  42. 42. ● Gerencia o fluxo de trabalho do Hadoop ● um "Workflow scheduler"
  43. 43. Storm ● Para processamento em tempo real distribuído ● Independente de linguagem ● Desenvolvido pelo Twitter
  44. 44. Converte queries SQL em Map Reduce Não foi desenhado para OLTP ou real-time
  45. 45. ● Criado pelo Yahoo! ● Linguagem de script (alto nível) para MapReduce ● Script com SQL ● A linguagem Pig é chamada Pig Latin
  46. 46. ● Problema:
  47. 47. ● Exemplo Código PIG: Users = load `users' as (name, age); Fltrd = filter Users by age >= 18 and age <= 25; Pages = load `pages' as (user, url); Jnd = join Fltrd by name, Pages by user; Grpd = group Jnd by url; Smmd = foreach Grpd generate group, COUNT(Jnd) as clicks; Srtd = order Smmd by clicks desc; Top5 = limit Srtd 5; store Top5 into `top5sites';
  48. 48. Em 2010, tarefas MapReduce geradas pelo Pig correspondiam a 70% das tarefas executadas no Yahoo! O Pig também é usado pelo Twitter, LinkedIn, Ebay, AOL, etc.
  49. 49. Usos comuns: ● Processamento de logs de servidores web ● Construção de modelos de predição de comportamento de usuários ● Processamento de imagens ● Construção de índices de páginas da web ● Pesquisa em conjuntos de dados “brutos”
  50. 50. http://thoughtworks.fileburst.com/assets/technology-radar-jan-2014-pt.pdf
  51. 51. Distribuições Hadoop
  52. 52. 2014 Forrester Wave for Hadoop
  53. 53. ● Custo acessível. ● 5 a 10 anos atrás era impossível ● Apenas para grandes empresas. Hoje startup, consegue
  54. 54. ● Custo acessível. ● 5 a 10 anos atrás era impossível ● Apenas para grandes empresas. Hoje startup, consegue
  55. 55. ● Amazon Elastic MapReduce (Amazon EMR) ● Distribui os dados e processa em um cluster redimensionável de instâncias do Amazon EC2 ● Hive, Pig
  56. 56. ● 2007 ● Converteu para PDF todos seus os artigos publicados entre 1851 e 1980 ● O Hadoop foi utilizado para converter 4 TB de imagens TIFF em 11 milhões de arquivos PDF
  57. 57. ● Duração 24 horas ● 100 instâncias EC2 da Amazon ● Gerado 1,5 TB de arquivos PDF ● Custo aproximado: US$ 240,00
  58. 58. noSQL
  59. 59. Por que agora? ● Dados crescendo exponencialmente ● Dados não estruturados ● Arquitetura
  60. 60. Compressão 60% a 70% mais eficiente que nos bancos orientados a linhas.
  61. 61. Principais benefícios ● Acesso rápido a dados (desde que você possa manter tudo na memória); ● Rápida replicação de dados / distribuídos por vários nós; ● Esquema flexível (você pode adicionar novas colunas instantaneamente);
  62. 62. Que problemas podem ser resolvidos (ou as pessoas acham que podem resolver) com a ajuda de NoSQL e Big Data?
  63. 63. Que problemas podem ser resolvidos (ou as pessoas acham que podem resolver) com a ajuda de NoSQL e Big Data? Mais desempenho e mais esquemas flexíveis
  64. 64. SQL x NoSQL ● Consistência e integridade ● Normalização para evitar dados redundantes ● Linguagem padronizada de consulta (SQL) ● Escalabilidade ● Tolerância a Falhas ● Modelo de consistência fraco
  65. 65. Machine Learning
  66. 66. É um ramo da inteligência artificial, onde o aprendizado é feito a partir de dados.
  67. 67. Machine Learning - como? 1. dados são obtidos e armazenados 2. um modelo de análise é criado 3. quando novos dados chegam, o modelo é capaz de fazer predições uteis
  68. 68. Benchmark - Statistcs Programming Language
  69. 69. Linguagem R ● É a linguagem mais usada para Data Scientist (Pesquisa O'Reilley - Janeiro 2014) ● 70% dos Data Miners usam R (Pesquisa Rexer - Outubro 2013) ● R está na 15a posição das linguagens de programação mais usadas (RedMonk ranking - Janeiro 2014) ● R está crescendo mais que qualquer outra linguagem de Data Science (Pequisa KDNuggets - Agosto 2013) ● R é a linguagem número 1 no Google Search para Advanced Analytics Software (Google Trends - Março 2014) ● R tem mais de 2 milhões de usuários no mundo (Estimativa Oracle - Fevereiro 2012)
  70. 70. Data Scientist
  71. 71. As principais habilidades para os cientistas de dados são: ● algoritmos, ● programas de back-end como JAVA, ● estatísticas Bayesiana, ● método de Monte Carlo, ● ferramentas como Hadoop para dados massivos, ● negócios, ● estatísticas clássicas,
  72. 72. ● manipulação de dados como SAS, ● programas de front-end como HTML, ● modelos gráficos como análise estrutural de redes sociais, ● machine learning como árvore de decisões e clustering, ● matemática como álgebra linear, ● otimização, ● desenvolvimento do produto, ● design experiencial,
  73. 73. ● simuladores, ● estatísticas espaciais, ● dados estruturados como SQL, ● marketing e pesquisa, ● sistemas administrativos, ● estatísticas temporais como previsão, ● e dados não estruturados como mineração de textos e visualização de dados
  74. 74. Hadoop x SQL
  75. 75. Alexandre Uehara @AleUehara linkedin.com/in/aleuehara uehara.alexandre@gmail.com slideshare.net/aleuehara
  1. Gostou de algum slide específico?

    Recortar slides é uma maneira fácil de colecionar informações para acessar mais tarde.

×