Your SlideShare is downloading. ×
  • Like
Treinamento hadoop - dia3
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Treinamento hadoop - dia3

  • 159 views
Published

Treinamento Hadoop - dia 3

Treinamento Hadoop - dia 3

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
159
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
20
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Treinamento Hadoop Parte 3
  • 2. Alexandre Uehara ● Analista Desenvolvedor (E-commerce) ● Coordenador Trilha Big Data (TDC 2013) http://www.thedevelopersconference.com. br/tdc/2013/saopaulo/trilha-bigdata#programacao ● Geek e nerd, trabalha com Python, Java, C, BigData, NoSQL, e outras coisas mais que aparecem no dia a dia
  • 3. Nossa Agenda:
  • 4. Dia 3!!!
  • 5. Dia 1: Introdução Conceitos Básicos Big Data → O que é? → 4 V's → Por que agora? → Onde Usar? → Desafio → BI x Big Data →Profissional de Big Data → Ferramentas → Dicas
  • 6. Dia 2 e 3: Map Reduce e Hadoop → História (Google) → Conceito MapReduce → Hadoop → Cases
  • 7. Dia 4 Outras Ferramentas → Ecossistema → Ferramentas → Distribuições Hadoop → Hadoop na Nuvem → NoSQL Tipos → NoSQL Exemplos → Data Science → Machine Learning
  • 8. Dia 5, 6 e 7 Hands-on → Pyhton → Hadoop
  • 9. Resumo...
  • 10. Big data
  • 11. Big data ferramenta
  • 12. Big data Hadoopferramenta
  • 13. Big data Hadoopferramenta A partir dele criou-se
  • 14. Big data Hadoop MapReduce ferramenta A partir dele criou-se
  • 15. Big data Hadoop MapReduce ferramenta A partir dele criou-se Criou
  • 16. Big data Hadoop MapReduceGoogle ferramenta A partir dele criou-se Criou
  • 17. Google Map Reduce
  • 18. Map Reduce Google Map Reduce
  • 19. Map Reduce Google FileSystem Google Map Reduce
  • 20. Por que utilizamos Map Reduce + GFS?
  • 21. Por que utilizamos Map Reduce + GFS? ● Escalável ● Econômico ● Eficiente ● Confiável
  • 22. Map Reduce ● Decompõe tudo em ???
  • 23. Map Reduce ● Decompõe tudo em Pares - chave : valor ● Depois???
  • 24. Map Reduce ● Decompõe tudo em Pares - chave : valor ● Depois sumariza os resultados
  • 25. Por que um elefante amarelo? Por que Hadoop?
  • 26. Framework open source para escrever e processar de forma escalável, aplicações distribuídas com grandes volumes de dados Definição
  • 27. ● Para executivos: projeto de software livre da Apache que tem como objetivo obter valor do volume/velocidade/variedade incrível de dados sobre sua organização. Use os dados em vez de jogar a maioria fora. ● Para gerentes técnicos: um conjunto de softwares livres que mina o BigData estruturado e não estruturado de sua empresa. Ele integra com seu ecossistema existente de Business Intelligence. ● Para o Jurídico: um conjunto de software livre empacotado e suportado por diversos fornecedores ● Para a Engenharia: um ambiente de execução Mapear/Reduzir massivamente paralelo, sem compartilhamento e baseado em Java. O que é
  • 28. ● Código aberto - Licença Apache Software Foundation ● Implementado em Java ● Inspirado no GFS e MapReduce do Google ● Projeto top-level da Fundação Apache O que é
  • 29. ● Máquinas comuns - hardware comodities (de baixo custo, de baixa confiabilidade) ● Rede comum ● Tolerância a falhas automática ● Poucos administradores ● Facilidade de uso ● Poucos programadores ● Foco na regra de negócio Vantagens
  • 30. http://thoughtworks.fileburst.com/assets/technology-radar-jan-2014-pt.pdf
  • 31. Sub-Projetos Hadoop
  • 32. Map Reduce Google FileSystem Google Map Reduce
  • 33. Hadoop MapReduce HDFS Hadoop
  • 34. Hadoop MapReduce HDFS Hadoop Hadoop Commons
  • 35. ● HDFS - Sistema de Armazenamento de Dados distribuidos (Hadoop Distributed File System) ● Map Reduce - Processamento paralelo ● Hadoop Commons - abstração Serviços Chave
  • 36. Arquitetura Hadoop
  • 37. Nó Master Nó Slave
  • 38. Nó Master
  • 39. Nó Master
  • 40. Nó Master Nó Slave
  • 41. Nó Master Nó Slave
  • 42. Nó Master
  • 43. Nó Master ● NameNode ● SecondaryNameNode ● JobTracker
  • 44. Nó Slave
  • 45. Nó Slave ● DataNode ● TaskTracker
  • 46. Nó Master Nó Slave ● DataNode ● TaskTracker ● NameNode ● SecondaryNameNode ● JobTracker
  • 47. Nó Master ● NameNode ● Nó master (apesar de master não armazena nada) ● Só tem metadados ● Ele é o core, o daemon vital
  • 48. Nó Master ● SecondaryNameNode ● Monitora o estado dos clusters (se um cair ele sabe o que fazer) ● Cuida do log ● Um único SNN para cada cluster ● Não armazena dados ● De tempos em tempos faz o merge dos dados
  • 49. Nó Master ● JobTracker ● Ligações entre as Aplicações e o Hadoop ● Em caso de falha, ele quem sabe o que fazer
  • 50. Nó Slave ● DataNode ● armazena dados ● Datanodes se reportam a namenodes ● separa em no mínimo 3 réplicas ● se cai sistema não perde os dados
  • 51. Nó Slave ● TaskTracker ● responsável pela execução designada pelo JobTracker
  • 52. Nó Master Nó Slave ● DataNode (armazena dados) ● TaskTracker (executa) ● NameNode (core) ● SecondaryNameNode (monitora) ● JobTracker (liga a aplicação/Hadoop)
  • 53. ● Garante alto gerenciamento, confiabilidade, usabilidade e desempenho ● Divide em poucos arquivos grades (padrão 64MB) ● Vai distribuindo cada parte para cada nó ● Recuperação é transparente HDFS
  • 54. ● Todos os arquivos no HDFS possuem múltiplas réplicas (3 réplicas) ● Cada réplica em um nó diferente ● Ex: se tiver arquivo de 256MB, vai dividir em 4 blocos de 64MB, e cada bloco dividido em 3 máquinas diferentes para garantir redundâcia e tolerancia a falha HDFS
  • 55. Comunicação
  • 56. ComunicaçãoSSH
  • 57. Hadoop Facts ● Não é banco de dados ● Processamento background ● Tudo entra por um nó principal (master) - um ponto de falha ● Precisa ser "Alimentado" com dados. (como colocar 30TB onde vai rodar o Hadoop?)
  • 58. Cases
  • 59. Armazena log, como fontes de estudos analíticos e machine learning
  • 60. Armazena log, como fontes de estudos analíticos e machine learning Otimização de buscas e pesquisas
  • 61. Armazena log, como fontes de estudos analíticos e machine learning Otimização de buscas e pesquisas Cálculo de gráfico, análise de log, teste A/B
  • 62. Recomendações: Quem você pode conhecer
  • 63. Recomendações: Quem você pode conhecer Análise de logs e e minerar dados para sistema de recomendação
  • 64. Recomendações: Quem você pode conhecer Análise de logs e e minerar dados para sistema de recomendação Gerar conteúdo e agregar dados, fazer análise e relatórios
  • 65. Armazenar e processar tweets, arquivos de logs, e outras coisas mais
  • 66. Armazenar e processar tweets, arquivos de logs, e outras coisas mais
  • 67. Armazenar e processar tweets, arquivos de logs, e outras coisas mais
  • 68. Um resumo, Big Data, Map Reduce, Hadoop
  • 69. Alexandre Uehara @AleUehara linkedin.com/in/aleuehara uehara.alexandre@gmail.com slideshare.net/aleuehara