Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Apache Hadoop - Introdução

2,529 views

Published on

Apresentação realizada na aula de TIN no dia 16 de novembro de 2010.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Apache Hadoop - Introdução

  1. 1. Introdução Apache Hadoop Anne Kelly Diógenes Peçanha Glauco Vinicius 16 de Novembro de 2010
  2. 2. Tópicos Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas
  3. 3. Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo 90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final 00's ???
  4. 4. O que é NoSQL? Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal
  5. 5. O que é Hadoop? Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de dados através de computadores 'commodity'.
  6. 6. Dois principais componentes HDFS Map/Reduce Tolerância a falhas Processamento distribuído Auto-recuperação Alto consumo de banda Armazenamento em cluster
  7. 7. O que torna o Hadoop especial?
  8. 8. Máquinas são confiáveis
  9. 9. Máquinas possuem identidades
  10. 10. Sua análise permanece em apenas uma máquina
  11. 11. Como isso é possível?
  12. 12. Componentes NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)
  13. 13. HDFS
  14. 14. O Modelo de Map/Reduce Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante
  15. 15. Hands on
  16. 16. O que é Hive? Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces próprios Ótimo para processamento em lote de dados imutáveis
  17. 17. O que Hive não é? Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time
  18. 18. Hive Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados
  19. 19. Hands on
  20. 20. Dúvidas?
  21. 21. Referências Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/
  22. 22. Obrigado!

×