HADOOP
Aryel Fernandes
Renan Augusto de Miranda
Prof. Dr. Arlindo Flávio da Conceição
O que é?
High-availability distributed object-oriented platform
• Framework dedicado a computação:
• Distribuída
• Escaláv...
O que é?
• Projeto open-source da Apache
• Criado em 2005
• Originalmente parte do Nutch
• Possui API para várias linguage...
HDFS
• Hadoop Distributed File System
• Inspirado no Google File System
• Distribui e replica arquivos entre várias máquin...
HDFS
Componentes
• NameNode
• DataNode
HDFS
NameNode
• Índice de arquivos
• Não guarda os dados em si
• Ponto único de falha
HDFS
DataNode
• Responsável por manter os dados
• Divide arquivos em vários blocos
• Conversam entre si para replicar dados
HDFS
MapReduce
• Aplicado ao Hadoop
• Mappers e Reducers
• Inputs geralmente são arquivos provenientes do HDFS
• Trabalho é fei...
MapReduce
• Mapper
MapReduce
• Reducer
MapReduce
• JobTracker
• Responsável por receber requests de tarefas de
MapReduce
• FIFO por padrão
• Mantém checkpoints
•...
MapReduce
• TaskTracker
• Aceita operações de map ou reduce
• Trabalhos são processado em sandbox
• Possui um número limit...
MapReduce
Shuffle
MapReduce
Overview
MapReduce
Limitações
• Scheduling baseado em slots
• Gargalo em mappers
• Startup de JVMs
Arquitetura Comum
• NameNodes isolados:
• Primário
• Secundário
• Backup
• JobTracker isolado
Arquitetura Comum
Cada nó composto por:
• DataNodes
• TaskTracker
Exemplos de aplicações
•Logging
• Análise de marketing
• Aprendizado de máquina
• Processamento de Imagem
• Web crawling
Hive
• Sumarização, pesquisas e análise
• Provê a HiveQL
HBase
• Banco de dados distribuído
• Inspirado no BigTable
Referências bibliográficas
• http://hadoop.apache.org/
• http://en.wikipedia.org/wiki/Apache_Hadoop
• http://www.cloudera....
Upcoming SlideShare
Loading in …5
×

Sistemas distribuidos - Hadoop

365 views

Published on

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
365
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
15
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Sistemas distribuidos - Hadoop

  1. 1. HADOOP Aryel Fernandes Renan Augusto de Miranda Prof. Dr. Arlindo Flávio da Conceição
  2. 2. O que é? High-availability distributed object-oriented platform • Framework dedicado a computação: • Distribuída • Escalável • Tolerante à falhas
  3. 3. O que é? • Projeto open-source da Apache • Criado em 2005 • Originalmente parte do Nutch • Possui API para várias linguagens
  4. 4. HDFS • Hadoop Distributed File System • Inspirado no Google File System • Distribui e replica arquivos entre várias máquinas • Flexível
  5. 5. HDFS Componentes • NameNode • DataNode
  6. 6. HDFS NameNode • Índice de arquivos • Não guarda os dados em si • Ponto único de falha
  7. 7. HDFS DataNode • Responsável por manter os dados • Divide arquivos em vários blocos • Conversam entre si para replicar dados
  8. 8. HDFS
  9. 9. MapReduce • Aplicado ao Hadoop • Mappers e Reducers • Inputs geralmente são arquivos provenientes do HDFS • Trabalho é feito em cima de pares (chave, valor)
  10. 10. MapReduce • Mapper
  11. 11. MapReduce • Reducer
  12. 12. MapReduce • JobTracker • Responsável por receber requests de tarefas de MapReduce • FIFO por padrão • Mantém checkpoints • Execução especulativa
  13. 13. MapReduce • TaskTracker • Aceita operações de map ou reduce • Trabalhos são processado em sandbox • Possui um número limitado de “slots”
  14. 14. MapReduce Shuffle
  15. 15. MapReduce Overview
  16. 16. MapReduce Limitações • Scheduling baseado em slots • Gargalo em mappers • Startup de JVMs
  17. 17. Arquitetura Comum • NameNodes isolados: • Primário • Secundário • Backup • JobTracker isolado
  18. 18. Arquitetura Comum Cada nó composto por: • DataNodes • TaskTracker
  19. 19. Exemplos de aplicações •Logging • Análise de marketing • Aprendizado de máquina • Processamento de Imagem • Web crawling
  20. 20. Hive • Sumarização, pesquisas e análise • Provê a HiveQL
  21. 21. HBase • Banco de dados distribuído • Inspirado no BigTable
  22. 22. Referências bibliográficas • http://hadoop.apache.org/ • http://en.wikipedia.org/wiki/Apache_Hadoop • http://www.cloudera.com/content/cloudera/en/why-cloudera/hadoop-and-big-data.html • http://wiki.apache.org/hadoop/ • http://developer.yahoo.com/hadoop/tutorial • http://hive.apache.org/ • http://hbase.apache.org/

×