MPP vs Hadoop

1Pivotal Confidential–Internal Use Only 1Pivotal Confidential–Internal Use Only
MPP vs Hadoop
Alexey Grishchenko
HUG Meetup
28.11.2015

2Pivotal Confidential–Internal Use Only
Agenda
Ÿ  Distributed Systems
Ÿ  MPP
Ÿ  Hadoop
Ÿ  MPP vs Hadoop
Ÿ  Summary

Agenda
Ÿ  MPP
Ÿ  Hadoop
Ÿ  MPP vs Hadoop
Ÿ  Summary

Distributed Systems
Avoid distributed systems in all the problems that potentially
could be solved using non-distributed systems

Distributed Systems
Ÿ  Consensus problem
–  Paxos
–  RAFT
–  ZAB
–  etc.
Ÿ  Transaction consistency
–  2PC
–  3PC

Distributed Systems
Ÿ  CAP Theorem

Distributed Systems
http://www.cs.cornell.edu/projects/ladis2009/talks/dean-keynote-ladis2009.pdf

Distributed Systems
Reasons to use
Ÿ  Performance issues
–  More than 100’000 TPS
–  More than 4 GB/sec scan rate
–  More than 100’000 IOPS
Ÿ  Capacity issues
–  More than 50TB of data
Ÿ  DR and Geo-Distribution

Agenda
Ÿ  MPP
Ÿ  Hadoop
Ÿ  MPP vs Hadoop
Ÿ  Summary

MPP
Main principles
Ÿ  Shared Nothing
Ÿ  Data Sharding
Ÿ  Data Replication
Ÿ  Distributed Transactions
Ÿ  Parallel Processing

MPP

MPP
Works well for
Ÿ  Relational data
Ÿ  Batch processing
Ÿ  Ad hoc analytical SQL
Ÿ  Low concurrency
Ÿ  Applications requiring ANSI SQL

MPP
Not the best choice for
Ÿ  Non-relational data
Ÿ  OLTP and event stream processing
Ÿ  High concurrency
Ÿ  100+ server clusters
Ÿ  Non-analytical use cases
Ÿ  Geo-Distributed use cases

Agenda
Ÿ  MPP
Ÿ  Hadoop
Ÿ  MPP vs Hadoop
Ÿ  Summary

Hadoop
Main Components
Ÿ  HDFS
Ÿ  YARN
Ÿ  MapReduce
Ÿ  HBase
Ÿ  Hive / Hive+Tez

Hadoop
HDFS
Ÿ  Distributed filesystem
Ÿ  Block-level storage with big blocks
Ÿ  Non-updatable
Ÿ  Synchronous block replication
Ÿ  No built-in Geo-Distribution support
Ÿ  No built-in DR solution

Hadoop
HDFS

Hadoop
YARN
Ÿ  Cluster resource manager
Ÿ  Manages CPU and RAM allocation
Ÿ  Schedulers are pluggable
Ÿ  Can handle different resource pools
Ÿ  Supports both MR and non-MR workload

Hadoop
YARN

Hadoop
MapReduce
Ÿ  Framework for distributed data processing
Ÿ  Two main operations: map and reduce
Ÿ  Data hits disk after “map” and before “reduce”
Ÿ  Scales to thousands of servers
Ÿ  Can process petabytes of data
Ÿ  Extremely reliable

Hadoop
MapReduce

Hadoop
HBase
Ÿ  Distributed key-value store
Ÿ  Data is sharded by key
Ÿ  Data is stored in sorted order
Ÿ  Stores multiple versions of the row
Ÿ  Easily scales

Hadoop
HBase

Hadoop
Hive
Ÿ  Query engine with SQL-like syntax
Ÿ  Translates HiveQL query to MR / Tez / Spark job
Ÿ  Processes HDFS data
Ÿ  Supports UDFs and UDAFs

Hadoop
Hive

Hadoop
Works well for
Ÿ  Write Once Read Many
Ÿ  100+ server clusters
Ÿ  Both relational and non-relational data
Ÿ  High concurrency
Ÿ  Batch processing and analytical workload
Ÿ  Elastic scalability

Hadoop
Not the best choice for
Ÿ  Write-heavy workloads
Ÿ  Small clusters
Ÿ  Analytical DWH cases
Ÿ  OLTP and event stream processing
Ÿ  Cost savings

Agenda
Ÿ  MPP
Ÿ  Hadoop
Ÿ  MPP vs Hadoop
Ÿ  Summary

MPP vs Hadoop for Business
MPP Hadoop
Platform Openness Mostly Closed Open

MPP Hadoop
Hardware Options Mostly Appliances Commodity

MPP Hadoop
Vendor Lock-in Typical Not Common

MPP Hadoop
Technology Price $200K – $10M $50K – $500K

MPP Hadoop
Implementation Cost Moderate High

MPP Hadoop
Extensibility Vendor-provided APIs Open Source

MPP Hadoop
Supportability Easy Complex

MPP Hadoop
Scalability Up to 100 servers Up to 5000 servers

MPP Hadoop
Scalability Up to 100-300 TB Up to 100 PB

MPP Hadoop
Target Systems DWH Purpose-Built Batch

MPP Hadoop
Target Systems DWH Purpose-Built Batch
Target End Users Business Analysts Developers

MPP vs Hadoop for Architect
MPP Hadoop
Query Optimization Good Poor to None

MPP Hadoop
Debugging Easy Very Hard

MPP Hadoop
Accessibility SQL Mainly Java

MPP Hadoop
DBA Skill Level Low High

MPP Hadoop
Single Job Redundancy Low High

MPP Hadoop
Query Latency 10-20 ms 10-20 sec

MPP Hadoop
Query Runtime 5-7 sec 10-15 mins

MPP Hadoop
Query Max Runtime 1-2 hours 1-2 weeks

MPP Hadoop
Min Collection Size Megabytes Gigabytes

MPP Hadoop
Min Collection Size Megabytes Gigabytes
Max Concurrency 10-15 queries 70-100 jobs

Agenda
Ÿ  MPP
Ÿ  Hadoop
Ÿ  MPP vs Hadoop
Ÿ  Examples
Ÿ  Summary

Summary
Use MPP for
Ÿ  Analytical DWH
Ÿ  Ad hoc analyst SQL queries and BI
Ÿ  Keep under 100TB of data
Use Hadoop for
Ÿ  Specialized data processing systems
Ÿ  Over 100TB of data

52Pivotal Confidential–Internal Use Only 52Pivotal Confidential–Internal Use Only
Questions?

BUILT FOR THE SPEED OF BUSINESS

MPP vs Hadoop

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to MPP vs Hadoop

Similar to MPP vs Hadoop (20)

Recently uploaded

Recently uploaded (20)

MPP vs Hadoop