Big Data Anti-Patterns: Lessons From the Front LIne

Big Data Anti-Patterns:
Lessons from the Front Lines
Strata NYC
October 17, 2014
Douglas Moore

| 2
About Douglas Moore
 Think Big – 3 Years
- Delivery
• BDW, Search, Streaming
- Roadmaps
- Tech Assessments
2
 Before Big Data
- Data Warehousing
- OLTP
- Systems Architecture
- Electricity
- High End Graphics
- Supercomputers
- Numerical Analysis
Contact me at:
@douglas_ma

| 3
Think Big
3
 4yr Old “Big Data” Professional Services Firm
- Roadmaps
- Engineering
- Data Science
- Hands on Training
Recently acquired by Teradata
• Maintaining Independence

| 4
Content Drawn From Vast Amounts of Experience
4
…
50+ Clients
Leading
security
software
vendor
Leading
Discount
Retailer

| 5
Introduction
 I started out with just 3 topics…
 Then while on the road to Strata,
 I met 7 big data architects
- Who had 7 clients
• Who had 7 projects
• That demonstrated 7 Anti-Patterns
5
Big Data Anti-pattern:
“Commonly applied but bad solution”
I95 Wikipedia

| 6
Three Focus Areas
• Hardware and Infrastructure
• Tooling
• Big Data Warehousing
6

[Image source: HP: The transformation
to HP Converged Infrastructure]
| 7
Hardware & Infrastructure
 Reference Architecture Driven
- 90’s & 00’s data center patterns
- Servers MUST NOT FAIL
- Standard Server Config
• $35,000/node
• Dual Power supply
• RAID
• SAS 15K RPM
• SAN
• VMs for Production
• Flat Network
7
Automated provisioning is a good thing!

 Co-locate data and compute
 Locally Attached Storage
 Localize & isolate network traffic
 Rack Awareness
| 8
#1 Locality
 Locality Locality Locality
- Bring Computation to Data
8
Hadoop Cluster VM Cluster
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
CPU
core
CPU
core
CPU
core
CPU
core
disk core
disk
CPU
disk
disk
disk
CPU
core
disk
disk
disk
disk
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
CPU
core
CPU
core
CPU
core
CPU
core
disk core
disk
CPU
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
...
CPU
coCrePU
CPU
coCrePU
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
CPU
core
disk
disk
CPU
coCrePU
disk
disk
CPU
coCrePU
disk
disk
disk
disk
disk
disk
disk
disk
disk
disk
disk
CPU
coCrePU
disk
disk
disk
disk
disk
disk
disk
disk
disk
CPU
coCrePU
coCrePU
coCrPeU
core
core
CPU
coCrePU
coCrePU
coCrePU
core
CPU
coCrePU
coCrePU
coCrPeU
core
core
CPU
coCrePU
coCrePU
coCrePU
core
CPU
coCrePU
coCrePU
coCrPeU
core
core
CPU
coCrePU
coCrePU
coCrePU
core
CPU
coCrePU
coCrePU
coCrPeU
core
core
CPU
coCrePU
coCrePU
coCrePU
core
CPU
coCrePU
coCrePU
coCrPeU
core
core
CPU
coCrePU
coCrePU
coCrePU
core
VS.

| 9
#2 Sequential IO
 Sequential IO >> Random Access
9
http://www.eecs.berkeley.edu/~rcs/research/interactive_latency.html
 Large block IO
 Append only writes
 JBOD
Image credit: Wikipedia.org

|  Increase # parallel components
- Reduce component cost
 Data block replication
- Availability
- Performance
 Commodity++ (2014)
- High density data nodes
- $8-12,000
- ~12 drives
- ~12-16 cores
- Buy 4-5 servers for the cost of 1
• 4-5x spindles
• 4-5x cores
#3 Increase parallelism
10
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
CPU
core
CPU
core
CPU
core
CPU
core
disk core
disk
CPU
disk
disk
disk
CPU
core
disk
disk
disk
disk
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
CPU
core
CPU
core
CPU
core
CPU
core
disk core
disk
CPU
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
...

|  Expect Failure1,2  Rack Awareness
 Data Block Replication
 Task Retry
 Node Black Listing
 Monitor Everything
 Name Node HA
#4 Failure
11
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
CPU
core
CPU
core
CPU
core
CPU
core
disk core
disk
CPU
disk
disk
disk
CPU
core
disk
disk
disk
disk
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
disk core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
core
CPU
CPU
core
CPU
core
CPU
core
CPU
core
disk core
disk
CPU
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
disk
disk
disk
disk
CPU
core
disk
disk
disk
disk
...

| Tooling
 Hadoop Ecosystem Tools
12

| Tooling: Just looking inside the box
 “If it came in the box then I should use it”
 Example
- Oozie for scheduling
13
Best Practice:
• Use your current enterprise scheduler

| Tooling: NoSQL
14
• “Now I have all of my log data
in NoSQL, let’s do analytics
over it”
 Example
- Streaming data into Mongo DB
• Running aggregates
• Running MR jobs

| Best Practice
15
Best Practice:
• Split the stream
• Real-time access in NoSQL
• Batch analytics in Hadoop

|  Key Purpose
- Integrate legacy code
- Integrate analytic tools
• Data science libs
Right Framework, Right Need…
 Hadoop supports integrating
any type of application tooling
- Hadoop Streaming
• Python
• R
• C, C++
• Fortran
• Cobol
• Ruby
18

| Right Use Case – ETL, Wrong Framework
 Got to love Ruby
- Very Cool (or it was)
- Dynamic Language
- Expressive
- Compact
- Fast Iteration
 Got to Hate Ruby
- Slow
- Hard to follow & debug
- Does not play well with
threading
19
“It’s much faster to develop in,
developer time is valuable,
just throw a couple more boxes at it”
Bench tested at 5,000 records /
second

| Right Use Case – ETL, Wrong Framework…
20
DO THE MATH:
Storm Java: ~ 1MM+ events / second / Server
Storm Ruby: 5000 * 12 cores = 60,000 events / second / Server
= 16.67 times more servers
“Test and Learn!”
Best Practice:
• Write new code in fastest execution framework
• High value legacy code, analytic tools use Hadoop Streaming

| Big Data Warehousing
 #1 ETL Offload
 #2 Data Warehousing
21

| Right Schema
22
3NF - Transactional Source System Schema
order
customer
order line
product
contract
sales_person
Dimensional Schema
customer contract
order
product
order
line
sales_person
Data Warehouse
Hadoop
OLTP
customer contract order order line product sales_person
De-normalized schema

| 23
Right Workload, Right Tool
Workload Hadoop NoSQL MPP, Reporting
DBs, Mainframe
ETL
Business Intelligence
Cross business reporting
Sub-set analytics
Full scan analytics
Decision Support TBs-PBs GB-TBs
Operational Reports
Complex security requirements
Search
Fast Lookup

| Summary
 Understand strengths & weaknesses of each choice
- Get help if needed
 Deploy the right tool for the right workload
 Test and Learn
24

| Thank You
25
Douglas Moore
@douglas_ma
Work with the best on a wide variety of cool projects:
• recruiting@thinkbiganalytics.com

Work with the
Leading Innovator in Big Data
DATA SCIENTISTS
DATA ARCHITECTS
DATA SOLUTIONS
Think Big Start Smart Scale Fast
26

Big Data Anti-Patterns: Lessons From the Front LIne

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Big Data Anti-Patterns: Lessons From the Front LIne

Similar to Big Data Anti-Patterns: Lessons From the Front LIne (20)

Recently uploaded

Recently uploaded (20)

Big Data Anti-Patterns: Lessons From the Front LIne

Editor's Notes