Hadoop in three use cases

2 December 2011

Hadoop in Three Use Cases
Joey Echeverria | Solutions Architect
joey@cloudera.com | @fwiffo

About Joey

• Solutions Architect
• 6 months
• 3+ years
• Local

2
©2011 Cloudera, Inc. All Rights Reserved.

Cloudera’s Distribution including Apache Hadoop

File System Mount UI Framework SDK
FUSE-DFS HUE HUE SDK

Workflow Scheduling Metadata
APACHE OOZIE* APACHE OOZIE* APACHE HIVE

Languages / Compilers
APACHE PIG, APACHE HIVE Fast Read/Write
Data Integration
Access

APACHE FLUME*,
APACHE SQOOP* APACHE HBASE

Coordination
APACHE ZOOKEEPER

*currently under incubation in the Apache Software Foundation

3
Copyright 2011 Cloudera Inc. All rights reserved

Extract, Transform, and Load

4

ETL before Hadoop
Difficult to maintain, not scalable

Relational
Databases

Logs
Custom ETL Enterprise Data
Scripts Warehouse

Files

5

ETL before Hadoop
May be scalable, expensive

Relational
Databases

Logs Enterprise Data
Warehouse
SQL:
raw table → warehouse tables

Files

6

ETL with Hadoop
Managed, flexible, scalable

Relational
Databases

Logs Enterprise Data
Warehouse

Files

7

Steps

1. In

2. Process

3. Out

8

Flume

9

Flume

10

ETL with Hadoop

Relational
Databases

Enterprise Data
Logs Flume Warehouse

Files

11

HDFS

12

HDFS
02, 06, 10
NameNode

open(“file.txt”) DataNode DataNode DataNode
01 05 09

DataNode DataNode DataNode
02 06 10
Client
data data
data 03 07 11

04 08 12

13

HDFS

• Distributed
• Replication
• Bulk I/O
• Fault tolerant
• Scalable
• Append only
• Not POSIX

14

ETL with Hadoop

Relational
Databases

Enterprise Data
Logs Flume HDFS Warehouse

Files

15

FUSE-DFS

16

FUSE-DFS

• FUSE
– User space
– File systems
• FUSE-DFS
– /hdfs
– Mostly transparent

17

ETL with Hadoop

Relational
Databases

Enterprise Data

FUSE-DFS

Files

18

Sqoop

19

Sqoop

• SQL to Hadoop
• Parallel import
• File formats

20

ETL with Hadoop

Relational
Databases

Sqoop

Enterprise Data

FUSE-DFS

Files

21

Pig

22

Pig

• Scripting language
• Generates MapReduce jobs
• Perl for Hadoop
• Great for ETL
A = LOAD 'data' USING PigStorage() AS (f1:int, f2:int, f3:int);
B = GROUP A BY f1;
C = FOREACH B GENERATE COUNT ($0);
DUMP C;

23

ETL with Hadoop

Relational
Databases Pig

Sqoop

Enterprise Data

FUSE-DFS

Files

24

Sqoop with connectors

25

Sqoop with connectors

• MySQL*
• PostgreSQL*
• Teradata*
• Netezza*
• Oracle*
• Couchbase*
• Microsoft SQL Server
• VoltDB
*Cloudera certified connector

26

ETL with Hadoop

Relational
Databases Pig

Sqoop

Enterprise Data

FUSE-DFS Sqoop

Files

27

Recommendations

28

Recommendations with Hadoop

CUSTOMERS
Relational
Databases

Web
Application

Logs

29

Flume

30


CUSTOMERS
Relational
Databases

Web
Application

Logs Flume

31

HDFS

32


CUSTOMERS
Relational
Databases

Web
Application

Logs Flume HDFS

33

Sqoop

34


CUSTOMERS
Relational
Databases

Web
Sqoop Application

Logs Flume HDFS

35

Pig

36


CUSTOMERS
Relational
Databases

Web
Sqoop Application

Logs Flume HDFS

Pig

37

Mahout

38

Mahout

• Scalable machine learning algorithms
– Collaborative Filtering
– User and Item based recommenders
– K-Means, Fuzzy K-Means clustering
– Mean Shift clustering
– Singular value decomposition
– Complementary Naive Bayes classifier
…

39


CUSTOMERS
Relational
Databases

Web
Sqoop Application

Logs Flume HDFS

Pig Mahout

40

MapReduce

41

MapReduce
map shuffle reduce
:1
toOne()
:1

:1 :[1,1,1,1] count() :4
:[1,1] :2
:1
toOne()
:1

:1 :[1,1] count() :2
:1 :[1] :1
toOne()
:1

:1

42

MapReduce

• Distributed
• Code to data
• Reliable
• Scalable

43


CUSTOMERS
Relational
Databases

Web
Sqoop Application

Logs Flume HDFS

Pig Mahout MapReduce Pig

44

Oozie

45

Oozie

• Workflows
• Coordinator
– Triggers

46


CUSTOMERS
Relational
Databases

Web
Sqoop Application

Logs Flume HDFS
Oozie


47

HBase

48

HBase

• Key/value store
• Data stored in HDFS
• Access model is get/put/del
– Plus range scans and versions
• Random reads and writes for Hadoop

49


CUSTOMERS
Relational
Databases

Web
Sqoop Application

Logs Flume HDFS
HBase Oozie


50

Business Intelligence

51

Business Intelligence with Hadoop

ANALYSTS
Relational
Databases

BI / Analytics

Logs

52

Flume

53


ANALYSTS
Relational
Databases

BI / Analytics

Logs Flume

54

HDFS

55


ANALYSTS
Relational
Databases

BI / Analytics

Logs Flume HDFS

56

Sqoop

57


ANALYSTS
Relational
Databases

Sqoop BI / Analytics

Logs Flume HDFS

58

Hive

59

Hive

• Data warehouse
• Ad-hoc queries
– Not real-time (minutes)
• SQL
• Tables
• Joins

60


ANALYSTS
Relational
Databases


Logs Flume HDFS

Hive

61

MapReduce

62


ANALYSTS
Relational
Databases


Logs Flume HDFS

Hive MapReduce

63

Oozie

64


ANALYSTS
Relational
Databases


Logs Flume HDFS

Oozie

Hive MapReduce

65

HBase

66


ANALYSTS
Relational
Databases


Logs Flume HDFS HBase
Oozie

Hive MapReduce

67

Hive

68

Hive for Business Intelligence

• JDBC
– JasperReports*
– Pentaho*
• ODBC
– MicroStrategy*^

* Vender certified connector
^ Cloudera certified connector

69


ANALYSTS
Relational
Databases


Logs Flume HDFS Hive HBase
Oozie

Hive MapReduce

70

CDH

File System Mount UI Framework SDK
FUSE-DFS HUE HUE SDK

Workflow Scheduling Metadata
APACHE OOZIE* APACHE OOZIE* APACHE HIVE

Languages / Compilers
APACHE PIG, APACHE HIVE Fast Read/Write
Data Integration
Access

APACHE
FLUME*, APACHE APACHE HBASE
SQOOP*

Coordination
APACHE ZOOKEEPER

*currently under incubation in the Apache Software Foundation

71

What’s next?

• Cloudera Training Videos
• CDH Virtual Machines
• Hadoop: The Definitive Guide, 2nd Edition
• Cloudera University
– Developer Training in Columbia, MD
• Dec 13-16, Feb 13-16
– Administrator Training in Herndon, VA
• Jan 4-6
– Private Training

72

We’re Hiring!
• http://www.cloudera.com/company/careers/
• Customer Operations
– Customer Operations Engineer
– Customer Operations Tools Developer
• Customer Solutions
– Solutions Architect
• Engineering
– Senior Data Integration Developer
– Senior Distributed Systems Engineer
– Senior UI Engineer
– Software Quality Engineer
– Technical Writer
• IT/Operations
– Systems Administrator

73

Hadoop in three use cases

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to Hadoop in three use cases

Similar to Hadoop in three use cases (20)

More from Joey Echeverria

More from Joey Echeverria (11)

Hadoop in three use cases