Eric Baldeschwieler Keynote from Storage Developers Conference

Apache Hadoop Today & Tomorrow ,[object Object],[object Object],[object Object],[object Object]

Agenda ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What is Apache Hadoop? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What is it used for? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Apache Hadoop Projects Programming Languages Computation Object Storage Zookeeper (Coordination) Core Apache Hadoop Related Apache Projects HDFS (Hadoop Distributed File System) MapReduce (Distributed Programing Framework) HMS (Management) Table Storage Hive (SQL) Pig (Data Flow) HBase (Columnar Storage) HCatalog (Meta Data)

Everywhere! 2006 2008 2009 2010 The Datagraph Blog 2007

HADOOP @ YAHOO! 40K+ Servers 170 PB Storage 5M+ Monthly Jobs 1000+ Active users © Yahoo 2011

[object Object],CASE STUDY YAHOO! HOMEPAGE ,[object Object],[object Object],[object Object],[object Object],© Yahoo 2011 +160% clicks vs. one size fits all +79% clicks vs. randomly selected +43% clicks vs. editor selected Recommended links News Interests Top Searches

CASE STUDY YAHOO! HOMEPAGE ,[object Object],[object Object],[object Object],[object Object],USER BEHAVIOR CATEGORIZATION MODELS (weekly) SERVING MAPS (every 5 minutes) USER BEHAVIOR ,[object Object],[object Object],[object Object],© Yahoo 2011 SCIENCE HADOOP CLUSTER SERVING SYSTEMS PRODUCTION HADOOP CLUSTER ENGAGED USERS

[object Object],CASE STUDY YAHOO! MAIL ,[object Object],[object Object],[object Object],[object Object],© Yahoo 2011 ,[object Object],[object Object],[object Object],SCIENCE PRODUCTION

A Brief History 2006 – present ,[object Object],[object Object],Apache Hadoop ,[object Object],[object Object],Nascent / 2011 ,[object Object],[object Object],2008 – present … ,[object Object],[object Object],2010 – present …

Traditional Enterprise Architecture Data Silos + ETL Serving Applications Unstructured Systems Traditional ETL & Message buses Traditional ETL & Message buses EDW Data Marts BI / Analytics Traditional Data Warehouses, BI & Analytics Serving Logs Social Media Sensor Data Text Systems …

Serving Applications Unstructured Systems Traditional ETL & Message buses Traditional ETL & Message buses Hadoop Enterprise Architecture Connecting All of Your Big Data EDW Data Marts BI / Analytics Traditional Data Warehouses, BI & Analytics Apache Hadoop EsTsL (s = Store) Custom Analytics Serving Logs Social Media Sensor Data Text Systems …

Serving Applications Unstructured Systems 80-90% of data produced today is unstructured Gartner predicts 800% data growth over next 5 years Traditional ETL & Message buses Traditional ETL & Message buses Hadoop Enterprise Architecture Connecting All of Your Big Data EDW Data Marts BI / Analytics Traditional Data Warehouses, BI & Analytics Serving Logs Social Media Sensor Data Text Systems … Apache Hadoop EsTsL (s = Store) Custom Analytics

What is Driving Adoption? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Big Data Platforms Cost per TB, Adoption Size of bubble = cost effectiveness of solution Source:

Overview ,[object Object],[object Object],[object Object],2 * 10GigE 2 * 10GigE 2 * 10GigE 2 * 10GigE ,[object Object],[object Object],[object Object],[object Object],[object Object],… Rack Switch 1-2U server … Rack Switch 1-2U server … Rack Switch 1-2U server … Rack Switch 1-2U server …

Map/Reduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

HDFS: Scalable, Reliable, Managable ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],` Switch … Switch … Switch … Core Switch Core Switch …

HDFS Use Cases ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

HDFS Architecture Persistent Namespace Metadata & Journal Namespace State Datanodes ,[object Object],[object Object],[object Object],Horizontally Scale IO and Storage Block Storage Namespace Namenode Block Map Heartbeats & Block Reports ,[object Object],NFS b1 b5 b3 JBOD b2 b3 b1 JBOD b3 b5 b2 JBOD b1 b5 b2 JBOD

Client Read & Write Directly from Closest Server Namespace State Horizontally Scale IO and Storage Client 1 open 2 read Client 2 write 1 create End-to-end checksum Namenode Block Map b1 b5 b3 JBOD b2 b3 b1 JBOD b3 b5 b2 JBOD b1 b5 b2 JBOD

Actively maintain data reliability Namespace State Bad/lost block replica Periodically check block checksums Namenode Block Map b1 b5 b3 JBOD b2 b3 b4 JBOD b3 b5 b2 JBOD b1 b5 b2 JBOD 2. copy 3. blockReceived 1. replicate

HBase ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

About Hortonworks – Basics ,[object Object],[object Object],[object Object],[object Object],[object Object]

Game Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Lines of Code Contributed to Apache Hadoop

Apache Hadoop Roadmap ,[object Object],[object Object],[object Object],[object Object],[object Object],2011 ,[object Object],[object Object],[object Object],[object Object],2012 (Alphas in Q4 2011)

Next-Generation Hadoop ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Thank You! ,[object Object],[object Object],[object Object]

Eric Baldeschwieler Keynote from Storage Developers Conference

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Eric Baldeschwieler Keynote from Storage Developers Conference

Similar to Eric Baldeschwieler Keynote from Storage Developers Conference (20)

More from Hortonworks

More from Hortonworks (20)

Recently uploaded

Recently uploaded (20)

Eric Baldeschwieler Keynote from Storage Developers Conference

Editor's Notes