Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Brisk: Truly peer­to­peer Hadoop             srisatish.ambati AT      Apache Cassandra/OpenJDK      @srisatish  ...
Brisk: Hive + Hadoop + Cassandra                                                      @srisatish
Map Reduce                          @srisatish
Have large sets of data & you can     work on small pieces in parallel.                                                   ...
            Map Reduce                 @srisatish
Multi­core map reduce framework,     Kunle, et al                                                               @srisatish
                       Parallel Execution View   @srisatish
JobTracker    NameNode      HDFS                          @srisatish
Write­once­read­many!    File once created, written & closed need change                                                  ...
Move computation, not data                                                  @srisatish
DataNodes: Read, Write Blocks                                                       @srisatish
NameNode: Single Master nodeSingle Machine Address spaceSingle Point of failure                       
When “it” does not fit in a single node!    … Enter the distributed dragon!                  Enter the Cassandra:         ...
NameNode    DataNodes           
Cassandra:     High Scale    Peer­to­peer                             @srisatish
Portfolio DemoLow latency        Live tick prices for stocks.Batch Analytics        Historical EOD prices.        Value at...
Demo URLs (good for this demo only)http://ec2­50­19­4­143.compute­­67­2...
Dynamo, 2007Bigtable, 2006                        OSS, 2008      Incubator, 2009      TLP, 2010
Y                                       Key “C”                           A        W            Cassandra:             Hig...
“dynamic” columnfamilies                         Followingzznate        driftx:   thobbs:driftxthobbs       zznate:jbellis...
Brisk                     @srisatish
Brisk    HowStuffWorks version                                           @srisatish
YDH security edition (soon to be Apache)Apache Hive – Access via SQL likeCassandra 0.8CQL InterfaceApache Thrift          ...
Use ColumnFamiliesinodesblock                                        @srisatish
      String keyspace = “cfs”;     CfDef cf = new CfDef();        cf.setName(inodeDefaultCf);        cf.setComparator_type...
Consistency: R + W > N"", "QUORUM";"brisk.consistencylevel.write", "QUORUM";                   ...
Hadoop: job tracker, task tracker                                             @srisatish
BriskSnitch: brisk nodes, cassandra nodes                                                @srisatish
BriskSimpleSnitch.javaif(TrackerInitializer.isTrackerNode)     {           myDC = BRISK_DC;"Detected...
Hive: SQL­like accesscli, hwi, jdbc, metastorePushdown predicates (v beta2)                                               ...
ETL      Real­time    Cassandra CFs     DataCenters        Scale                               @srisatish
No me in team!    ●   Ben Coverston                ●   Jonathan Ellis    ●   Ben Werther                  ●   Michael Alle...
                              100­node Brisk Cluster on Opscenter                                          @srisatish
Dynamo, 2007Bigtable, 2006              +                               OSS, 2008                 Incubator 2009          ...
Git started:git clone  Started via Brisk AMI....
References    ●   MapReduce: Simplified Data Processing on Large Clusters, 2004, Jeffrey Dean and         Sanjay Ghemawat,...
Brisk hadoop june2011_sfjava
Brisk hadoop june2011_sfjava
Upcoming SlideShare
Loading in …5

Brisk hadoop june2011_sfjava


Published on

Brisk: Truly peer-to-peer hadoop
Talk at SFJava

Published in: Technology
  • Be the first to comment

Brisk hadoop june2011_sfjava

  1. 1. Brisk: Truly peer­to­peer Hadoop       srisatish.ambati AT   Apache Cassandra/OpenJDK   @srisatish   
  2. 2. Brisk: Hive + Hadoop + Cassandra    @srisatish
  3. 3. Map Reduce    @srisatish
  4. 4. Have large sets of data & you can  work on small pieces in parallel.     @srisatish
  5. 5.     Map Reduce @srisatish
  6. 6. Multi­core map reduce framework,  Kunle, et al    @srisatish
  7. 7.     Parallel Execution View @srisatish
  8. 8.     @srisatish
  9. 9.     @srisatish
  10. 10. JobTracker NameNode HDFS    @srisatish
  11. 11. Write­once­read­many! File once created, written & closed need change    @srisatish
  12. 12. Move computation, not data    @srisatish
  13. 13.     @srisatish
  14. 14. DataNodes: Read, Write Blocks    @srisatish
  15. 15. NameNode: Single Master nodeSingle Machine Address spaceSingle Point of failure   
  16. 16. When “it” does not fit in a single node! … Enter the distributed dragon! Enter the Cassandra: High Scale Peer­to­peer    @srisatish
  17. 17. NameNode DataNodes   
  18. 18. One­kind­of­node!   
  19. 19. Cassandra: High Scale Peer­to­peer    @srisatish
  20. 20. Portfolio DemoLow latency Live tick prices for stocks.Batch Analytics Historical EOD prices. Value at Risk.   
  21. 21. Demo URLs (good for this demo only)http://ec2­50­19­4­143.compute­­67­202­12­176.compute­­50­19­4­143.compute­   
  22. 22. Dynamo, 2007Bigtable, 2006 OSS, 2008 Incubator, 2009 TLP, 2010
  23. 23. Y Key “C” A W Cassandra: High Scale U Peer­to­peer F No SPOF T L P    @srisatish
  24. 24. “dynamic” columnfamilies Followingzznate driftx: thobbs:driftxthobbs zznate:jbellis driftx: mdennis: pcmanus: thobbs: xedin: zznate:
  25. 25.    
  26. 26.    
  27. 27. Brisk    @srisatish
  28. 28. Brisk HowStuffWorks version    @srisatish
  29. 29. YDH security edition (soon to be Apache)Apache Hive – Access via SQL likeCassandra 0.8CQL InterfaceApache Thrift   
  30. 30. Use ColumnFamiliesinodesblock      @srisatish
  31. 31.   String keyspace = “cfs”; CfDef cf = new CfDef();    cf.setName(inodeDefaultCf);    cf.setComparator_type("BytesType"); …             cf.setName(sblockDefaultCf);      cf.setKey_cache_size(1M);      cf.setComment(  "Stores blocks of information associated with a inode"); cf.setKeyspace(keyspace);    @srisatish
  32. 32. Consistency: R + W > N"", "QUORUM";"brisk.consistencylevel.write", "QUORUM";    @srisatish
  33. 33. Hadoop: job tracker, task tracker    @srisatish
  34. 34. BriskSnitch: brisk nodes, cassandra nodes    @srisatish
  35. 35. BriskSimpleSnitch.javaif(TrackerInitializer.isTrackerNode)     {           myDC = BRISK_DC;"Detected Hadoop trackers are enabled, setting my DC to " + myDC);      } else      {            myDC = CASSANDRA_DC;"Looks like Vanilla Cassandra nodes, setting my DC to " + myDC);      }     @srisatish
  36. 36. Hive: SQL­like accesscli, hwi, jdbc, metastorePushdown predicates (v beta2)    @srisatish
  37. 37. hive>  CREATE TABLE invites (foo INT, bar STRING)PARTITIONED BY (ds STRING);hive>  LOAD DATA LOCAL INPATH $BRISK_HOME/resources/hive/examples/files/kv2.txt OVERWRITE INTO TABLE invites PARTITION (ds=2008­08­15);hive>  SELECT count(*), ds FROM invites GROUP BY ds; @srisatish
  38. 38. ETL Real­time Cassandra CFs DataCenters Scale    @srisatish
  39. 39.     @srisatish
  40. 40. No me in team! ● Ben Coverston ● Jonathan Ellis ● Ben Werther ● Michael Allen ● Brandon Williams ● Mike Bulman ● Cathy Daw ● Nate McCall ● Daria Hutchinson ● Nick M Bailey ● Eric Gilmore ● Patricio Echague ● Jackson Chung ● Tyler Hobbs ● Jake Luciani ● SriSatish Ambati ● Joaquin Casares ● Yewei Zhang    @srisatish
  41. 41.     100­node Brisk Cluster on Opscenter @srisatish
  42. 42. Dynamo, 2007Bigtable, 2006 + OSS, 2008 Incubator 2009 TLP, 2010 Cassandra + + Brisk    
  43. 43. Git started:git clone  Started via Brisk AMI.Thank You.     @srisatish
  44. 44. References ● MapReduce: Simplified Data Processing on Large Clusters, 2004, Jeffrey Dean and  Sanjay Ghemawat, ● Multi­core MapReduce, Kunle, et al.    @srisatish