Successfully reported this slideshow.
Your SlideShare is downloading. ×

Lightning talk on RHadoop at the January meetup of BURN

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 15 Ad
Advertisement

More Related Content

Advertisement

Lightning talk on RHadoop at the January meetup of BURN

  1. 1. RHadoop: MapReduce R-ben Kocsis Imre ikocsis@mit.bme.hu BURN Meetup, 2014.01.15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
  2. 2. Egy/A Big Data probléma  „At rest Big Data” o Nincs update o „Mindent” elemzünk  Elosztott tárolás  „Computation to data” „Not true, but a very, very good lie!” (T. Pratchett, Nightwatch)
  3. 3. MapReduce [ , ] Reduce [ , ] [ , ] [ , ] [ , ] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ , ] [ , ] [ , ] [ , ] [ , ] [ , ] SHUFFLE [ , ] [ , ] [ , ] Map Distributed File System [ , ] [ , ] [ , ] [ , ] [ , ] [ , ]
  4. 4. Szószámlálás
  5. 5. MapReduce stílusban szervezhető…  Ami „zavarbaejtően párhuzamos” o „embarrassingly parallel”  „Statistical Query Model” o Locally Weighted Linear Regression, Naive Bayes, Gaussian Discriminative Analysis, k-means, Logistic Regression, Neural Network, PCA, ICA, EM, SVM, …  „Generalized Iterative Matrix-Vector mult.” o PageRank, gráfátmérő, összefüggő komponensek, …  …
  6. 6. RHadoop = Hadoop + R [ , ] SHUFFLE [ , ] Hadoop MapReduce [ , ] HDFS map(k,v) reduce(k,vv) mapreduce(...)
  7. 7. RHadoop  github.com/RevolutionAnalytics/RHadoop/  „The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012)  rmr: mapreduce  rhdfs: HDFS állománykezelés  rhbase, plyrmr
  8. 8. rmr: mapreduce
  9. 9. Local backend rmr.options(backend="local")  Helyi állományrendszer  Szekvenciális végrehajtás  Debug!  Input/output itt is állományrendszer
  10. 10. Input/output format        text json csv native (R sorosítás) sequence.typedbytes (Hadoop) pig.hive hbase
  11. 11. Előnyök  Map és Reduce: R-ben o Csomagok! o MR algoritmus-prototipizálás  + a vezérlés is: kényelem  Hadoop Job: egy függvényhívás! o Pl. iteratív MapReduce teljesen R-ben o Map és Reduce: ~a hívó környezetben
  12. 12. Hogyan lehet ilyenem?  Local backend, sandbox VM-ek o Cloudera, Hortonworks  Saját Hadoop klaszter   Amazon Elastic MapReduce (EMR) o Bérelhető Hadoop klaszter  Saját felhő megoldás
  13. 13. Rhadoop az Apache Virtual Computing Lab-ban  Előnyök és hátrányok
  14. 14. Hátrányok?      Nehézkes debug +1 hangolási réteg MAHOUT-klón Sok Hadoop funkc. Kevés példa
  15. 15. Ritka események kategorizálása RHadooppal  Infrastr.-adatok  Salánki Ágnes  Működik.  Jópár „gotcha”  De inkább, mint Java-ban

×