Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
RHadoop: MapReduce R-ben
Kocsis Imre
ikocsis@mit.bme.hu
BURN Meetup, 2014.01.15.

Budapesti Műszaki és Gazdaságtudományi E...
Egy/A Big Data probléma
 „At rest Big Data”
o Nincs update
o „Mindent” elemzünk

 Elosztott tárolás
 „Computation to da...
MapReduce
[ , ]

Reduce

[ , ]

[ , ]

[ , ]

[ , ]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ , ...
Szószámlálás
MapReduce stílusban szervezhető…
 Ami „zavarbaejtően párhuzamos”
o „embarrassingly parallel”

 „Statistical Query Model”...
RHadoop = Hadoop + R
[ , ]

SHUFFLE

[ , ]

Hadoop

MapReduce

[ , ]

HDFS

map(k,v)
reduce(k,vv)
mapreduce(...)
RHadoop
 github.com/RevolutionAnalytics/RHadoop/

 „The most mature […] project for R and Hadoop is
RHadoop.” (O’Reilly,...
rmr: mapreduce
Local backend
rmr.options(backend="local")

 Helyi állományrendszer
 Szekvenciális végrehajtás
 Debug!
 Input/output i...
Input/output format








text
json
csv
native (R sorosítás)
sequence.typedbytes (Hadoop)
pig.hive
hbase
Előnyök
 Map és Reduce: R-ben
o Csomagok!
o MR algoritmus-prototipizálás

 + a vezérlés is: kényelem
 Hadoop Job: egy f...
Hogyan lehet ilyenem?
 Local backend, sandbox VM-ek
o Cloudera, Hortonworks

 Saját Hadoop klaszter 
 Amazon Elastic M...
Rhadoop az Apache Virtual Computing Lab-ban
 Előnyök és hátrányok
Hátrányok?






Nehézkes debug
+1 hangolási réteg
MAHOUT-klón
Sok Hadoop funkc.
Kevés példa
Ritka események kategorizálása RHadooppal
 Infrastr.-adatok
 Salánki Ágnes
 Működik.
 Jópár „gotcha”
 De inkább, mint...
Upcoming SlideShare
Loading in …5
×

Lightning talk on RHadoop at the January meetup of BURN

962 views

Published on

My lightning talk on RHadoop at the 2014 January meetup of the Budapest Users of R Network (BURN).

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Lightning talk on RHadoop at the January meetup of BURN

  1. 1. RHadoop: MapReduce R-ben Kocsis Imre ikocsis@mit.bme.hu BURN Meetup, 2014.01.15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
  2. 2. Egy/A Big Data probléma  „At rest Big Data” o Nincs update o „Mindent” elemzünk  Elosztott tárolás  „Computation to data” „Not true, but a very, very good lie!” (T. Pratchett, Nightwatch)
  3. 3. MapReduce [ , ] Reduce [ , ] [ , ] [ , ] [ , ] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ , ] [ , ] [ , ] [ , ] [ , ] [ , ] SHUFFLE [ , ] [ , ] [ , ] Map Distributed File System [ , ] [ , ] [ , ] [ , ] [ , ] [ , ]
  4. 4. Szószámlálás
  5. 5. MapReduce stílusban szervezhető…  Ami „zavarbaejtően párhuzamos” o „embarrassingly parallel”  „Statistical Query Model” o Locally Weighted Linear Regression, Naive Bayes, Gaussian Discriminative Analysis, k-means, Logistic Regression, Neural Network, PCA, ICA, EM, SVM, …  „Generalized Iterative Matrix-Vector mult.” o PageRank, gráfátmérő, összefüggő komponensek, …  …
  6. 6. RHadoop = Hadoop + R [ , ] SHUFFLE [ , ] Hadoop MapReduce [ , ] HDFS map(k,v) reduce(k,vv) mapreduce(...)
  7. 7. RHadoop  github.com/RevolutionAnalytics/RHadoop/  „The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012)  rmr: mapreduce  rhdfs: HDFS állománykezelés  rhbase, plyrmr
  8. 8. rmr: mapreduce
  9. 9. Local backend rmr.options(backend="local")  Helyi állományrendszer  Szekvenciális végrehajtás  Debug!  Input/output itt is állományrendszer
  10. 10. Input/output format        text json csv native (R sorosítás) sequence.typedbytes (Hadoop) pig.hive hbase
  11. 11. Előnyök  Map és Reduce: R-ben o Csomagok! o MR algoritmus-prototipizálás  + a vezérlés is: kényelem  Hadoop Job: egy függvényhívás! o Pl. iteratív MapReduce teljesen R-ben o Map és Reduce: ~a hívó környezetben
  12. 12. Hogyan lehet ilyenem?  Local backend, sandbox VM-ek o Cloudera, Hortonworks  Saját Hadoop klaszter   Amazon Elastic MapReduce (EMR) o Bérelhető Hadoop klaszter  Saját felhő megoldás
  13. 13. Rhadoop az Apache Virtual Computing Lab-ban  Előnyök és hátrányok
  14. 14. Hátrányok?      Nehézkes debug +1 hangolási réteg MAHOUT-klón Sok Hadoop funkc. Kevés példa
  15. 15. Ritka események kategorizálása RHadooppal  Infrastr.-adatok  Salánki Ágnes  Működik.  Jópár „gotcha”  De inkább, mint Java-ban

×