Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
RHadoop: MapReduce R-ben
Kocsis Imre
ikocsis@mit.bme.hu
BURN Meetup, 2014.01.15.

Budapesti Műszaki és Gazdaságtudományi E...
Egy/A Big Data probléma
 „At rest Big Data”
o Nincs update
o „Mindent” elemzünk

 Elosztott tárolás
 „Computation to da...
MapReduce
[ , ]

Reduce

[ , ]

[ , ]

[ , ]

[ , ]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ ,[ ,
,
]]

[ , ...
Szószámlálás
MapReduce stílusban szervezhető…
 Ami „zavarbaejtően párhuzamos”
o „embarrassingly parallel”

 „Statistical Query Model”...
RHadoop = Hadoop + R
[ , ]

SHUFFLE

[ , ]

Hadoop

MapReduce

[ , ]

HDFS

map(k,v)
reduce(k,vv)
mapreduce(...)
RHadoop
 github.com/RevolutionAnalytics/RHadoop/

 „The most mature […] project for R and Hadoop is
RHadoop.” (O’Reilly,...
rmr: mapreduce
Local backend
rmr.options(backend="local")

 Helyi állományrendszer
 Szekvenciális végrehajtás
 Debug!
 Input/output i...
Input/output format








text
json
csv
native (R sorosítás)
sequence.typedbytes (Hadoop)
pig.hive
hbase
Előnyök
 Map és Reduce: R-ben
o Csomagok!
o MR algoritmus-prototipizálás

 + a vezérlés is: kényelem
 Hadoop Job: egy f...
Hogyan lehet ilyenem?
 Local backend, sandbox VM-ek
o Cloudera, Hortonworks

 Saját Hadoop klaszter 
 Amazon Elastic M...
Rhadoop az Apache Virtual Computing Lab-ban
 Előnyök és hátrányok
Hátrányok?






Nehézkes debug
+1 hangolási réteg
MAHOUT-klón
Sok Hadoop funkc.
Kevés példa
Ritka események kategorizálása RHadooppal
 Infrastr.-adatok
 Salánki Ágnes
 Működik.
 Jópár „gotcha”
 De inkább, mint...
Upcoming SlideShare
Loading in …5
×
Upcoming SlideShare
Interaktív EDA R-ben: iPlots
Next
Download to read offline and view in fullscreen.

Share

Lightning talk on RHadoop at the January meetup of BURN

Download to read offline

My lightning talk on RHadoop at the 2014 January meetup of the Budapest Users of R Network (BURN).

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Lightning talk on RHadoop at the January meetup of BURN

  1. 1. RHadoop: MapReduce R-ben Kocsis Imre ikocsis@mit.bme.hu BURN Meetup, 2014.01.15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
  2. 2. Egy/A Big Data probléma  „At rest Big Data” o Nincs update o „Mindent” elemzünk  Elosztott tárolás  „Computation to data” „Not true, but a very, very good lie!” (T. Pratchett, Nightwatch)
  3. 3. MapReduce [ , ] Reduce [ , ] [ , ] [ , ] [ , ] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ ,[ , , ]] [ , ] [ , ] [ , ] [ , ] [ , ] [ , ] SHUFFLE [ , ] [ , ] [ , ] Map Distributed File System [ , ] [ , ] [ , ] [ , ] [ , ] [ , ]
  4. 4. Szószámlálás
  5. 5. MapReduce stílusban szervezhető…  Ami „zavarbaejtően párhuzamos” o „embarrassingly parallel”  „Statistical Query Model” o Locally Weighted Linear Regression, Naive Bayes, Gaussian Discriminative Analysis, k-means, Logistic Regression, Neural Network, PCA, ICA, EM, SVM, …  „Generalized Iterative Matrix-Vector mult.” o PageRank, gráfátmérő, összefüggő komponensek, …  …
  6. 6. RHadoop = Hadoop + R [ , ] SHUFFLE [ , ] Hadoop MapReduce [ , ] HDFS map(k,v) reduce(k,vv) mapreduce(...)
  7. 7. RHadoop  github.com/RevolutionAnalytics/RHadoop/  „The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012)  rmr: mapreduce  rhdfs: HDFS állománykezelés  rhbase, plyrmr
  8. 8. rmr: mapreduce
  9. 9. Local backend rmr.options(backend="local")  Helyi állományrendszer  Szekvenciális végrehajtás  Debug!  Input/output itt is állományrendszer
  10. 10. Input/output format        text json csv native (R sorosítás) sequence.typedbytes (Hadoop) pig.hive hbase
  11. 11. Előnyök  Map és Reduce: R-ben o Csomagok! o MR algoritmus-prototipizálás  + a vezérlés is: kényelem  Hadoop Job: egy függvényhívás! o Pl. iteratív MapReduce teljesen R-ben o Map és Reduce: ~a hívó környezetben
  12. 12. Hogyan lehet ilyenem?  Local backend, sandbox VM-ek o Cloudera, Hortonworks  Saját Hadoop klaszter   Amazon Elastic MapReduce (EMR) o Bérelhető Hadoop klaszter  Saját felhő megoldás
  13. 13. Rhadoop az Apache Virtual Computing Lab-ban  Előnyök és hátrányok
  14. 14. Hátrányok?      Nehézkes debug +1 hangolási réteg MAHOUT-klón Sok Hadoop funkc. Kevés példa
  15. 15. Ritka események kategorizálása RHadooppal  Infrastr.-adatok  Salánki Ágnes  Működik.  Jópár „gotcha”  De inkább, mint Java-ban

My lightning talk on RHadoop at the 2014 January meetup of the Budapest Users of R Network (BURN).

Views

Total views

1,404

On Slideshare

0

From embeds

0

Number of embeds

751

Actions

Downloads

3

Shares

0

Comments

0

Likes

0

×