Download It

Map-Reduce for Machine Learning on Multi-Core Gary Bradski, work with Stanford: Prof. Andrew Ng Cheng-Tao, Chu, Yi-An Lin, Yuan Yuan Yu. Sang Kyun Kim with Prof. Kunle Olukotun. Ben Sapp, Intern

Acknowledgments ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],*Some slides taken from Intel presentation on Google’s Map-Reduce and Paint slide from www.cs.virginia.edu/~evans/bio/slides/paintable.ppt

And Ad-Sense Adverts ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

OpenCV: Open Source Computer Vision Lib. http://www.intel.com/research/mrl/research/opencv ,[object Object]

Machine Learning Libraries (MLL) Subdirectory under OpenCV http:// www.intel.com/research/mrl/research/opencv ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Modeless Model based Unsupervised Supervised ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Bayesian Networks Library: PNL Statistical Learning Library: MLL

Overview ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[email_address]

Google’s Map-Reduce Programming Model Map Phase Process each record independently Example : Determine if business is a restaurant AND address is within 50 miles Reduce Phase Aggregate the filter output Example : Top(10) 10s of lines code 1 line code Find all restaurants within 25 miles of RNB Input Data A large collection of records Stored across multiple disks Example : Business Addresses Filter Filter Map Reduce Results

More Detail: Google Search Index Generation In Reality, Uses 5-10 Map-Reduce Stages Efficiency impacts how often this is run. Impacts quality of the search. Web Page 3 Web Page 4 Web Page 5 Web Page 6 Web Page 1 Web Page 2 Web Page N Lexicon Table Filter Filter Filter A Aggregator A Web Graph Filter Filter Filter B Aggregator B Page Rank Table Filter Filter Filter C Aggregator C

More Detail: In Use: Google Search Index Lookup Google Web Server Spell Check Server Ad Server Map Reduce Map Reduce Processing a Google Search Query Index Server Index Server Index Server Index Server Index Server Index Server Index Server Index Server Index Server Document Server

Motivation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Google Hardware Infrastructure ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Two Map-Reduce Programming Models ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Two Map-Reduce Programming Models ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Map-Reduce Infrastructure Overview Protocol Buffers Data description language like XML Google File System Customized Files system optimized for access pattern and disk failure Work Queue Manages processes creation on a cluster for different jobs Map-Reduce (MR-C++) Transparent distribution on a cluster: data distribution and scheduling Provides fault tolerance: handles machine failure Building Blocks Programming Model and Implementation C/C++ Library Sawzall Domain Specific Language Language

Map-Reduce on a Cluster Find all restaurants within 25 miles of SAP ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],These programs are complicated but similar. Map-Reduce hides parallelism and distribution from programmer (steps 1, 3, 5, & 6). X Request “ Map ” Server Rack “ Reduce ” Server Rack Heavily Loaded Map Reduce

Examples of Google Applications Google Search Offline : Minutes to Weeks Moderately Parallel Online : Seconds per Query “ Embarrassingly” Parallel Google News Froogle Search 100s of small programs (Scripts) Monitor, Analyze, Prototype, etc. IO-Bound Search Index News Index Product Index Search Index Generation Search Index Lookup News Index Generation News Index Lookup Froogle Index Generation Froogle Index Lookup

Google on Many-Core Architecture ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Map-Reduce on Multi-Core Use machine learning to study.

Overview ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Summation form for Machine Learning ,[object Object],[object Object],[object Object],[object Object]

Machine Learning Summation Form: Map Reduce Example Simple example: locally weighted linear regression (LWLR): [1] To parallelize this algorithm, re-write it in “summation form” as follows: MAP : By writing LWLR as a summation over data points, we now easily parallelize the computation of A and b by dividing the data over the number of threads. For example, with two cores: REDUCE : A is obtained by adding A 1 and A 2 (at negligible additional cost). The computation for b is similarly parallelized. [1] Here, the w i are “weights.” If all weights = 1, this reduces to the ordinary least squares.

ML fit with Many-Core Each implies an NxN communication To be more clear: We have a set of M data points each of length N N N Decomposition for Many-Core: Threads T 1 T 2 . . . T P N M Each “ T ” incurres a NxN communication cost N<<M or we haven't formulated a ML problem This is a good fit for Map-Reduce

Map Reduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Map-Reduce Machine Learning Framework ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

List of Implemented and Analyzed Algorithms Analyzed : Yes Histogram Intersection 18. Yes Multiple Discriminant Analysis 17. Unknown Gaussian process regression 15. Yes Fisher Linear Discriminant 16. Unknown SVM (with kernel) 14. Unknown * Boosting 13. Yes Policy search (PEGASUS) 12. Yes ICA (Independent components analysis) 11. Yes PCA (Principal components analysis) 10. Yes Neural networks 9. Yes EM for mixture distributions 8. Yes K-means clustering 7. Yes SVM (without kernel) 6. Yes Naïve Bayes 5. Yes Gaussian discriminant analysis 4. Yes Logistic regression 3. Yes Locally weighted linear regression 2. Yes Linear regression 1. Have summation form? Algorithm

Complexity Analysis : m : number of data points; n : number of features; P : number of mappers (processors/cores); c : iterations or nodes. Assume matrix inverse is O(n^3/P’) where P’ are iterations that may be parallelized. For L ocally W eighted L inear R egression ( LWLR ) training: ( ‘ => transpose below): ============================================================== X ’ WX: mn 2 Reducer: log(P)n 2 X ’ WY: mn Reducer: log(P)n (X ’ WX) -1 : n 3 /P’ (X ’ WX) -1 X”WY: n 2 Serial: O(mn 2 + n 3 /P’) Parallel: O(mn 2 /P + n 3 /P’ + log(P)n 2 map invert reduce Basically: Linear speedup with increasing numbers of cores.

Some Results, 2 Cores ,[object Object],Dataset characteristics: Basically: Linear speed up with the number of cores

Results on 1-16 Way System ,[object Object],[object Object],[object Object]

Average Speedup over All Data ,[object Object],[object Object],[object Object],Over 10 datasets

Map-Reduce for Machine Learning: Summary Speedups over 10 datasets Bold line is avg. Dashed is std. Bars are max/min RESULT: Basically linear or slightly better speedup.

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Overall Results

Dynamic Run Time Optimization Opportunity ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Really want a Macro/micro Map-Reduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Extension to Other Areas of AI ,[object Object],[object Object],[object Object],[object Object],[object Object]

Multi-Core here => Shared Memory, but… Map-Reduce spans bridge to non-shared memory ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Conclusions ,[object Object],[object Object],[object Object]

References ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Related Work ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Related Work Cont’d ,[object Object],[object Object],[object Object],[object Object]

Some Current Work, just for fun… Statistical models of vision using Fast multi-grid techniques from physics

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Directory Structure of Code

Basic Flow For All Algorithms main () Create the training set and the algorithm instance Register map-reduce functions to Engine class Run Algorithm Algorithm::run(matrix x, matrix y) Create Engine instance & initialize Sequential computation1 (initialize variables, etc) Engine->run(“Map-Reduce1”) Sequential computation2 Engine->run(“Map-Reduce2”) etc main () Test Result?

[object Object],Basic Flow For All Algorithms Engine::run(algorithm) Create master instance Create n threads (each execute Master::run()) Join n threads Return master’s result ,[object Object]

[object Object],Basic Flow For All Algorithms Master::run(map_id, matrix x, matrix y) Find the Mapper instance map->run() Mapper::run(algorithm, master, matrix x, matrix y) map(x, y) master->mapper_is_done() Master::mapper_is_done(Mapper *map) Get intermediate and accumulate in a vector Find Reducer instance reduce->run()

[object Object],Basic Flow For All Algorithms Reducer::run(algorithm, master, matrix x, matrix y) reduce(intermediate_data) master->reducer_is_done() Mapper::reducer_is_done() Master::mapper_is_done(Mapper *map) Get intermediate and accumulate in a vector Find Reducer instance reduce->run() Master::get_result() reduce->get_result() ,[object Object]

Where does parallelism takes place Sequential Code MAP REDUCE Sequential Code

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Input Data

[object Object],[object Object],[object Object],[object Object],[object Object],EM Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],EM Algorithm Map-Reduce

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],EM Algorithm Performance Analysis

[object Object],[object Object],[object Object],[object Object],[object Object],EM Algorithm Performance Analysis

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Logistic Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Logistic Algorithm code

[object Object],[object Object],[object Object],[object Object],Logistic Algorithm code

[object Object],[object Object],[object Object],GDA Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],GDA Algorithm code

[object Object],[object Object],[object Object],[object Object],[object Object],K-means Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],K-means Algorithm code

[object Object],[object Object],[object Object],[object Object],NB Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],NB Algorithm source code

[object Object],[object Object],[object Object],[object Object],PCA Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],PCA Algorithm code

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],ICA Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],ICA Algorithm code

[object Object],[object Object],[object Object],[object Object],LWLR Algorithm

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],LWLR Algorithm code

Download It

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Download It

Similar to Download It (20)

More from butest

More from butest (20)

Download It

Editor's Notes