Scalable Data Analysis in R -- Lee Edlefsen

[object Object],[object Object],[object Object],[object Object]

Introduction ,[object Object],[object Object],[object Object],[object Object]

RevoScaleR package ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Overview of my talk ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Scalability ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Keys to scalability ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Huge data sets are becoming common ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Huge benefits to huge data ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Two huge problems: capacity and speed ,[object Object],[object Object],[object Object],[object Object],[object Object]

We are currently incapable of analyzing a lot of the data we have ,[object Object],[object Object],[object Object],Revolution R Enterprise

Requires software solutions ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

High Performance Analytics: HPA ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Revolution’s approach to HPA and scalability in the RevoScaleR package ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Some interface design goals ,[object Object],[object Object],[object Object],Revolution R Enterprise

Sample code for logit on laptop ,[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Sample code for logit on a cluster ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Sample data transformation code ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Chunking ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

The basis for a solution for capacity, speed, distributed and streaming data – PEMA’s ,[object Object],[object Object],[object Object]

External memory algorithms are widely available ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Parallel algorithms are widely available ,[object Object],[object Object]

Not much literature on PEMA’s ,[object Object],[object Object],Revolution R Enterprise

Parallelizing external memory algorithms ,[object Object],[object Object],[object Object],[object Object]

Parallel Computations with Synchronization and Communication

Embarrassingly Parallel Computations

Sequential External Memory Computations

Parallel External Memory Computations

Example external memory algorithm for the mean of a variable ,[object Object],[object Object],[object Object],[object Object]

PEMA’s in RevoScaleR ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

PEMA’s in RevoScaleR (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Storing and reading data ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

The XDF file format ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

The XDF file format (2) ,[object Object],[object Object],[object Object],Revolution R Enterprise

Overview of data path on a computer ,[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Handling data in memory ,[object Object],[object Object],[object Object],Revolution R Enterprise

Use of multiple cores per computer ,[object Object],[object Object],[object Object],Revolution R Enterprise

Core 0 (Thread 0) Core n (Thread n) Core 2 (Thread 2) Core 1 (Thread 1) Multicore Processor (4, 8, 16+ cores) Data Data Data Disk RevoScaleR Shared Memory ,[object Object],[object Object],[object Object],[object Object],RevoScaleR – Multi-Threaded Processing

Use of multiple computers ,[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Compute Node (RevoScaleR) Compute Node (RevoScaleR) Master Node (RevoScaleR) Data Partition Data Partition Compute Node (RevoScaleR) Compute Node (RevoScaleR) Data Partition Data Partition ,[object Object],[object Object],[object Object],[object Object],RevoScaleR – Distributed Computing

Data management capabilities ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Analysis algorithms ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Benchmarks using the airline data ,[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Distributed Import of Airline Data ,[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Scalability of RevoScaleR with Rows Regression, 1 million - 1.1 billion rows, 443 betas (4 core laptop) Revolution R Enterprise

Scalability of RevoScaleR with Nodes Regression, 1 billion rows, 443 betas (1 to 5 nodes, 4 cores per node) Revolution R Enterprise

Scalability of RevoScaleR with Nodes Logit, 123.5 million rows, 443 betas, 5 iterations (1 to 5 nodes, 4 cores per node) Revolution R Enterprise

Scalability of RevoScaleR with Nodes Logit, 1 billion rows, 443 betas, 5 iterations (1 to 5 nodes, 4 cores per node) Revolution R Enterprise

Comparative benchmarks ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Revolution R Enterprise

Contact information ,[object Object],[object Object],Revolution R Enterprise

Scalable Data Analysis in R -- Lee Edlefsen

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to Scalable Data Analysis in R -- Lee Edlefsen

Similar to Scalable Data Analysis in R -- Lee Edlefsen (20)

More from Revolution Analytics

More from Revolution Analytics (20)

Recently uploaded

Recently uploaded (20)

Scalable Data Analysis in R -- Lee Edlefsen