An Industrial Case Study on the Automated Detection of Performance Regressions in Heterogeneous Environments

An Industrial Case Study on the Automated
Detection of Performance Regressions
in Heterogeneous Environments

Flickr outage impacted
89 million users
(05/24/13)
Most field problems for large-scale
systems are rarely functional,
instead they are load-related
One hour global outage
lost $7.2 million in revenue
(02/24/09)

Performance Regression Testing
Mimics multiple users repeatedly performing the same tasks
Take hours or even days
Produces GB/TB of data that must be analyzed

Is the system ready for release?

Initial Attempt
Test N
(tN)
Test 1
(t1)
New Test
(tnew)
.
.
.
Association
Rule Mining
Test 2
(t2)
Perf. Rules
(M)
Detecting
Violation Metric
Violated
Metric Set
(VM)

Heterogeneous Environments
v1.75 v5.10 v1.71 v5.10 v1.71 v5.50
Perf Lab A Perf Lab B Perf Lab C
Test 1 (T1) Test 2 (T2) Test 3 (T3)

Our Approach
Test N
(tN)
Test 1
(t1)
New Test
(tnew)
.
.
.
Association
Rule Mining
Test 2
(t2)
Perf. Rules
(M1)
Perf. Rules
(M2)
Perf. Rules
(MN)
.
.
.
Detecting
Violation Metric
Violated
Metric Set
(VM1)
Violated
Metric Set
(VM2)
Violated
Metric Set
(VMN)
.
.
.

Our Approach
Rules
1)
Rules
2)
Rules
N)
Detecting
Violation Metric
Violated
Metric Set
(VM1)
Violated
Metric Set
(VM2)
Violated
Metric Set
(VMN)
.
.
.
Ensemble
Learning
.
.
.
Aggregated
Violated
Metric Set

Metric
Time
Small
Medium
Large
Original
Metric
Time
Original
Metric Discretization
• Association rules mining can only operate on
data with discretized values
• Equal Width (EW) interval binning algorithm

Deriving Frequent Itemset from
Past Test # 1
Time DB read/sec Throughput Request Queue Size
10:00 Medium Medium Low
10:06 Low Medium Medium

Deriving Frequent Itemset from
Past Test # 1
Throughput
Medium
DB read/sec
Medium
Request
Queue size
Low

Deriving Performance Rules
from Past Test # 1
Throughput
Medium
DB read/sec
Medium
Request
Queue size
Low
Request
Queue Size
Low
DB read/sec
Medium
Throughput
Medium
Throughput
Medium
Request
Queue Size
Low
DB read/sec
Medium
Throughput
Medium
DB read/sec
Medium
Request
Queue size
Low

Pruning Performance Rules
• Rules with low support and confidence values are pruned
Throughput
Medium
DB read/sec
Medium
Request
Queue size
Low
Premise Consequence
( 0.5 , 0.9 )
(support, confidence)
Web Server
CPU
Medium
DB read/sec
Medium
Web Server
Memory
High
( 0.1 , 0.7 )
Web Server
CPU
Medium
Web Server
Memory
Medium
Throughput
High
( 0.2 , 0.2 )

Detecting Violation Metrics in the
Current Test
08:00 Medium Medium High
Throughput
Medium
DB read/sec
Medium
Request
Queue size
Low

Detecting Violation Metrics in the
Current Test
Throughput
Medium
DB read/sec
Medium
Request
Queue size
Low
Request
Queue size
High
• Rules with significant changes in confidence values are
flagged as “anomalous”

Combining Results
Throughput
at t0
Throughput
at t1
Throughput
at t2
M1 M2 M3 M4 Anomalous?
Stacking(? vote) (? vote) (? vote) (? vote)
New Test

Heterogeneous Lab Environments
v1.71 v5.50 v1.71 v5.10 v1.71 v5.50
T1, T2 T3 T4

v1.71 v5.50 v1.71 v5.10 v1.71 v5.50
(CPU, DISK, OS, Java, MySQL)
Measuring Similarities Between Labs
(1, 1, 1, 1, 0)(0, 0, 0, 1, 0) (1, 1, 1, 1, 1)𝟏 = 1 𝟓 = 2.2 𝟒 = 2
T1, T2 T3 T4
v5.50v1.71

v1.71 v5.10v1.71 v5.50 v1.71 v5.50
Assigning Weights to Past Tests
1 2.2 2
𝒘 𝟏 =
𝟏
𝟏+𝟐.𝟐+𝟐
= 0.20 𝒘 𝟐 =
𝟐.𝟐
𝟏+𝟐.𝟐+𝟐
= 0.42 𝒘 𝟑 =
𝟐
𝟏+𝟐.𝟐+𝟐
= 0.38
T1, T2 T3 T4
0.20 0.42 0.38

Combining Results
Throughput
at t0
Throughput
at t1
Throughput
at t2
M1 M2 M3 M4 Anomalous?
Stacking
1.00 v.s. 0.20
0.38 v.s 0.82
(0.20 vote) (0.20 vote) (0.42 vote) (0.38 vote)
0.58 v.s. 0.62
New Test

Case Study
Types of Systems Experiments
Dell DVD Store Open Source Benchmark
Application
Bug Injection
JPetStore Open Source Re-
implementation of Oracle’s
Pet Store
Bug Injection
A Large Enterprise
System
Closed Source Large-Scale
Telephony System
Performance Regression
Repository

Performance Evaluation Metrics
𝐹𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

A Large Enterprise System
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
E1 E2 E3
F-measure
Single Bagging Stacking

An Industrial Case Study on the Automated Detection of Performance Regressions in Heterogeneous Environments

An Industrial Case Study on the Automated Detection of Performance Regressions in Heterogeneous Environments

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

Similar to An Industrial Case Study on the Automated Detection of Performance Regressions in Heterogeneous Environments

Similar to An Industrial Case Study on the Automated Detection of Performance Regressions in Heterogeneous Environments (20)

More from SAIL_QU

More from SAIL_QU (20)

Recently uploaded

Recently uploaded (20)

An Industrial Case Study on the Automated Detection of Performance Regressions in Heterogeneous Environments

Editor's Notes