Data Pipeline Installation Quality

Pipeline Testing Story
IRINA PASHKOVA
QA Lead, GreenM

Agenda
1. Regression ETL testing
2. Non-functional ETL testing
3. Functional ETL Testing

Puppy to Play with
Daily Runs
Full Refresh Mode
300 Customers
~ 500 Mln rec / tab
~ 5h ETL time

Better & Faster – ETL Evolution
or
Regression ETL Testing

ETL
Extract Transform Load
Operations Storages
or
DATA SOURCES
Reporting Oriented
Data Marts or
TARGETS

New Pipeline Version
Regression Testing
Non-Functional Testing
• Same Sources & Targets
• Same Transformation Rules
• Previous fully tested version of
ETL available

Regression via Reference Data Schema
• Exclude
• Tracking fields
• New functionality Data
• Clean up Test Schema
• Run Smoke suite first SOURCE
TESTED
TARGET
REFERENCE
TARGET
NEW ETL
VERSION
PROD ETL
VERSION
Regression Testing

FitNesse for ETL Regression
• Config files
• Connections
• Tab parameters
• Fixtures
• Non-empty tab
• No duplicates
• Counts match
• Content match
Regression Testing

FitNesse for ETL Regression
Regression Testing

Regression Challenges
Long run time of ETL
Big Data volume
Regression Testing
Time waste waiting
for a fix / change
Hang up tests

Manual Inspections
• Configurations:
• Connections
• Run mode
• Pipeline Steps order & dependencies
• Source & Target Tabs
• ETL code queries
Regression Testing: Challenges

Set the Limits!
• “Partial” run & Extract re-using
• Limit compared data
• Set timeout in tests
• Model missing data
Regression Testing: Challenges

Take Care about Production Support Group
or
Non-functional ETL Testing

Non-functional Pipeline Testing
• Performance
• Security
• Load/ Stress
• Scalability
• Usability
• Reliability

Usability Testing
• Easy to
• identify current state
• find/read Error info
• re-configure
• Flexible Start
• Documentation

• Risks assessment
• Failure simulation
• Volume simulation
Reliability Testing

Reliability Testing Challenges
Hidden Risks Underestimation of severity
Dependency on 3d party services Underestimation of probability
Communication gaps
Non-Functional Testing: Challenges

Be Informed!
• Monitor Services Logs
• Organize Recovery Training
• Be specific with to-do’s
Non-Functional Testing: Challenges

Add Analytics for
a New Business Module…
please

New Data Module Creation
or
Functional ETL Testing

Data Warehouse Testing
SOURCE
TARGET
Test Underlying Data
Test Data Model
Balancing Tests
Data Quality Tests
Smoke Tests
Balancing Tests
Balancing Tests

Test Underlying Data
1. Gather info – bridge gaps!
2. Break rules that can be broken
3. Draft a Troubleshooting doc
Source Area Testing

Test Target Data Model
1. Naming convention
2. Optimal base for Visualization
3. Testability checks
Data Mart Structure Testing

• Smoke Tests
• Target Data Quality tests:
• Type
• Constraint
• Data Plausibility
• Logical Constraints
! Create similar / relevant tests where applicable for Source to help with further debugging

• Balancing Tests:
• Study/ Create Specification
• Test Minus Queries Assertions
via mutated data
• Do both-sides comparison

Balancing Tests
• One all-data storage
• AWS Glue & Athena

Most Common bugs
• Count Mismatch (incl. Duplicates)
• Anomalies issues: Null or Length relevant
• Date relevant calculations

ETL Testing Challenges
• Tests Complexity
• Unpredictable slow work of AWS Athena
• Impossible to check each single record

Visualization in Data QA
• Source Data Analysis
• Target Quality
Dashboard
• Dedicated resources
& Test Results
visualization

Ongoing Support
• Data Integrity Project
• Ongoing Logs Analysis
• Monitoring Rules &
Alarms
Testing in Production
Data Pipeline

Key Takeaways
• ETL verification is not that bad
• Know your data
• Be ready to meet Monsters
• Long ETL duration
• Big Data Volume
• Difference of Test Data from Prod

Data Pipeline Installation Quality

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to Data Pipeline Installation Quality

Similar to Data Pipeline Installation Quality (20)

More from GreenM

More from GreenM (8)

Recently uploaded

Recently uploaded (20)

Data Pipeline Installation Quality