Cloudbrew 2019 observability driven development

OBSERVABILITY DRIVEN
DEVELOPMENT
GEERT VAN DER CRUIJSEN
@GEERTVDC

@GEERTVDC
CLOUDNATIVEARCHITECT FULLCYCLEDEVELOPERDEVOPSCOACH
CBO (CHIEF BEER OFFICER) AT XPIRIT NETHERLANDS

SINCE WE ALL LOVE BEER
I BROUGHT SOME DUTCH BEERS!!

SINCE WE ALL LOVE BEER
I BROUGHT SOME DUTCH BEERS!!
FIND THIS LOGO DURING MY
PRESENTATION, TAKE A PICTURE,
TWEET IT
MENTION/FOLLOW @GEERTVDC
AND WIN BEER!

I HAVE TO MAKE
A CONFESSION
@GEERTVDC

I HAVE TO MAKE
A CONFESSION
I TEST IN
PRODUCTION
@GEERTVDC

I TEST IN
PRODUCTION
I’M NOT LIKE
THIS GUY THOUGH
@GEERTVDC

TODAY’S PREACH
YOU SHOULD TEST IN
PRODUCTION TOO
@GEERTVDC

YOU SHOULD TEST IN
PRODUCTION TOO
STOP BEING AFRAID
OF PRODUCTION!
@GEERTVDC

WHO’S DOING
AGILE OR DEVOPS?
@GEERTVDC

WHO’S DOING
AGILE OR DEVOPS?
COMMON
AGILE / DEVOPS
MISTAKES
@GEERTVDC

DO YOU WANT FAST WHEN YOU’RE
NOT GOING IN THE RIGHT DIRECTION?
@GEERTVDC

TEST IN PRODUCTION
USER BEHAVIOR
A/B TESTING
EXPERIMENTS
@GEERTVDC

BEING ABLE TO BRAKE AND STEER
THAT IS WHAT MAKES YOU GO FASTER!
@GEERTVDC

DEVOPS IS THE UNION OF PEOPLE, PROCESS,
AND PRODUCTS TO ENABLE CONTINUOUS
DELIVERY OF VALUE TO OUR END USERS.
DONOVAN BROWN
@GEERTVDC

VALUE IS ONLY VALUE WHEN
IT’S RUNNING IN PRODUCTION
@GEERTVDC

TEST IN PRODUCTION
CANARY RELEASING
RING BASED DEPLOYMENTS
MULTI REGION
CHAOS ENGINEERING
SHADOW TESTING@GEERTVDC

BUT I USE STAGING?
DOES STAGING HAVE REAL DATA?
DOES STAGING HAVE REAL USERS?
DOES STAGING REPRESENT PRODUCTION ENOUGH?
HOW MUCH TIME DO YOU SPEND ON STAGING?

WHAT IS KEY TO TESTING ON PROD?
OBSERVABILITY
@GEERTVDC

OBSERVABILITY
“OBSERVABILITY IS A MEASURE OF HOW
WELL INTERNAL STATES OF A SYSTEM CAN
BE INFERRED FROM KNOWLEDGE OF ITS
EXTERNAL OUTPUTS”
CONTROL THEORY
@GEERTVDC

WHAT IS THE DIFFERENCE
WITH MONITORING?
@GEERTVDC

MONITORING
KNOWN UNKNOWNS
OBSERVABILITY
UNKNOWN UNKNOWNS
@GEERTVDC

COMPLEX
APPLICATION LANDSCAPES
DISTRIBUTED SYSTEMS – MICROSERVICES – CLOUD

“IN A COMPLEX LANDSCAPE YOUR
APPLICATION IS NEVER FULLY UP”
@GEERTVDC

MICROSERVICES
TRADITIONAL MONITORING
TOOLS ARE DEAD
@GEERTVDC

MEASURE
USER IMPACT
https://medium.com/netflix-techblog/sps-the-pulse-of-netflix-streaming-ae4db0e05f8a
@GEERTVDC

RELIABILITY
AVAILABILITY LATENCY
THROUGHPUT
CORRECTNESS
FRESHNESS
COVERAGE
QUALITY
DURABILITY
RELIABILITY
@GEERTVDC

FAIL OPEN
PARTIAL FAILURE MODE
@GEERTVDC

OBSERVABILITY IS THE
KEY TO SOFTWARE
OWNERSHIP
@GEERTVDC

WE’VE TAUGHT OPS TO DEV
SOURCE CONTROL
INFRASTRUCTURE AS CODE
AUTOMATION
SCRIPTING
@GEERTVDC

TIME HAS COME
DEVS GET PROD ACCESS
@GEERTVDC

TIME HAS COME
DEVS TAKE OWNERSHIP
@GEERTVDC

TIME HAS COME
DEVS TAKE OWNERSHIP
DEVS TAKE ON CALL!
@GEERTVDC

BUSINESS + DEV
IT OPERATIONS
@GEERTVDC

BUSINESS + DEV
IT OPERATIONS
IMPROVE THE COMPANY
@GEERTVDC

OBSERVABILITY
CONNECT DEV TO BUSINESS
OBSERVABILITY
CONNECT DEV TO OPERATIONS
@GEERTVDC

3 PILLARS OF
OBSERVABILITY
@GEERTVDC

3 PILLARS OF
OBSERVABILITY
LOGS METRICS TRACES
@GEERTVDC

LOGGING
EXAMPLE: REQUEST DURATION
SERVICE REQUEST X FOR USER Y
TOOK 50 MILLISECONDS
@GEERTVDC

LOGGING
EASY TO GENERATE, HARD TO QUERY?
@GEERTVDC

STRUCTURED LOGGING
Log.Information(
“Request by {User} took {Duration}",
user,
duration);
Log.Information(“Request by userA took 35ms");
FROM
TO
@GEERTVDC

STRUCTURED LOGGING
GENERATE LOGS
SERILOG
APPLICATION INSIGHTS
NLOG
@GEERTVDC

STRUCTURED LOGGING
GENERATE LOGS STORE & QUERY LOGS
AZURE
LOG ANALYTICS
SERILOG
APPLICATION INSIGHTS
NLOG
@GEERTVDC

LOGGING
SHOULD YOU SAMPLE?
STORAGE == MONEY
AUDIT LOGS DO NOT SAMPLE
OPERATIONAL LOGS DO SAMPLE
DYNAMIC SAMPLING
@GEERTVDC

METRICS
AGGREGATE INFORMATION INTO TIME SERIES
CREATE REAL TIME GRAPHS OR HISTOGRAPHS
CHEAPER TO STORE
@GEERTVDC

METRICS
50 MILLISECONDS REQUEST IS 15 MILLISECONDS
HIGHER THAN AVERAGE
@GEERTVDC

METRICS
50 MILLISECONDS REQUEST IS 15 MILLISECONDS
HIGHER THAN AVERAGE
IN MECHELEN
ON FRIDAYS
PEOPLE WHO LIKE BEER
@GEERTVDC

DISTRIBUTED TRACING
WHY DID THIS REQUEST TAKE 50
MILLISECONDS -> IT CALLED DB, OTHER
SERVICES?
@GEERTVDC

DISTRIBUTED TRACING
APPLICATION FLOW FROM FRONT TO BACK
USER SESSION
TRANSACTION
AMOUNT OF DATA IN MICROSERVICE
LANDSCAPE?
@GEERTVDC

WHAT TO MEASURE?
USE RED
@GEERTVDC
FOCUS ON YOUR USERS
LOG ALL USER EVENTS

USE RED
UTILIZATION
SATURATION
ERROR RATE
RESOURCE SCOPE
@GEERTVDC

USE RED
UTILIZATION
SATURATION
ERROR RATE
RATE
ERRORS
DURATION
RESOURCE SCOPE REQUEST SCOPE
@GEERTVDC

FEATURE FLAGS
If(_featureFlag.IsEnabled(“NewCheckoutFlow”)
{
log.Information(“NewCheckoutFlow feature used”);
ExecuteNewCheckoutFlow();
}
else
{
log.Information(“LegacyCheckout feature used”);
ExecuteLegacyCheckoutFlow();
}
@GEERTVDC

FEATURE FLAGS
INITIAL DEPLOYMENT

FEATURE FLAGS
INITIAL DEPLOYMENT
BUG FOUND

FEATURE FLAGS
INITIAL DEPLOYMENT
BUG FOUND
SOLVED THE BUG

FEATURE FLAGS
INITIAL DEPLOYMENT
BUG FOUND
SOLVED THE BUG
ROLL OUT TO MORE USERS

FEATURE FLAGS
INITIAL DEPLOYMENT
BUG FOUND
SOLVED THE BUG
ROLL OUT TO MORE USERS
REMOVE FEATURE FLAG

EXPERIMENT IN PRODUCTION
public bool CanAccess(IUser user)
{
return Scientist.Science<bool>("widget-permissions", experiment =>
{
experiment.Use(() => IsCollaborator(user)); // old way
experiment.Try(() => HasAccess(user)); // new way
}); // returns the control value
}
SCIENTIST.NET
@GEERTVDC https://github.com/scientistproject/Scientist.net

FROM OBSERVABILITY
TO OBSERVABILITY DRIVEN DEVELOPMENT
@GEERTVDC

TDD WRITE
TESTS
PASS
TESTS
REFACTOR
@GEERTVDC

PLAN DESIGN DEVELOP TEST DEPLOY OPERATE
TDD
@GEERTVDC

ODDOBSERVABILITY DRIVEN DEVELOPMENT
DEFINE
EXPECTED
OUTCOME
MEASURE
THE
OUTCOME
CHANGE
FEATURE
& KEEP
MEASURING
@GEERTVDC

TDD
WHAT IS THE USER IMPACT?
@GEERTVDC
OBSERVABILITY DRIVEN DEVELOPMENT

TDD
IS THE FEATURE BEHAVING
LIKE WE EXPECTED?@GEERTVDC

TDD
IS THE FEATURE BEHAVING
LIKE WE EXPECTED?
DEPLOYMENT FEEDBACK
@GEERTVDC

KNOWING HOW OUR SYSTEM
OPERATES SHOULD BE IN
OUR SYSTEM AS DEVELOPERS
WHAT IS NORMAL?
RELEASE GATES TO NEXT STAGE?
@GEERTVDC

SLI
SLO
SLA
SERVICE LEVEL INDICATOR
SERVICE LEVEL OBJECTIVE
SERVICE LEVEL AGREEMENT
@GEERTVDC

SLI SERVICE LEVEL INDICATOR
QUANTITATIVE MEASURE FOR YOUR SERVICE
AVAILABILITY
ERROR RATE
DURATION
LATENCY
FRESHNESS
@GEERTVDC

SLO SERVICE LEVEL OBJECTIVE
TARGET MEASURE FOR A SERVICE
MEASURED BY SLIS
AVAILABILITY OF 99.9% FOR LAST 30 DAYS
@GEERTVDC

SLA SERVICE LEVEL AGREEMENT
CONTRACT WITH USERS WITH
CONSEQUENSES WHEN
MISSING YOUR SLO
10% DISCOUNT FOR EACH 0.1%
BELOW AVAILABILITY SLO
@GEERTVDC

HOW TO DO THIS IN PRACTICE?
@GEERTVDC

HOW TO DO THIS IN PRACTICE?
DEFINE AN SLO
BUILD INDICATORS BY LOGGING / METRICS
BUILD A DASHBOARD – START MEASURING
MAKE CHOICES BASED ON SERVICE LEVEL
LEAVE SLA PART FOR SALES PEOPLE

MAKE IT VISIBLE
SLO
AVAILABILITY
99.9954%
@GEERTVDC

MAKE IT VISIBLE
SLO
AVAILABILITY
99.9954%
RING 0
98%
RING 1
99.91%
RING 2
100%
@GEERTVDC

MAKE IT VISIBLE
SLO
AVAILABILITY
99.9954%
RING 0
98%
RING 1
99.91%
RING 2
100%
USER SIGN UP FLOW – 100%
CHECKOUT – 99.91%
SEARCH – 98%
@GEERTVDC

MAKE IT VISIBLE
SLO
AVAILABILITY
99.9954%
RING 0
98%
RING 1
99.91%
RING 2
100%
USER SIGN UP FLOW – 100%
CHECKOUT – 99.91%
SEARCH – 98%
CLIENT A - USER SIGN UP FLOW – 100%
CLIENT A - CHECKOUT – 99.91%
CLIENT A - SEARCH – 90%

TAKEAWAYS
START SMALL AT KEY AREAS OF YOUR APP
EXPLORE TOOLS
EMBRACE TESTING ON PROD!
FOCUS ON CUSTOMERS
TAKE OWNERSHIP OF CODE
@GEERTVDC

@GEERTVDC
THANK YOU!
MOBILEFIRSTCLOUDFIRST.NET

Cloudbrew 2019 observability driven development

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Cloudbrew 2019 observability driven development

Similar to Cloudbrew 2019 observability driven development (20)

More from Geert van der Cruijsen

More from Geert van der Cruijsen (20)

Recently uploaded

Recently uploaded (20)

Cloudbrew 2019 observability driven development