Dok Talks #115 - What More Can I Learn From My OpenTelemetry Traces?

What More Can I Learn from My
OpenTelemetry Traces?
Analyzing traces with SQL
February 1, 2022
John Pruitt

What we will
cover today 👀
01
02
Context: Tracing..? 🤔
Our Example System
● Request Rates / Error Rates
● Request Durations
● Service Dependencies
● Upstream Spans
● Downstream Spans
04 Q&A!
03 Building Grafana Dashboards for Traces

A trace is a tree of spans
SPAN1
SPAN2 SPAN3 SPAN4
SPAN5 SPAN6 SPAN7 SPAN8
SPAN9 SPAN10

A trace is also a time series
SPAN1
SPAN2 SPAN3 SPAN4
SPAN5 SPAN6 SPAN7 SPAN8
SPAN9 SPAN10
TIME

By the end of this talk, you will be able to build this 🙌

02
Our Example System
An Absurd Password Generator

LOAD
GENERATOR
DIGIT
UPPER
LOWER
SPECIAL
OTEL
COLLECTOR
PROMSCALE
COLLECTOR
PROMSCALE

03
Building Grafana
Dashboards for Traces
Using simple (but powerful) SQL

Request Rates / Error Rates
A simple dashboard to get started

SELECT
time_bucket('1 minute', start_time) as time,
count(*) / 60.0 as req_per_sec
FROM ps_trace.span s
WHERE s.start_time >= now() - interval '5 minutes'
AND parent_span_id is null -- just the root spans
GROUP BY 1
ORDER BY 1
1 Requests per second

SELECT
time_bucket('1 second', start_time) as time,
count(*) as req_per_sec
WHERE s.start_time >= now() - interval '5 minutes'
AND parent_span_id is null -- just the root spans
GROUP BY 1
ORDER BY 1
2 Requests per second

Errors by service
SELECT
service_name,
count(*) as num_err
FROM ps_trace.span
WHERE $__timeFilter(start_time)
AND status_code = 'STATUS_CODE_ERROR'
GROUP BY 1

Errors by operation
SELECT
x.service_name,
x.span_name,
x.num_err::numeric / x.num_total as err_rate
FROM
(
SELECT
service_name,
span_name,
count(*) filter (where status_code = 'STATUS_CODE_ERROR') as num_err,
count(*) as num_total
FROM ps_trace.span
GROUP BY 1, 2
) x
ORDER BY err_rate desc

Error rates by operation over time

Error rates by operation over time
SELECT
x.time,
x.service_name,
x.span_name,
x.num_err::numeric / x.num_total as err_rate
FROM
(
SELECT
service_name,
span_name,
count(*) filter (where status_code = 'STATUS_CODE_ERROR') as num_err,
count(*) as num_total
FROM ps_trace.span
GROUP BY 1, 2, 3
) x
ORDER BY time

Request Durations
A somewhat more complex dashboard…

SELECT
trace_id,
start_time,
duration_ms,
FROM ps_trace.span
AND parent_span_id is null
ORDER BY duration_ms DESC
LIMIT 10
Slowest requests

Histogram of request durations

Histogram of request durations
SELECT duration_ms
FROM ps_trace.span

Distribution of request durations over time

Distribution of request durations over time
SELECT
start_time as time,
duration_ms
FROM ps_trace.span
ORDER BY 1

Request duration percentiles over time

SELECT
r.time,
'p' || lpad((p.p * 100.0)::int::text, 2, '0') as percentile,
approx_percentile(p.p, percentile_agg(r.duration_ms)) as duration
FROM
(
SELECT
duration_ms
FROM ps_trace.span
) r
CROSS JOIN
(
SELECT unnest(ARRAY[.01, .5, .75, .9, .95, .99]) as p
) p
GROUP BY r.time, p.p
ORDER BY r.time
Request duration percentiles over time

Service Dependencies
A real-time minimap!

SELECT
value#>>'{}' as id,
value#>>'{}' as title
FROM _ps_trace.tag
WHERE key = 'service.name'
SELECT
p.service_name || '->' || k.service_name as id,
p.service_name as source,
k.service_name as target,
k.span_name as "mainStat",
count(*) as "secondaryStat"
FROM ps_trace.span p
INNER JOIN ps_trace.span k
ON (p.trace_id = k.trace_id
AND p.span_id = k.parent_span_id
AND p.service_name != k.service_name)
WHERE $__timeFilter(p.start_time)
GROUP BY 1, 2, 3, 4
Service dependencies

SELECT
p.service_name as source,
k.service_name as target,
k.span_name,
count(*) as calls,
sum(k.duration_ms) as total_exec_ms,
avg(k.duration_ms) as avg_exec_ms
FROM ps_trace.span p
INNER JOIN ps_trace.span k
ON (p.trace_id = k.trace_id
AND p.span_id = k.parent_span_id
AND p.service_name != k.service_name)
WHERE $__timeFilter(p.start_time)
GROUP BY 1, 2, 3
ORDER BY total_exec_ms DESC
Service dependencies

Upstream Spans
Analyzing the traces’ tree structure

WITH RECURSIVE x AS
(
SELECT
trace_id, span_id, parent_span_id,
service_name, span_name
FROM ps_trace.span
AND service_name = '${service}'
AND span_name = '${operation}'
UNION ALL
SELECT
s.trace_id, s.span_id, s.parent_span_id,
s.service_name, s.span_name
FROM x
INNER JOIN ps_trace.span s
ON (x.trace_id = s.trace_id
AND x.parent_span_id = s.span_id)
)
SELECT
md5(service_name || '-' || span_name) as id,
span_name as title,
service_name as "subTitle",
count(*) as "mainStat"
FROM x
GROUP BY service_name, span_name
Upstream spans (nodes)

WITH RECURSIVE x AS
(
SELECT
trace_id, span_id, parent_span_id, service_name, span_name,
null::text as id,
null::text as target,
null::text as source
FROM ps_trace.span
UNION ALL
SELECT
s.trace_id, s.span_id, s.parent_span_id, s.service_name, s.span_name,
md5(s.service_name || '-' || s.span_name || '-' || x.service_name || '-' || x.span_name) as id,
md5(x.service_name || '-' || x.span_name) as target,
md5(s.service_name || '-' || s.span_name) as source
FROM x
AND x.parent_span_id = s.span_id)
)
SELECT DISTINCT x.id, x.target, x.source
FROM x
WHERE id is not null
Upstream spans (edges)

Downstream Spans
Analyzing both the tree + the time series

WITH RECURSIVE x AS
(
SELECT trace_id, span_id, parent_span_id, service_name, span_name
FROM ps_trace.span
AND service_name = '${service}' AND span_name = '${operation}'
UNION ALL
SELECT s.trace_id, s.span_id, s.parent_span_id, s.service_name, s.span_name
FROM x
AND x.span_id = s.parent_span_id)
)
SELECT
md5(service_name || '-' || span_name) as id,
span_name as title, service_name as "subTitle", count(*) as "mainStat"
FROM x
GROUP BY service_name, span_name
Downstream spans (nodes)

WITH RECURSIVE x AS
(
SELECT trace_id, span_id, parent_span_id, service_name, span_name,
null::text as id,
null::text as source,
null::text as target
FROM ps_trace.span
UNION ALL
SELECT s.trace_id, s.span_id, s.parent_span_id, s.service_name, s.span_name,
md5(s.service_name || '-' || s.span_name || '-' || x.service_name || '-' ||
x.span_name) as id,
md5(x.service_name || '-' || x.span_name) as source,
md5(s.service_name || '-' || s.span_name) as target
FROM x
AND x.span_id = s.parent_span_id)
)
SELECT DISTINCT x.id, x.source, x.target
FROM x
WHERE id is not null
Downstream spans (edges)

Total execution time by operation

WITH RECURSIVE x AS
(
s.duration_ms - coalesce(
(
SELECT sum(z.duration_ms)
FROM ps_trace.span z
WHERE s.trace_id = z.trace_id AND s.span_id = z.parent_span_id
), 0.0) as duration_ms
WHERE $__timeFilter(s.start_time) AND s.service_name = '${service}' AND s.span_name = '${operation}'
UNION ALL
(
FROM x
INNER JOIN ps_trace.span s ON (x.trace_id = s.trace_id AND x.span_id = s.parent_span_id)
)
SELECT service_name, span_name, sum(duration_ms) as total_exec_time
FROM x
GROUP BY 1, 2
ORDER BY 3 DESC
Total execution time by operation

Total execution time by operation over time

WITH RECURSIVE x AS
(
SELECT time_bucket('15 seconds', s.start_time) as time,
(
UNION ALL
SELECT time_bucket('15 seconds', s.start_time) as time,
(
FROM x
INNER JOIN ps_trace.span s ON (x.trace_id = s.trace_id AND x.span_id = s.parent_span_id)
)
SELECT time, service_name || ' ' || span_name as series, sum(duration_ms) as exec_ms
FROM x
GROUP BY 1, 2 ORDER BY 1
Total execution time by operation over time

WITH RECURSIVE x AS
(
(
), 0.0) as duration_ms,
s.status_code = 'STATUS_CODE_ERROR' as is_err
UNION ALL
(
), 0.0) as duration_ms,
s.status_code = 'STATUS_CODE_ERROR' as is_err
FROM x INNER JOIN ps_trace.span s ON (x.trace_id = s.trace_id AND x.span_id = s.parent_span_id)
)
SELECT service_name, span_name as operation,
sum(duration_ms) as total_exec_time,
approx_percentile(0.5, percentile_agg(duration_ms)) as p50,
count(*) FILTER (WHERE x.is_err) as num_errors
FROM x
GROUP BY 1, 2 ORDER BY 3 DESC
Operation execution times

Thank you!
Chat with us 👉 slack.timescale.com
tsdb.co/opentelemetry-demo

Dok Talks #115 - What More Can I Learn From My OpenTelemetry Traces?

Recommended

Recommended

More Related Content

Similar to Dok Talks #115 - What More Can I Learn From My OpenTelemetry Traces?

Similar to Dok Talks #115 - What More Can I Learn From My OpenTelemetry Traces? (20)

More from DoKC

More from DoKC (20)

Recently uploaded

Recently uploaded (20)

Dok Talks #115 - What More Can I Learn From My OpenTelemetry Traces?