Cowboy dating with big data, Борис Трофімов

COWBOY DATING
WITH BIG DATA
DATA PLATFORM EVOLUTION IN ACTION
BORIS TROFIMOV

НАГРАДЫ PARTNER 2
• Медаль за Kotlin
• Полный кавалер Spring & Spring Boot
• Орден за взятие Kubernetes

UI
MVP
API FACADE
DB
SHARED STORAGE

UI
MVP
API FACADE
DB
ГДЕ
репортинг?
SHARED STORAGE

UI
MVP
API FACADE
DB
3rd PROVIDERS
SHARED STORAGE

PROS
• Fast TTM
• Relatively cheap from infra and cost perspective
CONS
• Tight data and code cohesion
• Different Scaling scenarios
• Performance and Availability issues
SHARED STORAGE

SHARED STORAGE
UI
MVP
API FACADE
OLTP
DATA
PLATFORM
OLAP
3rd PROVIDERS

DATA PLATFORM
DATA PLATFORM
3rd PROVIDERS
SYSTEM
EVENTS
API FACADEDATA PLATFORM

SCHEDULING
UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS

SCHEDULING
DATA PLATFORM
DATA PLATFORM
3rd
PROVIDERS
SYSTEM
EVENTS
DATA PROCESSING SCRIPT
OLAPDATA PROCESSING SCRIPT
API FACADE

SCHEDULING
DATA PLATFORM
3rd
PROVIDERS
SYSTEM
EVENTS
CROND
QUARTZ
…
OLAP
API FACADE
DATA PLATFORM

SCHEDULING
UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS
КАКОЙ
КРОНТАБ?

SCHEDULING
Use prod-ready schedulers
§ Airflow
§ Azkaban
§ Oozie
§ Jenkins?
What we gain
§ Identity control and Audit
§ Job Lineage, Logging and Troubleshooting
§ Tools to design Workflows/DAGs
§ Fault Tolerance features (rerun etc.)

CHAPTER 3 –MONOLITHIC DATA PLATFORM

DATA PLATFORM
3rd PROVIDERS
SYSTEM
EVENTS
Scheduler
OLAP
API FACADE
DATA PLATFORM
DATA PLATFORM

3rd PROVIDERS
SYSTEM
EVENTS
Scheduler
OLAP
DATA PLATFORM
ПОЧЕМУ
ОПЯТЬ
МОНОЛИТ?
API FACADE
DATA PLATFORM

DATA PLATFORM
DWH ANALYTICSREPORTING
DECOUPLING DATA PLATFORM

LOADINGEST
DATA PLATFORM
PROCESS
AirFlow
DATA PLATFORM
3rd PROVIDERS
SYSTEM
EVENTS
DWH
DATA LAKE DWH

LOADINGEST
DATA PLATFORM
PROCESS
AirFlow
3rd PROVIDERS
SYSTEM
EVENTS
DWH
DATA LAKE DWH
LOADINGEST PROCESS

ML TRAINING
DATA PLATFORM
ANALYTICS
OLAP
ML RUNNING
AirFlow
3rd PROVIDERS
SYSTEM
EVENTS
DWH
DATA LAKE DWH
LOADINGEST PROCESS
LOADINGEST PROCESS

DATA PLATFORM
ML TRAINING
DATA PLATFORM
REPORTING
REPORTING ENGINE
ML RUNNING
AirFlow
REPORTING CACHE
REPORTING METADATA
SCHEDULED REPORTS
ANALYTICS
API
FACADE
3rd PROVIDERS
SYSTEM
EVENTS
OLAP
DWH
DATA LAKE DWH
LOADINGEST PROCESS
LOADINGEST PROCESS

ARCHITECTURE DECISIONS
§ Introduce granular reusable steps inside pipelines [ingest, validate, enrich, aggregate
etc.]
§ Separate pipeline per vendor/feed
§ Raw data should be stored inside Data Lake
§ Results of any transformations should be persisted
§ Data Linage, easy troubleshooting
§ Data Replay
§ Separate concerns (Scalability, Fault Tolerance)

TECHNOLOGY STACK
§ Apache NiFi for ingestion
§ Apache Spark/Flink/Presto for processing
§ Hive for Data Lake Storage
§ Hive/Memsql for DWH
§ Vertica/Redshift/Memsql for OLAP

CHAPTER 4
WEAK
DATA ORGANIZATION

INGEST
DWH
ПОЧЕМУ ТАК
ДОЛГО
РАНЯТСЯ
РЕПОРТЫ ???
UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS
AGGREGATE IT

INSIDE THE PROCESS
DATA PLATFORM
ML TRAININGINGEST
DATA PLATFORM
REPORTING
PROCESS
REPORTING ENGINE
ML RUNNING
AirFlow
REPORTING CACHE
REPORTING METADATA
SCHEDULED REPORTS
ANALYTICS
API
FACADE
3rd PROVIDERS
SYSTEM
EVENTS
OLAP
LOAD
DWH
DATA LAKE DWH

COMMON PITFALLS
§ Direct access to Data Lake or cold DWH
§ Reports query RAW data
DATA PLATFORM
ML TRAININGINGEST
DATA PLATFORM
REPORTING
PROCESS
REPORTING ENGINE
ML RUNNING
AirFlow
REPORTING CACHE
REPORTING METADATA
SCHEDULED REPORTS
ANALYTICS
API
FACADE
3rd
PROVIDERS
SYSTEM
EVENTS
OLAP
LOAD
DWH
DATA LAKE DWH

INGESTION
VALIDATION
ENRICHMENT
BATCH 1
HDFS/HIVE/...
RAW FACT TABLE
BATCH 2
AGGREGATOR
HDFS/HIVE/…
AGGREGATION TABLE
BATCH 1 BATCH 2
INTRODUCE AGGREGATIONS

INGESTION
VALIDATION
ENRICHMENT
BATCH 1
HDFS/HIVE/...
RAW FACT TABLE
BATCH 2
AGGREGATOR
HDFS/HIVE/…
AGGREGATION TABLE
BATCH 1 BATCH 2
BATCH 3

INGESTION
VALIDATION
ENRICHMENT
BATCH 1
HDFS/HIVE/...
RAW FACT TABLE
BATCH 2
AGGREGATOR
HDFS/HIVE/…
AGGREGATION TABLE
BATCH 1 BATCH 2
BATCH 3
BATCH 3

date hour user_cookie creative_id clicked
05/21/19 03 4444444 123 1
05/21/19 03 5555555 321 1
05/21/19 03 6666666 321 1
05/21/19 04 7777777 567 1
impressions
creative_id campaign_id
123 1
321 1
567 2
campaigns
date hour campaign_id creative_id clicked
05/21/19 03 1 123 1
05/21/19 03 1 321 2
05/21/19 04 2 567 1
performance_ad

AVAILIABILITY
UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS

AVAILIABILITY
UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS
ГДЕ МОИ
РЕПОРТЫ?

THINGS EASY TO MISS
AVAILABILITY
§ Be aware of Data Availability vs System Availability
§ Use multiple storages
§ Chose wise between Kappa and Lambda architectures
§ Design solution to be scale-enabled
§ Introduce effective monitoring
§ Know your data latency and design solution based on it

THINGS EASY TO MISS
FAULT TOLERANCE
§ Every job should be fail-ready and retry-able by design
§ Enable multiple attempts on scheduler side
§ Use idempotent sinks
§ Implement backpressure: Use Pull over Push, address Blob/S3/HDFS or Kafka
§ Develop Spark* applications cluster-agnostic, easy to switch clusters
§ Separate applications between multiple clusters (EMR)

THINGS EASY TO MISS
EFFECTIVE MONITORING
§ Collect system and app-specific metrics
§ Use local monitoring agents
§ Make local daemons as part of terraform/chef scripts
§ Measure data availability [ in-rate, out-rate, lag]
Bandar-Log https://github.com/VerizonAdPlatforms/bandar-log/
§ Think about Datadog [local agents, dashboards, monitors, notes]

DASHBOARD EXAMPLE [AGGREGATIONS]

CHAPTER 6 – SCHEMA EVOLUTION

SCHEMA EVOLUTION
UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS

UI
MVP
API FACADE
OLTP
Data Platform
OLAP
3rd PROVIDERS
ПОЧЕМУ ТАК
ДОЛГО
ДЕЛАЮТСЯ
ИЗМЕНЕНИЯ?
SCHEMA EVOLUTION

SCHEMA EVOLUTION PROBLEMS
§ Meet new feeds & data providers
§ Change apps to support updated data schemas
§ Update DB schemas and data
§ Lack of single source of metadata

DATA PLATFORM
INGEST
REPORTING
PROCESS LOAD
3rd PROVIDERS
SYSTEM
EVENTS
RAW
AirFlow
DWH ANALYTICS
API
FACADE
DATA PLATFORM
INTRODUCING SCHEMA MANAGER
PROCESSED AGGREGATED AGGREGATIONS

DATA PLATFORM
INGEST
REPORTING
PROCESS LOAD
3rd PROVIDERS
SYSTEM
EVENTS
RAW
AirFlow
DWH ANALYTICS
API
FACADE
DATA PLATFORM
INTRODUCING SCHEMA MANAGER
PROCESSED AGGREGATED AGGREGATIONS
SCHEMA
MANAGER

DESIGN DECISIONS
§ SEPARATE CODE AND SCHEMA
Keep code schema-agnostic
Let Schema Manager be Single Source of Truth
Think about introducing dynamic validation and enrichment rules
§ SCHEMA FORMAT
Avro as a Serde engine
Avro as a Contract
§ TECHNOLOGY STACK
Confluent Schema Registry
Apache Atlas

CHAPTER 7
INTRODUCE
DATA ENGINEERING

DATA ENGINEERING DATA ANALYSIS
INGESTION & ETL
§ Flexible data pipelines
INTEGRATION
§ Multiple data vendors
WAREHOUSING
§ Efficient data organization
REPORTING
§ Organizing data into
informational summaries
DATA ANALYTICS
§ Find meaningful
correlations between data
DATA MININIG
§ Extract new knowledge
DATA SCIENCE
§ Insights
§ Modes & Predictions
§ Machine Learning
VISUALISATION
§ Get insights
DATA INFRASTRUCTURE
RELIABLE SERVICES
§ Private vs public clouds
§ Quick scale out/down
§ Instant deployments
§ Efficient maintenance
§ Infrastructure through code
MONITORING
§ Big Picture and total control
on every service
§ Metrics and Alerts
BIG DATA WORLD

SHARING RESPONCIBILITY TO DATA
Separate expertise
Involve Data Engineers to make Data Platform
better and faster

Cowboy dating with big data, Борис Трофімов

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Cowboy dating with big data, Борис Трофімов

Similar to Cowboy dating with big data, Борис Трофімов (20)

More from Sigma Software

More from Sigma Software (20)

Recently uploaded

Recently uploaded (20)

Cowboy dating with big data, Борис Трофімов