올여름~
지금 어때 ~여기어때~ 둘이 어때~
원설아 | Confluent | swon@confluent.io
윤선정 | Imply | sunny.yoon@imply.io
Confluent+ Imply로 데이터 분석가부터 기알못까지 모두가 사용할 수
있는 실시간 최신 데이터 분석 애플리케이션 구축하기
Kafka / Confluent소개
1) https://kafka.apache.org/
o 2012년 Apache Incubator
과정을 벗어나 최상위
프로젝트가 됨
o Fortune 100 기업 중 80%
이상이 Apache Kafka를 사용1)
o Kafka 창시자(Jay Kreps)가 만든 회사
o 2014년 설립
o Mountain View, CA
o 2021년 6월 IPO (기업공개, Nasdaq
상장)
Confidential. Do not redistribute.
5.
Confidential. Do notredistribute.
Druid / Imply소개
● 2015 년 설립
● Apache Druid 개발자들이 설립
● Series D
● 본사 : 미국 캘리포니아
● Apache Druid 기반의 최신 분석
애플리케이션 구축을 위한
데이터베이스
● 2010년에 Apache 프로젝트로
시작
● 오픈 소스 분산 데이터 저장소
● 데이터 웨어하우스, 시계열
데이터베이스 및 검색 시스템의
아이디어가 결합된 광범위한
사용사례를 위한 고성능 실시간
분석 데이터 베이스
6.
Agenda
지금 어때? 데이터산업의 현황
여기 어때? 분석애플리케이션 데모
둘이 어때? K2D stack (Kafka+Druid) /
활용사례
Organizations need datato meet them where
they are
8
Monolithic Data Warehouse Decentralized Architecture based
on Data In Motion
9.
Confidential. Do notredistribute.
데이터웨어하우
스
데이터레이크
데이터 소스데이터 소스
데이터 소스
ELT
KSQL
이벤트
웹 제조
네트워크 IoT
10.
Confidential. Do notredistribute.
데이터 아키텍처
데이터 소스 스트리밍 데이터
(Kafka, Kinesis)
데이터 프로세싱
(Databricks, Fivetran)
배치 데이터
(S3, HDFS,etc)
분석
애플리케이션
데이터 웨어하우스
(Snowflake, Redshift,
etc)
비즈니스
인텔리전스(BI)
11.
Confidential. Do notredistribute.
분석 서비스
사용자 분석
사용자 분석
SecOps
네트워크 엔드포인트
앱 모니터링
eyeSegment
내부사용자를 위한
분석
외부 사용자를 위한 분석
조사
데이터 분야의 차세대 변화:
modern analytics
applications
(최신 분석 애플리케이션)
사기 통찰력
사용자 분석
+
Confidential. Do notredistribute.
Confluent + Imply = 실시간 분석의 표준
웹
제조
네트워크
IOT
BI 도구
대시보드 &
리포트
실시간 분석
API
커스텀 시각화
근본 원인 분석
대화형 데이터 앱
15.
Confidential. Do notredistribute.
Confluent Platform는 데이터를 가져오는 대상인 Data Source 및 데이터를 내보내는 대상인 Data Sink가 될 수 있는 다양한 대상 시스템들과
손쉽게 연결하기 위한 다양한 Connector들을 제공합니다. 대상 source 및 sink와 Confluent Platform간 연결을 위해 client를 별도로 개발하지
않고 Connector와 설정만으로 쉽게 연결할 수 있으므로, 개발 소스 관리 및 유지 보수를 피할 수 있습니다.
Connectors
다양한 Connector 지원
Pre-built Connectors Connector Hub
Data
Diode
100+
pre-built
connectors
80+ Confluent 지원
20+ Partner 지원, Confluent 검증
▪ Connector를 쉽게 검색:
- Source 및 Sinks
- Confluent 및 Partner supported
- Commercial 및 Free
- Confluent Cloud에서도 동일하게 사용
가능
▪ https://www.confluent.io/hub
16.
Confidential. Do notredistribute.
Confluent Platform은 여러 개의 서로 다른 분산 시스템을 연결해야 했던 기존의 스트림 처리 아키텍처를 대폭 단순화한 ksqlDB를 제공합니다.
익숙한 SQL syntax를 사용하여 수행되므로 이벤트 스트리밍 처리 애플리케이션 구축 과정을 크게 단순화할 수 있습니다.
ksqlDB
스트리밍 처리용 데이터베이스
DB
CONNECTOR
CONNECTOR
APP
APP
DB
STREAM
PROCESSING
CONNECTOR APP
DB
2
3
4
1
기존 스트림 처리 아키텍처 ksqlDB 기반의 스트림 처리 아키텍처
DB
APP
APP
DB
PULL
PUSH
CONNECTORS
STREAM PROCESSING
STATE STORES
ksqlDB
1 2
APP
● 두 개의 시스템으로 간단하게 구성
① 스트림 처리를 위한 ksqlDB
② 이벤트 데이터를 저장하기 위한 Kafka Cluster는 동일
● ksqlDB가 다른 시스템들의 기능들을 포함
- ksqlDB내의 Connector를 사용하여 기존 시스템 연결
- 가져온 이벤트에 대한 스트림 처리 수행
- 애플리케이션에 Query를 제공하기 위한 상태 저장소
● 익숙한 SQL syntax를 사용하여 이벤트 스트리밍 애플리케이션을 개발
● Pull/Push 방식 제공
ksqlDB를 통한 통합 구성
● 여러 개의 서로 다른 분산 시스템을 복잡하게 연결해야만 함
① 기존 데이터 저장소에서 데이터를 수집하기 위한 Connector cluster
② 이벤트 데이터 저장용 Kafka Cluster
③ 이벤트를 가져와서 스트림 처리 수행후 Kafka에 다시 저장
④ 애플리케이션에 Query를 제공하기 위한 시스템에 처리된 이벤트 저장
● 성능이 뛰어나고 확장 가능하며 안전한 아키텍처를 만들고 통합하기
어려움
서로 다른 분산 시스템을 연결하고 관리해야만했던 문제점
Confidential. Do notredistribute.
Segment 형식으로 데이터를 저장
Indexer Data Node
Segment
• Column기반
• 한번 생성되면 변경되지 않음
• 읽기와 쓰기간의 경합 없음
• 하나의 스레드가 하나의 세그먼트를
스캔
...
...
events
19.
Confidential. Do notredistribute.
확장가능한 아키텍처
Indexer Historical
Query Broker
Query
Result
...
... ...
events
SQL
Results
● 3 개의 주요 서비스
○ Query Broker
○ Indexer (Ingestion)
○ Historical (Ingested Data)
● 각각 독립적으로 확장
20.
Confidential. Do notredistribute.
빠른 쿼리속도를 위해 설계된 쿼리엔진
Indexer
Data
Nodes
..
.
..
. Query Brokers
SQL
Results
events
● 2 개의 쿼리 언어 지원
○ Native JSON
○ SQL
● 새로 수집된 데이터 + 히스토리컬
데이터
○ Middle Manager, Historical
● 병렬처리
○ 데이터 노드에서 쿼리 수행
○ 쿼리 엔진이 관련된 세그먼트를
제공할 노드를 결정
● 빠른 응답 시간
21.
Confidential. Do notredistribute.
실시간 분석 애플리케이션을 위한 K2D(Kafka® to Druid®)
스택
이벤트 스트리밍 플랫폼 실시간 분석 데이터베이스
22.
Confidential. Do notredistribute.
와 의 K2D 사례
Confluent Health+는 Confluent Cloud 고객에게
이동 중인 데이터 인프라의 건전성을 보장하고 사업
중단을 최소화하는데필요한 가시성을 제공합니다.
Health+는 지능형 경고, 클라우드 기반 모니터링과
시각화 및 효율적인 서포트 경험을 제공합니다.
“당사는 Kafka와 Druid로 구동되는 통합가시성
(Observability) 플랫폼을 구축했습니다. 이 솔루션은
초당 350만 개 이상의 이벤트를 수집하고 수백 개의
쿼리를 처리합니다. 이를 통해 Confluent Cloud 내
수천 개의 Kafka 클러스터 운영에 대한 실시간
통찰력을 얻을 수 있습니다.”
- Jay Kreps,
CEO, Confluent
Imply Clarity는 실시간 모니터링과 성능 튜닝을
수행하는 시각적 분석 도구입니다. Imply Clarity는
문제가 발생하기 전에 파악하여 신속하게 시각화하고
탐색하여 근본 원인을 분석할 수 있도록
설계되었습니다.
“이동 중인 데이터가 가진 효력을 활용하기 위해
당사는 회사 차원에서 Confluent Cloud/Kafka
기반으로 구축합니다. Confluent Cloud/Kafka와 함께
Imply 기술을 활용하여 내부 통합가시성
(Observability) 애플리케이션, 기술 워크샵 및
외부사용자를위한 Imply Clarity서비스를
구축합니다.”
- Fangjin Yang,
CEO, Imply
Confluent Health+ Imply clarity
23.
Health + :Monitoring dashboard
Confidential. Do not redistribute.
24.
What is Health+?
24
●Intelligent alerts: manage Health+ intelligent
alerts via Confluent Cloud’s UI
● Accelerated Confluent Support: Support uses
the performance metadata to help you with
questions or problems even faster.
● Monitoring dashboards: view all of your critical
metrics in a single cloud-based dashboard.
● Confluent Telemetry Reporter: send
performance metadata back to Confluent via
Confluent Telemetry Reporter plugin.
25.
Confidential. Do notredistribute.
Kafka to Druid 유즈케이스
실시간 분석 및 인텔리전스
• 클릭스트림 분석, 위험/사기분석, 서버
메트릭 스토리지 등
사용자 활동 및 행동
• 사용자 참여 (User engagement) 측정 및
제품 릴리즈를 위한 A/B테스트 데이터
추적
네트워크 플로우
• netflow 수집 및 분석
애플리케이션 성능 관리
• 애플리케이션에서생성된 운영데이터 추적
IoT 및 장비 메트릭
• 서버 및 장비 메트릭에 대한 시계열
솔루션으로 활용
OLAP 및 비즈니스 인텔리전스
디지털 마케팅
등등
26.
Confidential. Do notredistribute.
Twitter’s MoPub provides monetization solutions for mobile app publishers and
developers (acquired by AppLovin)
Details
● Metrics from advertising auctions, bids, clicks, and views
○ Visualize trends
○ Compare previous date ranges
○ Ad-hoc queries
● https://developers.mopub.com/publishers/tools/mopub-analytics/
By the Numbers
● 13 months of raw data
○ Enables year-over-year comparisons
● 52,000+ apps
● Monthly
○ 1.7B monthly unique devices
○ 1T+ monthly ad requests
● Daily
○ 30B ad requests --> 150TB of raw log
● 80+ dimensions, 25+ metrics
● Druid cluster: 1000+ nodes
App Publishers
App Developers
Advertisers
Imply Pivot
clicks,
views, etc.
Ad server
bid,
auction
events
ads
Mopub
27.
Confidential. Do notredistribute.
“Druid provides more dimensions and
longer data retention, plus instant statistical
slice and dice when compared to previous
technology (AWS Redshift)”
Netflix maintains a central Druid cluster of 100s of nodes to serves many internal use cases.
● AWS capacity planning
○ Analysis of AWS infrastructure costs
○ 100,000+ EC2 instances
● A/B testing platform
○ Visualize how experiments are performing
● Payments
○ Analyze payment types (credit card vs Paypal vs …)
● Algorithm Performance
● Security Infrastructure
○ Monitor infrastructure and detect anomalies
● Quality of User Experience: Client Performance
○ 125B data points daily
○ App launch time, Play Delay, etc.
○ Dimensions: Device, Geo, Network, etc.
● AWS Network Flow analysis
● Application Monitoring (Suro)
Confidential. Do notredistribute.
Druid Summit On the Road - Seoul ! 2022년 10월 20일
Save your Seat now!
30.
Confidential. Do notredistribute.
유용한 정보
● Imply 무료 트라이얼 :
https://imply.io/get-started/
● 분기별 핸즈온 워크샵 등록
https://go.imply.io/Korean-Druid-Workshop-Registration.html
31.
행사 안내: 온라인설문조사
Confluent와 Imply의 온라인 설문조사에 참여해주세요! 소중한 의견을 보내주시면 향후
행사에 반영하겠습니다.
추첨을 통해 총 다섯 분께 Confluent와 Imply의 굿즈 패키지를 보내드리겠습니다.
Confidential. Do not redistribute.