Spark streaming tutorial

Spark Streaming
2017. 8
김민호

Spark Intro
• In-memory 기반 범용 클러스터 컴퓨팅 엔진
- 하둡 맵리듀스보다 100배 빠름(공홈에서 주장)
• Unified Engine
- batch/stream, SQL 및 Machine learning, Graph processing 제공
• 다양한 언어 지원
- Java, Scala, Python, R
• 여러 클러스터 매니저를 지원하여 다양한 환경에서 구동 가능
- Standalone, YARN, mesos 등

Spark Philosophy
• Unified engine
• High-level APIs
• Integrate broadly

Why Spark Streaming?
데이터를 실시간으로 바로 처리 하고 싶어요
“웹사이트를 모니터링할 수 없을까요?”
“이거 추가되거나 삭제되면 바로 반영해주세요”
“실시간 데이터로 머신러닝 모델을 학습시키고 싶어요”
“문제를 바로 알고 싶어요”
Website monitoring Fraud detection ML from streaming data

Why Spark Streaming?
• Integration with Batch Processing
같은 프레임워크에서 배치와 스트리밍을 같이 처리하고 싶어요
“배치는 MapReduce, 스트리밍은 Storm…”
“유지 보수가 너무 어려워요 ㅠㅠ”
“배치를 쉽게 스트리밍으로 바꿀수 없을까요?”

What is Spark Streaming?
• 배치를 작게해서 스트리밍처럼 돌리자
- 스트림 데이터를 시간 간격으로 분할
- 분할된 데이터를 대상으로 배치 수행
- 각 배치는 기존의 Spark job과 동일하게 처리
Spark
Streaming
live data stream
batches of input data
Spark
Engine
processed result
RDD

Streaming Context
• Spark streaming을 사용하기 위해서 제일 먼저 생성하는 인스
턴스
- SparkContext, SparkSession과 비슷
• 어떤 주기로 배치 처리를 수행할지에 대한 정보를 함께 제공
• SparkConf나 SparkContext를 이용해 생성

Programming Model - DStream
• Discretized Stream(Dstream)
- 끊임없이 생성되는 연속된 데이터를 나타내기 위한 데이터 모델
- 일정 시간마다 데이터를 모아서 RDD를 만들어줌
- RDD로 구성된 시퀀스
Reference : zero-to-streaming-spark-and-cassandra

그림과 함께 보는 예제
Spark
Streaming
live data stream
batches of input data
Spark
Engine
processed result

Example – Twitter 데이터와 놀아보기
• 살펴볼 예제
- 초당 생성되는 트윗 수 세어보기
- 최근 10초동안 생성되는 트윗 중 가장 많이 사용되는 단어수를 매 초마
다 확인하기
- 지금부터 유저별 트위터 작성 수 집계하기
예제 저장소 : https://github.com/eoriented/spark-streaming-tutorial

예제 저장소
• https://github.com/eoriented/spark-streaming-tutorial
Star 버튼을 눌러주시
면 호랑이 기운이 솟아
나요!!

Tutorial - 1
• 초당 생성되는 트윗 수 세기
- Twitter API Credential 발급 받기
• https://apps.twitter.com/
• 위 홈페이지에서 Twitter API를 사용할 수 있는 토큰들을 발급 받을 수 있음

Tutorial - 1
• 초당 생성되는 트윗 수 세기

Tutorial - 2
- 최근 10초동안 많이 사용되는 단어수를 매 초마다 확인하기
• 예제를 살펴 보기 전에 Window 개념 익히기

Window-based Transformations
• 이전에 수행된 배치의 결과를 반영해서 사용하는 경우 사용

Tutorial - 2
- 최근 10초동안 사용되는 단어수를 매 초마다 확인하기

Tutorial - 3
- 지금부터 생성되는 유저별 트위터 작성 수 집계하기

Tutorial - 3
- 지금부터 생성되는 유저별 트위터 작성 수 집계하기
• 스트리밍에서는 매번 새로운 데이터를 대상으로 집계를 수행
• 이전에 처리했던 결과를 반영하기 위해서 stateful 방식의 집계를 제공

실제 업무에 적용하려면?

Data source
• 지원하는 데이터 소스
- Default data source
• Socket
• 파일 (HDFS 호환 파일 가능)
• RDD Queue
- Advanced data source (외부 연동 라이브러리)
• Kafka
• Flume
• Kinesis
• Twitter
- Receiver를 직접 구현

Data source
• Custom Receiver
- 만일 내가 원하는 Data source가 존재하지 않는다면?
• Custom Receiver로 구현
- http://spark.apache.org/docs/latest/streaming-custom-receivers.html
- onStart 메소드와 onStop 메소드를 구현

Fault tolerance
• Check Point
- Metadata checkpoint
• 드라이버의 장애 대응
- Data checkpoint
• 최종 상태의 데이터를 빠르게 복구하기 위한 용도
- 파일 시스템
• HDFS, S3, local FS(test용) 등이 사용 가능

성능 고려사항
• 배치 / 윈도우 사이즈
- 500ms 가 적당
- 큰 배치로 시작하여 작은 사이즈로 낮춰가면서 배치 사이즈 결정 추천
• 병렬화
- 리시버 개수 늘리기
• 하나의 리시버가 받는게 아닌 여러 리시버가 받아서 처리하는게 효율적
- Repartitioning
• 입력 스트림의 파티션을 재설정하여 처리
• 메모리 튜닝
- GC 옵션 튜닝
- Spark.cleaner.ttl 옵션을 이용하여 RDD 제거 시간 조정

Streaming Example
Reference : https://databricks.com/blog/2016/07/28/structured-streaming-in-apache-spark.html

A few challenges
• Consistency
• Fault tolerance
• Out-of-order data

Structured Streaming Intro
• Basic concepts

• Programming Model for Structured Streaming

• Output
- Complete Mode
- Append Mode
- Update Mode

• Output – Complete Mode
Reference : https://www.slideshare.net/SangbaeLim/spark-bootcamp2017inseoul-finalpt20170626distv1

• Output – Append Mode

• Output – Update Mode

Spark SQL vs Structured Streaming

Example
• Structured Streaming을 이용한 Wordcount 예제 3가지
- Word count
- Word count with window operations
- Word count with watermarking

Example – Wordcount with window operation
• Window Operations on Event Time

Example – Wordcount with window operation

Example – Wordcount with watermarking
• Handling Late Data and Watermarking

Example – Wordcount with watermarking

Reference
• Structure streaming in apache spark : https://databricks.com/blog/2016/07/28/structured-streaming-in-apache-
spark.html
• Spark streaming, 권혁진 : https://www.slideshare.net/SangbaeLim/spark-bootcamp2017inseoul-finalpt20170626distv1
• 빅데이터 분석을 위한 스파크2 프로그래밍, 백성민, 위키북스
• Learning Spark, Matei Zaharia, Holden Karau, Andy Konwinski, Patrick Wendell, O’Reilly Media

Spark streaming tutorial

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Spark streaming tutorial

Similar to Spark streaming tutorial (20)

Spark streaming tutorial

Editor's Notes