SlideShare a Scribd company logo
1 of 12
Download to read offline
빅데이터 ~ 머싞(딥)러닝
실무로 배우는 빅데이터 기술
 Spark Streaming 활용 1/2
☆ 확장하기 – 19편 ☆
김강원
스파크 스트리밍(Streaming) 는?
실시간으로 발생하는 데이터를 마이크로 배치 방식으로 처리하는
스파크 기술
※ Spark Streaming 기본 개념과 기능들은 구글링을 통해 확인 하세요!
파일럿 프로젝트 확장 (1/2)
스파크 스트리밍
(Spark Streaming)
책 172 페이지 중에서… (개정판)
스파크 스트리밍
실시간처리 활용
파일럿 프로젝트 확장 (2/2)
확장편 실습
Spark Streaming
( 실시간 처리 활용 1/2 )
 Spark 드라이버 클래스 열기
com.wikibook.bigdata.smartcar.sparkstream > New > Class > SmartCarSparkStreaming.java
Step-1
 Spark 드라이버 클래스 개발 1 – 라이브러리 Import 확인
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Pattern;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;
import scala.Tuple2;
Step-2
 Spark 드라이버 클래스 개발 2 – JavaPairReceiverInputDStream
String zkServer = "server02.hadoop.com:2181";
String consumerGroup = "TestGroup";
String topic = "SmartCar-Topic";
int threadNum = 1;
int mBatchTime = 1000;
SparkConf sparkConf = new SparkConf().setAppName("SmartCarStreaming");
JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, new Duration(mBatchTime));
Map<String, Integer> topicMap = new HashMap<>();
topicMap.put(topic, threadNum);
JavaPairReceiverInputDStream<String, String> kafkaMsg= KafkaUtils.createStream(jssc, zkServer, consumerGroup, topicMap);
 Spark 드라이버 클래스 개발 3 – JavaDStream
JavaDStream<String> dStream = kafkaMsg.map( new Function<Tuple2<String, String>, String>() {
private static final long serialVersionUID = 1L;
@Override
public String call(Tuple2<String, String> tuple2) {
return tuple2._2();
}
});
dStream.print();
Step-4
Step-3
 Spark 드라이버 클래스 개발 5 – JavaPairDStream
JavaPairDStream<String, Integer> drivingInfoStream = dStream.mapToPair(new PairFunction<String, String, Integer>() {
private static final long serialVersionUID = 1L;
@Override
public Tuple2<String, Integer> call(String s) {
String carNum = "";
int carSpd = 0;
String result[] = COM.split(s);
if(result.length == 8) {
carNum = result[1];
carSpd = Integer.parseInt(result[6]);
}
return new Tuple2<>(carNum , carSpd);
}
})
Step-6
 Spark 드라이버 클래스 개발 4 – 콤마 패턴 멤버변수 정의
private static final Pattern COM = Pattern.compile(",");
Step-5
 Spark 드라이버 클래스 개발 5 – reduceByKeyAndWindow
.reduceByKeyAndWindow( new Function2<Integer, Integer, Integer>() {
private static final long serialVersionUID = 1L;
int count = 2;
int avg = 0;
@Override
public Integer call(Integer i1, Integer i2) {
avg = i1 / count++;
if(avg >= 100) {
System.out.println("@ Over-Speed Event:" + avg);
}
return i1 + i2;
}
}, Durations.seconds(30), Durations.seconds(30));
drivingInfoStream.print();
jssc.start();
jssc.awaitTermination();
Step-7
 빌드 및 컴파일
pom.xml 선택 > Run > Run As > Maven Install
 Packing 및 Jar 파일 확인
target > bigdata.smartcar.spark_stream-0.0.1-SNAPSHOT.jar
Step-9
Step-8
 Spark Streaming 드라이버 클래스 업로드
target > bigdata.smartcar.spark_stream-0.0.1-SNAPSHOT.jar 선택
Server02 의 /Home/pilot-pjt/working 경로에 업로드
Step-10
 Spark Stream 드라이버 클래스 실행
Server02 접속
$ cd /home/pilot-pjt/working
$ spark-submit --class com.wikibook.bigdata.smartcar.spark_stream.SmartCarSparkStreaming --
master yarn --deploy-mode client bigdata.smartcar.spark_stream-0.0.1-SNAPSHOT.jar
Step-11
실무로 배우는 빅데이터 기술
확장하기 19편 – Spark Streaming 활용 1/2
[ 강의자료 ]
 동 영 상: 유튜브 www.youtube.com
 실습문서: 슬라이드쉐어 www.slideshare.net

More Related Content

What's hot

Airflow introduce
Airflow introduceAirflow introduce
Airflow introduce
t lc
 
[Gpg2권]1.1 c++ 게임의 최적화
[Gpg2권]1.1 c++ 게임의 최적화[Gpg2권]1.1 c++ 게임의 최적화
[Gpg2권]1.1 c++ 게임의 최적화
KyeongWon Koo
 
[0618구경원]초보 게임프로그래머를 위한 c++
[0618구경원]초보 게임프로그래머를 위한 c++[0618구경원]초보 게임프로그래머를 위한 c++
[0618구경원]초보 게임프로그래머를 위한 c++
KyeongWon Koo
 

What's hot (20)

16. Install - Nutch
16. Install - Nutch16. Install - Nutch
16. Install - Nutch
 
1. Application - Pig
1. Application - Pig1. Application - Pig
1. Application - Pig
 
5. Install - NiFi
5. Install - NiFi5. Install - NiFi
5. Install - NiFi
 
14. Install - Solr
14. Install - Solr14. Install - Solr
14. Install - Solr
 
Airflow를 이용한 데이터 Workflow 관리
Airflow를 이용한  데이터 Workflow 관리Airflow를 이용한  데이터 Workflow 관리
Airflow를 이용한 데이터 Workflow 관리
 
Grafana Review
Grafana ReviewGrafana Review
Grafana Review
 
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
 
7. Application - Hive Bucket
7. Application - Hive Bucket7. Application - Hive Bucket
7. Application - Hive Bucket
 
4.1 단일호스트의 부하
4.1 단일호스트의 부하4.1 단일호스트의 부하
4.1 단일호스트의 부하
 
9. Application - WebHDFS
9. Application - WebHDFS9. Application - WebHDFS
9. Application - WebHDFS
 
Airflow introduce
Airflow introduceAirflow introduce
Airflow introduce
 
Fluentd with MySQL
Fluentd with MySQLFluentd with MySQL
Fluentd with MySQL
 
Spark 소개 1부
Spark 소개 1부Spark 소개 1부
Spark 소개 1부
 
learning spark - Chatper8. Tuning and Debugging
learning spark - Chatper8. Tuning and Debugginglearning spark - Chatper8. Tuning and Debugging
learning spark - Chatper8. Tuning and Debugging
 
What is the meteor?
What is the meteor?What is the meteor?
What is the meteor?
 
[Gpg2권]1.1 c++ 게임의 최적화
[Gpg2권]1.1 c++ 게임의 최적화[Gpg2권]1.1 c++ 게임의 최적화
[Gpg2권]1.1 c++ 게임의 최적화
 
[0618구경원]초보 게임프로그래머를 위한 c++
[0618구경원]초보 게임프로그래머를 위한 c++[0618구경원]초보 게임프로그래머를 위한 c++
[0618구경원]초보 게임프로그래머를 위한 c++
 
AWSKRUG DS 2020/12 - Let the Airflow in AWS
AWSKRUG DS 2020/12 - Let the Airflow in AWSAWSKRUG DS 2020/12 - Let the Airflow in AWS
AWSKRUG DS 2020/12 - Let the Airflow in AWS
 
Nest js 101
Nest js 101Nest js 101
Nest js 101
 
Dynamodb 삽질기
Dynamodb 삽질기Dynamodb 삽질기
Dynamodb 삽질기
 

Similar to 19. Application - Spark Streaming 1

Remote-debugging-based-on-notrace32-20130619-1900
Remote-debugging-based-on-notrace32-20130619-1900Remote-debugging-based-on-notrace32-20130619-1900
Remote-debugging-based-on-notrace32-20130619-1900
Samsung Electronics
 
[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기
[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기
[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기
Jaeseung Ha
 

Similar to 19. Application - Spark Streaming 1 (20)

2.apache spark 실습
2.apache spark 실습2.apache spark 실습
2.apache spark 실습
 
Python on Android
Python on AndroidPython on Android
Python on Android
 
Javascript 조금 더 잘 알기
Javascript 조금 더 잘 알기Javascript 조금 더 잘 알기
Javascript 조금 더 잘 알기
 
Catalyst Framework 살펴보기
Catalyst Framework 살펴보기Catalyst Framework 살펴보기
Catalyst Framework 살펴보기
 
Spark sql
Spark sqlSpark sql
Spark sql
 
Remote-debugging-based-on-notrace32-20130619-1900
Remote-debugging-based-on-notrace32-20130619-1900Remote-debugging-based-on-notrace32-20130619-1900
Remote-debugging-based-on-notrace32-20130619-1900
 
[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기
[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기
[NDC2015] 언제 어디서나 프로파일링 가능한 코드네임 JYP 작성기 - 라이브 게임 배포 후에도 프로파일링 하기
 
Java Virtual Machine, Call stack, Java Byte Code
Java Virtual Machine, Call stack, Java Byte CodeJava Virtual Machine, Call stack, Java Byte Code
Java Virtual Machine, Call stack, Java Byte Code
 
2D games with iOS or Corona
2D games with iOS or Corona2D games with iOS or Corona
2D games with iOS or Corona
 
Spark performance tuning
Spark performance tuningSpark performance tuning
Spark performance tuning
 
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
 
20150212 c++11 features used in crow
20150212 c++11 features used in crow20150212 c++11 features used in crow
20150212 c++11 features used in crow
 
[드론] 펌웨어 분석 [2015.5.23]
[드론] 펌웨어 분석 [2015.5.23][드론] 펌웨어 분석 [2015.5.23]
[드론] 펌웨어 분석 [2015.5.23]
 
Startup JavaScript 8 - NPM, Express.JS
Startup JavaScript 8 - NPM, Express.JSStartup JavaScript 8 - NPM, Express.JS
Startup JavaScript 8 - NPM, Express.JS
 
함수형 프로그래밍
함수형 프로그래밍함수형 프로그래밍
함수형 프로그래밍
 
20201121 코드 삼분지계
20201121 코드 삼분지계20201121 코드 삼분지계
20201121 코드 삼분지계
 
7가지 동시성 모델 람다아키텍처
7가지 동시성 모델  람다아키텍처7가지 동시성 모델  람다아키텍처
7가지 동시성 모델 람다아키텍처
 
Html5+js with game engine cocos2d-html5 분석 @KGC2012
Html5+js with game engine   cocos2d-html5 분석 @KGC2012Html5+js with game engine   cocos2d-html5 분석 @KGC2012
Html5+js with game engine cocos2d-html5 분석 @KGC2012
 
Deview 2019 눈발자국
Deview 2019 눈발자국Deview 2019 눈발자국
Deview 2019 눈발자국
 
3D 모델러 ADDIN 개발과정 요약
3D 모델러 ADDIN 개발과정 요약3D 모델러 ADDIN 개발과정 요약
3D 모델러 ADDIN 개발과정 요약
 

Recently uploaded

Recently uploaded (8)

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 

19. Application - Spark Streaming 1

  • 1. 빅데이터 ~ 머싞(딥)러닝 실무로 배우는 빅데이터 기술  Spark Streaming 활용 1/2 ☆ 확장하기 – 19편 ☆ 김강원
  • 2. 스파크 스트리밍(Streaming) 는? 실시간으로 발생하는 데이터를 마이크로 배치 방식으로 처리하는 스파크 기술 ※ Spark Streaming 기본 개념과 기능들은 구글링을 통해 확인 하세요!
  • 3. 파일럿 프로젝트 확장 (1/2) 스파크 스트리밍 (Spark Streaming)
  • 4. 책 172 페이지 중에서… (개정판) 스파크 스트리밍 실시간처리 활용 파일럿 프로젝트 확장 (2/2)
  • 5. 확장편 실습 Spark Streaming ( 실시간 처리 활용 1/2 )
  • 6.  Spark 드라이버 클래스 열기 com.wikibook.bigdata.smartcar.sparkstream > New > Class > SmartCarSparkStreaming.java Step-1  Spark 드라이버 클래스 개발 1 – 라이브러리 Import 확인 import java.util.HashMap; import java.util.Map; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import org.apache.spark.streaming.Duration; import org.apache.spark.streaming.Durations; import org.apache.spark.streaming.api.java.JavaDStream; import org.apache.spark.streaming.api.java.JavaPairDStream; import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream; import org.apache.spark.streaming.api.java.JavaStreamingContext; import org.apache.spark.streaming.kafka.KafkaUtils; import scala.Tuple2; Step-2
  • 7.  Spark 드라이버 클래스 개발 2 – JavaPairReceiverInputDStream String zkServer = "server02.hadoop.com:2181"; String consumerGroup = "TestGroup"; String topic = "SmartCar-Topic"; int threadNum = 1; int mBatchTime = 1000; SparkConf sparkConf = new SparkConf().setAppName("SmartCarStreaming"); JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, new Duration(mBatchTime)); Map<String, Integer> topicMap = new HashMap<>(); topicMap.put(topic, threadNum); JavaPairReceiverInputDStream<String, String> kafkaMsg= KafkaUtils.createStream(jssc, zkServer, consumerGroup, topicMap);  Spark 드라이버 클래스 개발 3 – JavaDStream JavaDStream<String> dStream = kafkaMsg.map( new Function<Tuple2<String, String>, String>() { private static final long serialVersionUID = 1L; @Override public String call(Tuple2<String, String> tuple2) { return tuple2._2(); } }); dStream.print(); Step-4 Step-3
  • 8.  Spark 드라이버 클래스 개발 5 – JavaPairDStream JavaPairDStream<String, Integer> drivingInfoStream = dStream.mapToPair(new PairFunction<String, String, Integer>() { private static final long serialVersionUID = 1L; @Override public Tuple2<String, Integer> call(String s) { String carNum = ""; int carSpd = 0; String result[] = COM.split(s); if(result.length == 8) { carNum = result[1]; carSpd = Integer.parseInt(result[6]); } return new Tuple2<>(carNum , carSpd); } }) Step-6  Spark 드라이버 클래스 개발 4 – 콤마 패턴 멤버변수 정의 private static final Pattern COM = Pattern.compile(","); Step-5
  • 9.  Spark 드라이버 클래스 개발 5 – reduceByKeyAndWindow .reduceByKeyAndWindow( new Function2<Integer, Integer, Integer>() { private static final long serialVersionUID = 1L; int count = 2; int avg = 0; @Override public Integer call(Integer i1, Integer i2) { avg = i1 / count++; if(avg >= 100) { System.out.println("@ Over-Speed Event:" + avg); } return i1 + i2; } }, Durations.seconds(30), Durations.seconds(30)); drivingInfoStream.print(); jssc.start(); jssc.awaitTermination(); Step-7
  • 10.  빌드 및 컴파일 pom.xml 선택 > Run > Run As > Maven Install  Packing 및 Jar 파일 확인 target > bigdata.smartcar.spark_stream-0.0.1-SNAPSHOT.jar Step-9 Step-8  Spark Streaming 드라이버 클래스 업로드 target > bigdata.smartcar.spark_stream-0.0.1-SNAPSHOT.jar 선택 Server02 의 /Home/pilot-pjt/working 경로에 업로드 Step-10
  • 11.  Spark Stream 드라이버 클래스 실행 Server02 접속 $ cd /home/pilot-pjt/working $ spark-submit --class com.wikibook.bigdata.smartcar.spark_stream.SmartCarSparkStreaming -- master yarn --deploy-mode client bigdata.smartcar.spark_stream-0.0.1-SNAPSHOT.jar Step-11
  • 12. 실무로 배우는 빅데이터 기술 확장하기 19편 – Spark Streaming 활용 1/2 [ 강의자료 ]  동 영 상: 유튜브 www.youtube.com  실습문서: 슬라이드쉐어 www.slideshare.net