SlideShare a Scribd company logo
JeongChul Kim
Bigdata LAB, Kookmin University
@kimjc
kjc5443@gmail.com
http://jeongchul.tistory.com
Bigdata	with	
Google	Cloud
- Introduction
- Spark Cluster
- GCP
- Cloud DataProc
- GCP Machine Learning
Content
Introduction
WSDM / ACM International Conference on Web Search and Data Mining
http://aminer.org/ranks/conf/
@kimjc
Introduction
WSDM - KKBox’s Music recommendation challenge
Bigdata dataset
largest file size of dataset : 29G
Memory Error
메모리 문제 발생 out of memory(OOM), Java heap space, GC overhead limit
exceeded -> 처리 Scale out, Scale up
Spark
Lighting-fast unified analytics engine
Speed
Run workloads 100x faster.
Easy of Use
Write applications quickly in Java, Scala, Python.
Generality
Combine SQL, streaming, and complex analytics.
Spark AI
TensorFlow On Spark: Scalable TensorFlow Learning on Spark Clusters
Spark Cluster
Cluster Manager Types
- Standalone : a simple cluster manager included with Spark
- Apache Mesos : a genearls cluster manager that can also run Hadoop MR
- Hadoop YARN : the resource manager in Hadoop 2.
- Kubernetes ­ an open-source system for automating deployment, scaling, and management
of containerized applications
Spark ClusterSetup
Installation Spark Cluster with 4 server.
1. Install Hadoop(ssh config, network, HDFS)
2. Spark(Master,Worker)
* 설치에 많은 시간 소요, 어려움(trouble shooting) 존재
Worker 1
Yarn NodeManager
Master
Spark Application Master
Spark
Executor
Worker 1
Yarn NodeManager
Spark
Executor
Worker 1
Yarn NodeManager
Spark
Executor
Worker 1
Yarn NodeManager
Spark
Executor
bd-1 bd-2 bd-3 gpu
Spark
Driver
bd-2
Spark ClusterSetup
Docker
컨테이너를 사용해 애플리케이션을 신속하게 구축, 테스트 및 배포할 수 있는
소프트웨어 플랫폼
Google Cloud Platform
Why Google Cloud Platform?
Future-Proof Infrastructure
보안, 고성능, 비용효율성
Seriously Powerful
Data & Analytics
빅데이터를 활용해 더 나은
제품을 개발 가능.
Serverless
용량, 안정성, 성능을 신경 쓸
필요없는 Serverless 환경
Cloud Dataproc
Cloud Dataproc은 빠르고 사용하기 쉬운 관리형 클라우드 서비스로서 Apache Spark 클러스터를 효율적인
방식으로 실행합니다. 몇 시간이나 며칠씩 걸리던 작업이 몇 분이나 몇 초 만에 끝나게 되고, 사용한
리소스에 대해서만 요금을 지불하면 됩니다(초당 청구). Cloud Dataproc은 다른 Google Cloud
Platform(GCP) 서비스와도 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 강력하고도 완전한
플랫폼을 제공합니다.
Cloud Dataproc
GCP(Google Cloud Platform) 서비스와 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 플랫폼을
제공합니다.
Fast & Scalable Data Processing
노드 수를 3개에서 수백 개까지 조절할 수 있어 데이터 파이프라인이 클러스터보다 커질 일이 없습니다.
Affordable Pricing
실제 사용에 따른 초단위 가격 구조 저렴한 인스턴스를 포함할 수 있어 낮은 비용으로 강력한 클러스터를 얻을 수
있습니다.
GCP Cloud Dataproc
Google login -> GCP Console
GCP Cloud Dataproc
Google Dataproc -> 클러스터
GCP Cloud Dataproc
”API 사용 설정” 버튼 클릭
GCP Cloud Dataproc
“클러스터 만들기” 버튼 클릭
GCP Cloud Dataproc
클러스터 이름과 마스터, 작업자 노드 설정
GCP Cloud Dataproc
생성된 클러스터를 확인
GCP Cloud Dataproc
Cluster Web UI 설정
­ 네트워킹(VPC 네트워크) -> 방화벽 규칙 -> 방화벽 규칙 만들기
GCP Cloud Dataproc
방화벽 규칙 이름
지정된 프로토콜 및 포트
tcp:8088;tcp:9870;tcp8080;tcp4040;tcp:18080;
tcp:19888
GCP Cloud Dataproc
VM 인스턴스 – “마스터” 클릭
@kimjc
GCP Cloud Dataproc
VM 인스턴스 세부정보 외부IP확인
GCP Cloud Dataproc
HDFS Cluster의 정보 확인 가능
http://cluster-master-ip:9870/
GCP Cloud Dataproc
Hadoop Cluster의 정보 확인 가능
http://cluster-master-ip:8088/
GCP Cloud Dataproc
Hadoop Cluster의 Nodes 확인
GCP Cloud Dataproc
Spark History Server
http://cluster-master-ip:9870/
GCP Cloud Dataproc
클러스터 마스터 SSH 접속하기
Cloud Shell 버튼 클릭
GCP Cloud Dataproc
Google Cloud Shell
$ gcloud compute ssh kmubigdata-cluster-m –zone=asia-east1-a
GCP Cloud Dataproc
spark-shell 실행하기
$ spark-shell
GCP Cloud Dataproc
Scala 코드 작성
GCP Cloud Dataproc
SBT 설치하기
$ sudo apt-get install apt-transport-https
$ echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list
$ sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv
2EE0EA64E40A89B84B2DF73499E82A75642AC823
$ sudo apt-get update
$ sudo apt-get install sbt
GCP Cloud Dataproc
Scala compile
$ sbt package
GCP Cloud Dataproc
컴파일 후 생성된 Jar 파일 확인
$ cd target/scala-2.11
$ ls
GCP Cloud Dataproc
HDFS 업로드
$ hdfs dfs –ls /
$ hdfs dfs –ls /user/
$ hdfs dfs –put matrixmultplicaiton_xxxx.jar /user/kjc5443
GCP Cloud Dataproc
Spark Submit 작업 제출
“작업 제출 버튼” 클릭
GCP Cloud Dataproc
작업 제출 정보 입력
- 작업 ID
- 클러스터 설정
- 작업 유형: Spark
- 기본 클래스 / Jar 파일 입력
hdfs:///user/kjc5443/matrix_xx.jar
- 제출
GCP Cloud Dataproc
작업 제출 시작 -> 성공
GCP Cloud Dataproc
성공 작업 완료된 결과
GCP Cloud Dataproc
History Server Application 확인
GCP Cloud Dataproc
실행된 Jobs 확인
GCP Cloud Storage
Google Cloud Storage
개발자와 기업을 위한 통합 객체 저장소
실시간 데이터를 위한 최적의 가용성과 저장소 및 보관처리와 수명 주기 제공
GCP Cloud Storage
Jar 파일을 Cloud Storage 업로드
$ gsutil cp matrixmultiplication_xxxx.jsar gs://dataproc-e3d4872e-99c3-4dba-
a533-8a5c6d4a9e4a-asia
GCP Cloud Storage
버킷(bucket)에 업로드된 jar 파일
GCP Cloud Dataproc
작업 제출 정보
- 작업 ID
- 클러스터
- 작업 유형
- 기본 클래스
- Jar파일 gs://jar파일
GCP Cloud Dataproc
작업 성공 결과 확인
GCP Cloud Dataproc
Scaling clusters
작업자 노드 개수 조정
Cluster 삭제 간단!
GCP Cloud Vision API
Cloud Vision API
강력한 이미지 분석
개발자는 강력한 기계학습 모델을 사용하기 쉬운 RERST API로 통합한 Vision API를 이용해
이미지의 내용을 파악할 수 있습니다.
- Image Classification
- Object Detection
- OCR(광학 문자 인식)
GCP Cloud Vision API
Cloud Vision API사용 설정
https://console.developers.google.com/apis/api/vision.googleapis.com/
GCP Cloud Storage
클라우드 저장소(Cloud Storage) 버킷(bucket) 만들기
이미지 검색을 위해 Google Cloud Storage에 저장된 파일의 URL 전달
GCP Cloud Storage
버킷(bucket) Image 업로드하기
파일 업로드 버튼을 클릭
GCP Cloud Storage
버킷(bucket) 파일 공개 링크 설정
공개적으로 공유하기에 ”공개 링크” 버튼 클릭 => 접근 가능한 주소 생성
GCP Cloud Vision API
Vision API 요청(request) 생성
Cloud 콘솔에서 vison-request.json 생성하고 Cloud Shell의 Code Editor 수정
GCP Cloud Vision API
Google Cloud Shell API 요청
$ curl -s -X POST -H "Content-Type: application/json" --data-binary @ocr-
request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}
GCP Cloud Vision API
결과 확인
WELCOMEnTOnNevadanTHE SILVER STATEnPacificnTime Zonen
GCP Cloud Translation API
Translation API
빠르고 동적인 번역
최첨단 기술인 인공신경망 기계 번역을 이용하여 임의의 문자열을 지원되는 언어로 번역
응답성이 높으므로 웹사이트의 애플리케이션으로 통합 가능
총 100가지의 언어를 제공
GCP Cloud Translation API
Translation API 사용 설정
https://console.developers.google.com/apis/api/translate.googleapis.com/
GCP Cloud Translation API
이미지에서 추출한 문장(영어)을 한글로 번역
translation-request.json 파일 생성 target에 대한 언어 설정
GCP Cloud Translation API
Vision API 요청 결과 문장 가져오기
jq 명령어를 이용해 json 파일에 원하는 텍스트를 가져옵니다.
$ jq .responses[0].textAnnotations[0].description vision-response.json
GCP Cloud Translation API
translation-request.json 쓰기 작업
$ STR=$(jq .responses[0].textAnnotations[0].description vision-response.json) &&
STR="${STR//"}" && sed -i "s|your_text_here|$STR|g" translation-request.json
GCP Cloud Translation API
Translation API 실행하기
$ curl -s -X POST -H "Content-Type: application/json" --data-binary @translation-
request.json https://translation.googleapis.com/language/translate/v2?key=${API_KEY} -o
translation-response.json
GCP Cloud Translation API
이미지에서 추출한 문장(영어)을 한글로 번역
translation-request.json 파일 생성 target에 대한 언어 설정
GCP Cloud Natural Language API
Natural Language API
강력한 텍스트 분석(텍스트 문서, 뉴스 기사, 블로그 게시물에 언급한 인물, 장소, 이베튼)
정보 추출하고, 감정 파악, 고객 대화를 통해 의도 분석
Google Cloud Speech API 결합!
GCP Cloud Natural Language API
Natural Language API 사용 설정
https://console.developers.google.com/apis/library/language.googleapis.com/
GCP Cloud Natural Language API
Vision API로 나온 텍스트를 NL API 넣어 분석
nl-request.json 생성
GCP Cloud Natural Language API
Translation API를 통해 번역된 NL API에 복사
$ STR=$(jq .data.translations[0].translatedText translation-response.json) &&
STR="${STR//"}" && sed -i "s|your_text_here|$STR|g" nl-request.json
GCP Cloud Natural Language API
Entity 분석 요청
$ curl "https://language.googleapis.com/v1/documents:analyzeEntities?key=${API_KEY}" -s -X POST -
H "Content-Type: application/json" --data-binary @nl-request.json
fin.
JeongChul Kim
Bigdata LAB, Kookmin University
@kimjc
kjc5443@gmail.com
http://jeongchul.tistory.com

More Related Content

What's hot

Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0
Steve Min
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
Channy Yun
 
Scalable system design patterns
Scalable system design patternsScalable system design patterns
Scalable system design patterns
Steve Min
 
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
BESPIN GLOBAL
 
[Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개
[Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개 [Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개
[Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개
CJ Olivenetworks
 
2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법
2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법 2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법
2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법
Amazon Web Services Korea
 
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
Amazon Web Services Korea
 
AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)
AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)
AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)
Amazon Web Services Korea
 
게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...
게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...
게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...
BESPIN GLOBAL
 
[웨비나] 다중 AWS 계정에서의 CI/CD 구축
[웨비나] 다중 AWS 계정에서의 CI/CD 구축[웨비나] 다중 AWS 계정에서의 CI/CD 구축
[웨비나] 다중 AWS 계정에서의 CI/CD 구축
BESPIN GLOBAL
 
GCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M InteractiveGCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M Interactive
Chris Jang
 
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
Amazon Web Services Korea
 
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
BESPIN GLOBAL
 
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Amazon Web Services Korea
 
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon Web Services Korea
 
[VDI on Azure] DaaS 구축과 운영, 신화와 현실
[VDI on Azure] DaaS 구축과 운영, 신화와 현실[VDI on Azure] DaaS 구축과 운영, 신화와 현실
[VDI on Azure] DaaS 구축과 운영, 신화와 현실
BESPIN GLOBAL
 
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil KimAWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
Amazon Web Services Korea
 
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Web Services Korea
 
클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017
클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017
클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
Amazon Web Services Korea
 

What's hot (20)

Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
 
Scalable system design patterns
Scalable system design patternsScalable system design patterns
Scalable system design patterns
 
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
 
[Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개
[Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개 [Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개
[Gridgain]인메모리컴퓨팅 및 국내레퍼런스 소개
 
2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법
2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법 2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법
2017 AWS DB Day | 개발자가 알아야 할 Amazon DynamoDB 활용법
 
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
 
AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)
AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)
AWS Enterprise Summit :: 하이브리드 클라우드 인프라를 통한 데이터센터 확장과 마이그레이션 방안 (조성진 매니저)
 
게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...
게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...
게임을 위한 최적의 AWS DB 서비스 소개 Dynamo DB, Aurora - 이종립 / Principle Enterprise Evang...
 
[웨비나] 다중 AWS 계정에서의 CI/CD 구축
[웨비나] 다중 AWS 계정에서의 CI/CD 구축[웨비나] 다중 AWS 계정에서의 CI/CD 구축
[웨비나] 다중 AWS 계정에서의 CI/CD 구축
 
GCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M InteractiveGCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M Interactive
 
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
 
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
All about Data Center Migration Session 3. 효율적인 클라우드 운영을 위한 필수 선택
 
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
 
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
 
[VDI on Azure] DaaS 구축과 운영, 신화와 현실
[VDI on Azure] DaaS 구축과 운영, 신화와 현실[VDI on Azure] DaaS 구축과 운영, 신화와 현실
[VDI on Azure] DaaS 구축과 운영, 신화와 현실
 
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil KimAWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
 
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
 
클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017
클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017
클라우드와 온프레미즈의 어플리케이션 통합 (iPaaS) - AWS Summit Seoul 2017
 
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
 

Similar to Bigdata with Google Cloud

[GS네오텍] Google Compute Engine
[GS네오텍]  Google Compute Engine[GS네오텍]  Google Compute Engine
[GS네오텍] Google Compute Engine
GS Neotek
 
Kubernetes on GCP
Kubernetes on GCPKubernetes on GCP
Kubernetes on GCP
Daegeun Kim
 
Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1
WhaTap Labs
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
Ji-Woong Choi
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AI
Joongi Kim
 
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)
Cloud-Barista Community
 
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista Community
 
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 AdvancedAWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
Amazon Web Services Korea
 
Alluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudAlluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-Cloud
Jinwook Chung
 
[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...
[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...
[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...
Amazon Web Services Korea
 
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
Amazon Web Services Korea
 
스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...
스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...
스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...
Amazon Web Services Korea
 
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트
Dae Kim
 
docker on GCE ( JIRA & Confluence ) - GDG Korea Cloud
docker on GCE ( JIRA & Confluence ) - GDG Korea Clouddocker on GCE ( JIRA & Confluence ) - GDG Korea Cloud
docker on GCE ( JIRA & Confluence ) - GDG Korea Cloud
Jude Kim
 
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)
Cloud-Barista Community
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Yooseok Choi
 
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
Amazon Web Services Korea
 
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)
Cloud-Barista Community
 
Unionweb프로젝트
Unionweb프로젝트Unionweb프로젝트
Unionweb프로젝트
Dong-Jin Park
 
JMI Techtalk : Backend.AI
JMI Techtalk : Backend.AIJMI Techtalk : Backend.AI
JMI Techtalk : Backend.AI
Lablup Inc.
 

Similar to Bigdata with Google Cloud (20)

[GS네오텍] Google Compute Engine
[GS네오텍]  Google Compute Engine[GS네오텍]  Google Compute Engine
[GS네오텍] Google Compute Engine
 
Kubernetes on GCP
Kubernetes on GCPKubernetes on GCP
Kubernetes on GCP
 
Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AI
 
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 적응형 네트워크 (CB-Larva)
 
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
 
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 AdvancedAWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
 
Alluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudAlluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-Cloud
 
[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...
[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...
[AWS Dev Day] 앱 현대화 | 코드 기반 인프라(IaC)를 활용한 현대 애플리케이션 개발 가속화, 우리도 할 수 있어요 - 김필중...
 
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
 
스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...
스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...
스마트 팩토리: AWS 사물인터넷과 인공지능을 활용한 스마트 팩토리 구축 – 최영준 AWS 솔루션즈 아키텍트, 정현아 AWS 솔루션즈 아키...
 
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트
 
docker on GCE ( JIRA & Confluence ) - GDG Korea Cloud
docker on GCE ( JIRA & Confluence ) - GDG Korea Clouddocker on GCE ( JIRA & Confluence ) - GDG Korea Cloud
docker on GCE ( JIRA & Confluence ) - GDG Korea Cloud
 
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)
Cloud-Barista 제7차 컨퍼런스 : 멀티클라우드 인프라 서비스 연동 (CB-Spider)
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
 
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
 
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 인프라 연동 (CB-Spider)
 
Unionweb프로젝트
Unionweb프로젝트Unionweb프로젝트
Unionweb프로젝트
 
JMI Techtalk : Backend.AI
JMI Techtalk : Backend.AIJMI Techtalk : Backend.AI
JMI Techtalk : Backend.AI
 

Bigdata with Google Cloud

  • 1. JeongChul Kim Bigdata LAB, Kookmin University @kimjc kjc5443@gmail.com http://jeongchul.tistory.com Bigdata with Google Cloud
  • 2. - Introduction - Spark Cluster - GCP - Cloud DataProc - GCP Machine Learning Content
  • 3. Introduction WSDM / ACM International Conference on Web Search and Data Mining http://aminer.org/ranks/conf/ @kimjc
  • 4. Introduction WSDM - KKBox’s Music recommendation challenge
  • 5. Bigdata dataset largest file size of dataset : 29G
  • 6. Memory Error 메모리 문제 발생 out of memory(OOM), Java heap space, GC overhead limit exceeded -> 처리 Scale out, Scale up
  • 7. Spark Lighting-fast unified analytics engine Speed Run workloads 100x faster. Easy of Use Write applications quickly in Java, Scala, Python. Generality Combine SQL, streaming, and complex analytics.
  • 8. Spark AI TensorFlow On Spark: Scalable TensorFlow Learning on Spark Clusters
  • 9. Spark Cluster Cluster Manager Types - Standalone : a simple cluster manager included with Spark - Apache Mesos : a genearls cluster manager that can also run Hadoop MR - Hadoop YARN : the resource manager in Hadoop 2. - Kubernetes ­ an open-source system for automating deployment, scaling, and management of containerized applications
  • 10. Spark ClusterSetup Installation Spark Cluster with 4 server. 1. Install Hadoop(ssh config, network, HDFS) 2. Spark(Master,Worker) * 설치에 많은 시간 소요, 어려움(trouble shooting) 존재 Worker 1 Yarn NodeManager Master Spark Application Master Spark Executor Worker 1 Yarn NodeManager Spark Executor Worker 1 Yarn NodeManager Spark Executor Worker 1 Yarn NodeManager Spark Executor bd-1 bd-2 bd-3 gpu Spark Driver bd-2
  • 11. Spark ClusterSetup Docker 컨테이너를 사용해 애플리케이션을 신속하게 구축, 테스트 및 배포할 수 있는 소프트웨어 플랫폼
  • 12. Google Cloud Platform Why Google Cloud Platform? Future-Proof Infrastructure 보안, 고성능, 비용효율성 Seriously Powerful Data & Analytics 빅데이터를 활용해 더 나은 제품을 개발 가능. Serverless 용량, 안정성, 성능을 신경 쓸 필요없는 Serverless 환경
  • 13. Cloud Dataproc Cloud Dataproc은 빠르고 사용하기 쉬운 관리형 클라우드 서비스로서 Apache Spark 클러스터를 효율적인 방식으로 실행합니다. 몇 시간이나 며칠씩 걸리던 작업이 몇 분이나 몇 초 만에 끝나게 되고, 사용한 리소스에 대해서만 요금을 지불하면 됩니다(초당 청구). Cloud Dataproc은 다른 Google Cloud Platform(GCP) 서비스와도 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 강력하고도 완전한 플랫폼을 제공합니다.
  • 14. Cloud Dataproc GCP(Google Cloud Platform) 서비스와 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 플랫폼을 제공합니다. Fast & Scalable Data Processing 노드 수를 3개에서 수백 개까지 조절할 수 있어 데이터 파이프라인이 클러스터보다 커질 일이 없습니다. Affordable Pricing 실제 사용에 따른 초단위 가격 구조 저렴한 인스턴스를 포함할 수 있어 낮은 비용으로 강력한 클러스터를 얻을 수 있습니다.
  • 15. GCP Cloud Dataproc Google login -> GCP Console
  • 16. GCP Cloud Dataproc Google Dataproc -> 클러스터
  • 17. GCP Cloud Dataproc ”API 사용 설정” 버튼 클릭
  • 18. GCP Cloud Dataproc “클러스터 만들기” 버튼 클릭
  • 19. GCP Cloud Dataproc 클러스터 이름과 마스터, 작업자 노드 설정
  • 20. GCP Cloud Dataproc 생성된 클러스터를 확인
  • 21. GCP Cloud Dataproc Cluster Web UI 설정 ­ 네트워킹(VPC 네트워크) -> 방화벽 규칙 -> 방화벽 규칙 만들기
  • 22. GCP Cloud Dataproc 방화벽 규칙 이름 지정된 프로토콜 및 포트 tcp:8088;tcp:9870;tcp8080;tcp4040;tcp:18080; tcp:19888
  • 23. GCP Cloud Dataproc VM 인스턴스 – “마스터” 클릭 @kimjc
  • 24. GCP Cloud Dataproc VM 인스턴스 세부정보 외부IP확인
  • 25. GCP Cloud Dataproc HDFS Cluster의 정보 확인 가능 http://cluster-master-ip:9870/
  • 26. GCP Cloud Dataproc Hadoop Cluster의 정보 확인 가능 http://cluster-master-ip:8088/
  • 27. GCP Cloud Dataproc Hadoop Cluster의 Nodes 확인
  • 28. GCP Cloud Dataproc Spark History Server http://cluster-master-ip:9870/
  • 29. GCP Cloud Dataproc 클러스터 마스터 SSH 접속하기 Cloud Shell 버튼 클릭
  • 30. GCP Cloud Dataproc Google Cloud Shell $ gcloud compute ssh kmubigdata-cluster-m –zone=asia-east1-a
  • 31. GCP Cloud Dataproc spark-shell 실행하기 $ spark-shell
  • 32. GCP Cloud Dataproc Scala 코드 작성
  • 33. GCP Cloud Dataproc SBT 설치하기 $ sudo apt-get install apt-transport-https $ echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list $ sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 $ sudo apt-get update $ sudo apt-get install sbt
  • 34. GCP Cloud Dataproc Scala compile $ sbt package
  • 35. GCP Cloud Dataproc 컴파일 후 생성된 Jar 파일 확인 $ cd target/scala-2.11 $ ls
  • 36. GCP Cloud Dataproc HDFS 업로드 $ hdfs dfs –ls / $ hdfs dfs –ls /user/ $ hdfs dfs –put matrixmultplicaiton_xxxx.jar /user/kjc5443
  • 37. GCP Cloud Dataproc Spark Submit 작업 제출 “작업 제출 버튼” 클릭
  • 38. GCP Cloud Dataproc 작업 제출 정보 입력 - 작업 ID - 클러스터 설정 - 작업 유형: Spark - 기본 클래스 / Jar 파일 입력 hdfs:///user/kjc5443/matrix_xx.jar - 제출
  • 39. GCP Cloud Dataproc 작업 제출 시작 -> 성공
  • 40. GCP Cloud Dataproc 성공 작업 완료된 결과
  • 41. GCP Cloud Dataproc History Server Application 확인
  • 43. GCP Cloud Storage Google Cloud Storage 개발자와 기업을 위한 통합 객체 저장소 실시간 데이터를 위한 최적의 가용성과 저장소 및 보관처리와 수명 주기 제공
  • 44. GCP Cloud Storage Jar 파일을 Cloud Storage 업로드 $ gsutil cp matrixmultiplication_xxxx.jsar gs://dataproc-e3d4872e-99c3-4dba- a533-8a5c6d4a9e4a-asia
  • 45. GCP Cloud Storage 버킷(bucket)에 업로드된 jar 파일
  • 46. GCP Cloud Dataproc 작업 제출 정보 - 작업 ID - 클러스터 - 작업 유형 - 기본 클래스 - Jar파일 gs://jar파일
  • 47. GCP Cloud Dataproc 작업 성공 결과 확인
  • 48. GCP Cloud Dataproc Scaling clusters 작업자 노드 개수 조정 Cluster 삭제 간단!
  • 49. GCP Cloud Vision API Cloud Vision API 강력한 이미지 분석 개발자는 강력한 기계학습 모델을 사용하기 쉬운 RERST API로 통합한 Vision API를 이용해 이미지의 내용을 파악할 수 있습니다. - Image Classification - Object Detection - OCR(광학 문자 인식)
  • 50. GCP Cloud Vision API Cloud Vision API사용 설정 https://console.developers.google.com/apis/api/vision.googleapis.com/
  • 51. GCP Cloud Storage 클라우드 저장소(Cloud Storage) 버킷(bucket) 만들기 이미지 검색을 위해 Google Cloud Storage에 저장된 파일의 URL 전달
  • 52. GCP Cloud Storage 버킷(bucket) Image 업로드하기 파일 업로드 버튼을 클릭
  • 53. GCP Cloud Storage 버킷(bucket) 파일 공개 링크 설정 공개적으로 공유하기에 ”공개 링크” 버튼 클릭 => 접근 가능한 주소 생성
  • 54. GCP Cloud Vision API Vision API 요청(request) 생성 Cloud 콘솔에서 vison-request.json 생성하고 Cloud Shell의 Code Editor 수정
  • 55. GCP Cloud Vision API Google Cloud Shell API 요청 $ curl -s -X POST -H "Content-Type: application/json" --data-binary @ocr- request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}
  • 56. GCP Cloud Vision API 결과 확인 WELCOMEnTOnNevadanTHE SILVER STATEnPacificnTime Zonen
  • 57. GCP Cloud Translation API Translation API 빠르고 동적인 번역 최첨단 기술인 인공신경망 기계 번역을 이용하여 임의의 문자열을 지원되는 언어로 번역 응답성이 높으므로 웹사이트의 애플리케이션으로 통합 가능 총 100가지의 언어를 제공
  • 58. GCP Cloud Translation API Translation API 사용 설정 https://console.developers.google.com/apis/api/translate.googleapis.com/
  • 59. GCP Cloud Translation API 이미지에서 추출한 문장(영어)을 한글로 번역 translation-request.json 파일 생성 target에 대한 언어 설정
  • 60. GCP Cloud Translation API Vision API 요청 결과 문장 가져오기 jq 명령어를 이용해 json 파일에 원하는 텍스트를 가져옵니다. $ jq .responses[0].textAnnotations[0].description vision-response.json
  • 61. GCP Cloud Translation API translation-request.json 쓰기 작업 $ STR=$(jq .responses[0].textAnnotations[0].description vision-response.json) && STR="${STR//"}" && sed -i "s|your_text_here|$STR|g" translation-request.json
  • 62. GCP Cloud Translation API Translation API 실행하기 $ curl -s -X POST -H "Content-Type: application/json" --data-binary @translation- request.json https://translation.googleapis.com/language/translate/v2?key=${API_KEY} -o translation-response.json
  • 63. GCP Cloud Translation API 이미지에서 추출한 문장(영어)을 한글로 번역 translation-request.json 파일 생성 target에 대한 언어 설정
  • 64. GCP Cloud Natural Language API Natural Language API 강력한 텍스트 분석(텍스트 문서, 뉴스 기사, 블로그 게시물에 언급한 인물, 장소, 이베튼) 정보 추출하고, 감정 파악, 고객 대화를 통해 의도 분석 Google Cloud Speech API 결합!
  • 65. GCP Cloud Natural Language API Natural Language API 사용 설정 https://console.developers.google.com/apis/library/language.googleapis.com/
  • 66. GCP Cloud Natural Language API Vision API로 나온 텍스트를 NL API 넣어 분석 nl-request.json 생성
  • 67. GCP Cloud Natural Language API Translation API를 통해 번역된 NL API에 복사 $ STR=$(jq .data.translations[0].translatedText translation-response.json) && STR="${STR//"}" && sed -i "s|your_text_here|$STR|g" nl-request.json
  • 68. GCP Cloud Natural Language API Entity 분석 요청 $ curl "https://language.googleapis.com/v1/documents:analyzeEntities?key=${API_KEY}" -s -X POST - H "Content-Type: application/json" --data-binary @nl-request.json
  • 69. fin. JeongChul Kim Bigdata LAB, Kookmin University @kimjc kjc5443@gmail.com http://jeongchul.tistory.com