Cloud 기반 Big Data 분석 엔진 서비스

Cloud 기반 Big Data 분석 엔진 서비스

SK Telecom 차세대 IT Lab

박근태 (keuntae.park@sk.com)

목차

1. Big Data 기본개념

2. 분석 엔진 기본개념

3. 클라우드 기반 Big Data 분석 엔진

4. 향후 계획

1
1

Big Data?

Big data is a term applied to data sets whose size is beyond the ability of
commonly used software tools to capture, manage, and process the data
within a tolerable elapsed time
- wikipedia

Volume - Volume: 다루는 데이터 량이 수십 Terabytes에서
Terabytes Peta, Exa, Zettabyte 스케일
~ over
Zettabytes - Velocity: 실시간으로 발생하는 데이터를 수집/처리, 그
분석 결과를 신속(필요한 경우 실시간)하게 추출
Batch / 정형 /
실시간 비정형 - Variety: 기존의 RDB로 처리하던 정형적인 데이터
(15%) 뿐 만 아니라 로그파일, SNS데이터, 이미지, 음
Velocity Variety 성 정보 등 비정형 데이터(85%)에 대한 처리 필요

Value
2
2

왜 Big Data? – 개인화 서비스

Sampled data

젂반적인 경향
Focus group 주류의 흐름
소품종 대량생산

VS.
웹 이용 로그

통화

상품 구매

위치 정보
SNS
개인 및 친밀
그룹의 성향
개인 맞춤형 서비스

3
3

왜 Big Data? – 분석의 정확성 향상

고성능의
+

Small Data
< +

단순한 알고리즘
복잡한 알고리즘
Big Data

- The unreasonable effectiveness of data
http://googleresearch.blogspot.com/2009/03/unreasonable-effectiveness-of-data.html
- More data usually beats better algorithms
http://anand.typepad.com/datawocky/2008/03/more-data-usual.html
- Processing Natural Language without Natural Language Processing
http://www.mendeley.com/research/processing-natural-language-without-natural-language-
processing/

4
4

왜 Big Data? – 새로운 Business

< Scientific Data 분석 > < Social Data 분석 >

< 금융 > < 의료 > < 국방 > < 토목/ 건축 >

5
5

Big data 분석 흐름

수집 저장 분석 리포팅

분석 알고리즘

Log collector 대용량 분산 병렬 분산 처리
Framework
파일 시스템

Amazon S3
Easy Storage
Open API
RDBMS / NoSQL 결과 저장

Easy Storage (with T-FS) ?

클라우드 기반 Big data 분석 엔진 서비스
(Hadoop MapReduce 기반)
6
6

MapReduce 기술

다수 서버 상에서의 분산 컴퓨팅을 통하여 Big data 처리를 지원하는 소프트웨어 프레임워크
(2004년도에 Google 발표)

코드에 데이터를
젂송

데이터 분석 코드
고성능 분석 서버

데이터에 코드를
젂송

분석 코드

분산 저장 & 처리 서버
7
7

MapReduce 흐름
Map(key1, value1)  list(key2, value2)
Reduce(key2, list(value2))  list(value3)
Map
사용자의 코딩
이 필요한 부분
Map Reduce

Map Reduce

Comparison
Partition
Map Reduce

Map

① 분석 대상 데이터 ② 분산 처리를 통한 ③ Key 값에 ④ Merge ⑤ Key, value 쌍에서
분산 저장 key, value 쌍 도출 따라 분류 & Sort 의미 있는 결과 도출/저장

분석할 데이터를 저장한 서버에서 진행 분석 결과를 도출할 서버에서 진행
8
8

MapReduce 예제 – word count
Snow: Hi, Cyber Bob. This is Snow White.
Cyber: Hi, Snow White. Nice to meet you!
Snow: Nice to meet you, too. Where are you from?
Cyber: I'm from England.
분산 저장

Snow: Hi, Cyber Bob. This is Snow White. Snow: Nice to meet you, too. Where are you from?
Cyber: Hi, Snow White. Nice to meet you! Cyber: I'm from England
Map Map

(Snow, 1) (Hi, 1) (Cyber, 1) (Bob, 1) (Snow, 1) (Nice, 1) (to, 1) (meet, 1)
(This, 1) (is, 1) (Snow, 1) (White, 1) (you, 1) (too, 1) (Where, 1) (are, 1)
(Cyber, 1) (Hi, 1) (Snow, 1) (White,1) (you, 1) (from, 1) (Cyber, 1) (I’m, 1)
(Nice, 1) (to, 1) (meet, 1) (you, 1) (from, 1) (England, 1)

Merge, Sort

… (from, [1, 1]) … (meet, [1, 1])
… (to, [1, 1]) … (you, [1, 1, 1]) …

Reduce
… (from, 2) … (meet, 2]) … (to, 2)
… (you, 3) …

9
9

Cloud기반 Big data 분석 엔진 서비스

②분석 엔진 서비스 신청
서비스 portal

③분석 엔진 클라우드 구성

분석 엔진 서버 Farm
④분석 과정
조회 및 제어
Amazon S3
④데이터 분석 및 결과 저장

Easy Storage
①데이터 및 분석 코드 업로드

⑤결과 조회

10
10

Cloud기반 Big data 분석 엔진 서비스 – 특징

Hadoop MapReduce 기반 서비스
- Big Data 분석 엔진의 사실상의 표준 방식 준수를 통하여 기 작성된 MapReduce 코드의 활용이 가능
- Hive, Pig, Mahout, HBase 등 Hadoop 과 연계된 풍부한 open source 저변 활용이 가능

클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감
- 분석용 서버 클러스터의 구축 및 소프트웨어 설치 부담 경감
- 가상화 기반의 자원 보호를 통하여 분석 작업 오류에 의한 데이터 손실 및 타 분석 작업 영향 최소화
- 분석 작업 단위로 필요한 만큼만 할당해서 사용한 만큼만 과금

T Cloudbiz 서비스와의 Synergy
- 클라우드 서버 사용자 및 Easy Storage 사용자 데이터에 대한 분석 시 네트워크 부담 최소화
(클라우드 서버에서 발생한 데이터를 Easy Storage에 저장하고, Big data 분석 엔진 서비스로 분석)

Open API 제공
- 웹 서비스 포탈 접속 없이도 데이터 분석 서비스 이용이 가능
- Amazon EMR과 호환성을 제공하여 기존 Amazon 사용자들이 환경 수정 없이 손쉽게 사용 가능
- Amazon S3 API와의 연계를 통하여 다른 클라우드에 저장된 데이터에 대한 분석 기능 제공

11
11


클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감

알고리즘1 알고리즘2 알고리즘 스케줄링 및 오류 대응

분석 엔진 S/W S/W 설치 및 유지 관리

H/W sizing 및 구입/유지 보수
분석용 서버 Farm
VS.

알고리즘1 알고리즘2
- 분석 작업 스케줄링 및 모니터링

- 가상화 기반 자원 보호
Cloud 기반 Big Data
분석 엔진 서비스 - 실시간 분석 엔진 클러스터 구성

- 탄력적인 서버 구성

12
12


T Cloudbiz 서비스와의 Synergy

저장
- Big Data 분석의 full chain 제공
(데이터 수집  저장  분석)
생성/수집

- T cloudbiz 내에서 데이터 젂송
이 이루어지므로 추가적인 네트
워크 비용이 발생하지 않음

- 다른 Cloud 서비스들에서 생성
분석 데이터 분석에도 쉽게 적용 가능
> 대용량 파일 메일 서버
> Enterprise Folder Solution
> Cloud Call Center
분석 엔진 서비스

13
13


Open API 제공

- 어플리케이션에 의한 자동화된 분석 처리 가능
- 기존 Amazon 기반의 어플리케이션은 수정 없이 사용 - Amazon Java API 호홖
- 외부 (Amazon S3 호홖) 클라우드 스토리지의 데이터도 구분 없이 분석 가능


Easy Storage

Service/
Application

REST API

Amazon S3
14
14

향후 계획

서비스의 지속적인 개발과 발젂
 Workflow 기능 추가
 외부 연동 기능 강화
- ETL 라이브러리, Pig, Hive 연동
 사용자 편의성  Developer Tool 추가
- .NET이나 PHP등 SDK 개발
- MapReduce 기반 알고리즘 구현 협조
- 분석 엔진 서비스 사용 교육

 Pregel과 유사한 Graph 기반 분석 엔진
도입
 기능적 차별화
 고성능 CUDA H/W 연계 분석 엔진 서비
스 개발

 Hybrid 분석 엔진  Private Cloud와의 연계 분석

15
15

Missing pieces

분석 알고리즘

+ +

Easy Storage 대용량 데이터

SKT ?

16
16

무엇이든 물어보세요

Q&A
keuntae.park@sk.com

17

Cloud 기반 Big Data 분석 엔진 서비스

More Related Content

What's hot

Viewers also liked

Similar to Cloud 기반 Big Data 분석 엔진 서비스

More from Jayoung Lim

Cloud 기반 Big Data 분석 엔진 서비스