Cloud 기반 BigData 분석 엔진 서비스
SK Telecom 차세대 IT Lab
박근태 (keuntae.park@sk.com)
2.
목차
1. BigData 기본개념
2. 분석 엔진 기본개념
3. 클라우드 기반 Big Data 분석 엔진
4. 향후 계획
1
1
3.
Big Data?
Big data is a term applied to data sets whose size is beyond the ability of
commonly used software tools to capture, manage, and process the data
within a tolerable elapsed time
- wikipedia
Volume - Volume: 다루는 데이터 량이 수십 Terabytes에서
Terabytes Peta, Exa, Zettabyte 스케일
~ over
Zettabytes - Velocity: 실시간으로 발생하는 데이터를 수집/처리, 그
분석 결과를 신속(필요한 경우 실시간)하게 추출
Batch / 정형 /
실시간 비정형 - Variety: 기존의 RDB로 처리하던 정형적인 데이터
(15%) 뿐 만 아니라 로그파일, SNS데이터, 이미지, 음
Velocity Variety 성 정보 등 비정형 데이터(85%)에 대한 처리 필요
Value
2
2
4.
왜 Big Data?– 개인화 서비스
Sampled data
젂반적인 경향
Focus group 주류의 흐름
소품종 대량생산
VS.
웹 이용 로그
통화
상품 구매
위치 정보
SNS
개인 및 친밀
그룹의 성향
개인 맞춤형 서비스
3
3
5.
왜 Big Data?– 분석의 정확성 향상
고성능의
+
Small Data
< +
단순한 알고리즘
복잡한 알고리즘
Big Data
- The unreasonable effectiveness of data
http://googleresearch.blogspot.com/2009/03/unreasonable-effectiveness-of-data.html
- More data usually beats better algorithms
http://anand.typepad.com/datawocky/2008/03/more-data-usual.html
- Processing Natural Language without Natural Language Processing
http://www.mendeley.com/research/processing-natural-language-without-natural-language-
processing/
4
4
6.
왜 Big Data?– 새로운 Business
< Scientific Data 분석 > < Social Data 분석 >
< 금융 > < 의료 > < 국방 > < 토목/ 건축 >
5
5
7.
Big data 분석흐름
수집 저장 분석 리포팅
분석 알고리즘
Log collector 대용량 분산 병렬 분산 처리
Framework
파일 시스템
Amazon S3
Easy Storage
Open API
RDBMS / NoSQL 결과 저장
Easy Storage (with T-FS) ?
클라우드 기반 Big data 분석 엔진 서비스
(Hadoop MapReduce 기반)
6
6
8.
MapReduce 기술
다수 서버상에서의 분산 컴퓨팅을 통하여 Big data 처리를 지원하는 소프트웨어 프레임워크
(2004년도에 Google 발표)
코드에 데이터를
젂송
데이터 분석 코드
고성능 분석 서버
데이터에 코드를
젂송
분석 코드
분산 저장 & 처리 서버
7
7
9.
MapReduce 흐름
Map(key1, value1) list(key2, value2)
Reduce(key2, list(value2)) list(value3)
Map
사용자의 코딩
이 필요한 부분
Map Reduce
Map Reduce
Comparison
Partition
Map Reduce
Map
① 분석 대상 데이터 ② 분산 처리를 통한 ③ Key 값에 ④ Merge ⑤ Key, value 쌍에서
분산 저장 key, value 쌍 도출 따라 분류 & Sort 의미 있는 결과 도출/저장
분석할 데이터를 저장한 서버에서 진행 분석 결과를 도출할 서버에서 진행
8
8
10.
MapReduce 예제 –word count
Snow: Hi, Cyber Bob. This is Snow White.
Cyber: Hi, Snow White. Nice to meet you!
Snow: Nice to meet you, too. Where are you from?
Cyber: I'm from England.
분산 저장
Snow: Hi, Cyber Bob. This is Snow White. Snow: Nice to meet you, too. Where are you from?
Cyber: Hi, Snow White. Nice to meet you! Cyber: I'm from England
Map Map
(Snow, 1) (Hi, 1) (Cyber, 1) (Bob, 1) (Snow, 1) (Nice, 1) (to, 1) (meet, 1)
(This, 1) (is, 1) (Snow, 1) (White, 1) (you, 1) (too, 1) (Where, 1) (are, 1)
(Cyber, 1) (Hi, 1) (Snow, 1) (White,1) (you, 1) (from, 1) (Cyber, 1) (I’m, 1)
(Nice, 1) (to, 1) (meet, 1) (you, 1) (from, 1) (England, 1)
Merge, Sort
… (from, [1, 1]) … (meet, [1, 1])
… (to, [1, 1]) … (you, [1, 1, 1]) …
Reduce
… (from, 2) … (meet, 2]) … (to, 2)
… (you, 3) …
9
9
11.
Cloud기반 Big data분석 엔진 서비스
②분석 엔진 서비스 신청
서비스 portal
③분석 엔진 클라우드 구성
분석 엔진 서버 Farm
④분석 과정
조회 및 제어
Amazon S3
④데이터 분석 및 결과 저장
Easy Storage
①데이터 및 분석 코드 업로드
⑤결과 조회
10
10
12.
Cloud기반 Big data분석 엔진 서비스 – 특징
Hadoop MapReduce 기반 서비스
- Big Data 분석 엔진의 사실상의 표준 방식 준수를 통하여 기 작성된 MapReduce 코드의 활용이 가능
- Hive, Pig, Mahout, HBase 등 Hadoop 과 연계된 풍부한 open source 저변 활용이 가능
클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감
- 분석용 서버 클러스터의 구축 및 소프트웨어 설치 부담 경감
- 가상화 기반의 자원 보호를 통하여 분석 작업 오류에 의한 데이터 손실 및 타 분석 작업 영향 최소화
- 분석 작업 단위로 필요한 만큼만 할당해서 사용한 만큼만 과금
T Cloudbiz 서비스와의 Synergy
- 클라우드 서버 사용자 및 Easy Storage 사용자 데이터에 대한 분석 시 네트워크 부담 최소화
(클라우드 서버에서 발생한 데이터를 Easy Storage에 저장하고, Big data 분석 엔진 서비스로 분석)
Open API 제공
- 웹 서비스 포탈 접속 없이도 데이터 분석 서비스 이용이 가능
- Amazon EMR과 호환성을 제공하여 기존 Amazon 사용자들이 환경 수정 없이 손쉽게 사용 가능
- Amazon S3 API와의 연계를 통하여 다른 클라우드에 저장된 데이터에 대한 분석 기능 제공
11
11
13.
Cloud기반 Big data분석 엔진 서비스 – 특징
클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감
알고리즘1 알고리즘2 알고리즘 스케줄링 및 오류 대응
분석 엔진 S/W S/W 설치 및 유지 관리
H/W sizing 및 구입/유지 보수
분석용 서버 Farm
VS.
알고리즘1 알고리즘2
- 분석 작업 스케줄링 및 모니터링
- 가상화 기반 자원 보호
Cloud 기반 Big Data
분석 엔진 서비스 - 실시간 분석 엔진 클러스터 구성
- 탄력적인 서버 구성
12
12
14.
Cloud기반 Big data분석 엔진 서비스 – 특징
T Cloudbiz 서비스와의 Synergy
저장
- Big Data 분석의 full chain 제공
(데이터 수집 저장 분석)
생성/수집
- T cloudbiz 내에서 데이터 젂송
이 이루어지므로 추가적인 네트
워크 비용이 발생하지 않음
- 다른 Cloud 서비스들에서 생성
분석 데이터 분석에도 쉽게 적용 가능
> 대용량 파일 메일 서버
> Enterprise Folder Solution
> Cloud Call Center
분석 엔진 서비스
13
13
15.
Cloud기반 Big data분석 엔진 서비스 – 특징
Open API 제공
- 어플리케이션에 의한 자동화된 분석 처리 가능
- 기존 Amazon 기반의 어플리케이션은 수정 없이 사용 - Amazon Java API 호홖
- 외부 (Amazon S3 호홖) 클라우드 스토리지의 데이터도 구분 없이 분석 가능
Cloud 기반 Big Data
분석 엔진 서비스
Easy Storage
Service/
Application
REST API
Amazon S3
14
14
16.
향후 계획
서비스의 지속적인개발과 발젂
Workflow 기능 추가
외부 연동 기능 강화
- ETL 라이브러리, Pig, Hive 연동
사용자 편의성 Developer Tool 추가
- .NET이나 PHP등 SDK 개발
- MapReduce 기반 알고리즘 구현 협조
- 분석 엔진 서비스 사용 교육
Pregel과 유사한 Graph 기반 분석 엔진
도입
기능적 차별화
고성능 CUDA H/W 연계 분석 엔진 서비
스 개발
Hybrid 분석 엔진 Private Cloud와의 연계 분석
15
15
17.
Missing pieces
Cloud 기반 Big Data
분석 알고리즘
분석 엔진 서비스
+ +
Easy Storage 대용량 데이터
SKT ?
16
16