빅데이터 솔루션 소개서(2013년 05월)

ⓒ 2013 KT Hitel Corporation
빅데이터 솔루션(Daisy) 소개서
2013/05
노 동 학(rhodonghag@gmail.com)

2ⓒ 2013 KT Hitel Corporation
Context
1. 빅데이터 정의
2. 솔루션 기능 요건
3. 솔루션 주요 기능
4. 솔루션 적용 사례
5. 솔루션 분석 사례
별첨. 기술 구조도

1. 빅데이터 정의 (1/2)
빅데이터는 단지 데이터의 규모만을 이야기하는 것이 아니라 데이터의 다양성과 데이터 처리를 위한 속도까지도 고려하는 것으로 최근에는
복잡성과 가치까지도 함께 포함하는 개념으로 확대됨.
Volume
Terabytes
Records
Transactions
Tables, Files
Velocity
Batch
Near Time
Real Time
Streams
Variety
Structured
UnStructured
Semi-Structured
All the above
3 Vs
of Big
Data
기존 DBMS로
처리불가한 대용량
데이터 증가
데이터 처리 및
분석속도 중요성 증가
기술 발전에 따른
데이터의 다양화
+
Complexity
=
Big
Data
분석
데이터의 다양화에
따른 복잡성 증가
데이터의 크기, 다양성 및 속도에 복잡성이 더해지면서 Big Data에 대한 개념도 변화하고 있음
Value
수집/분석되는
데이터의 가치 고려
OLAP
Report
Visualization
Monitoring
다양한
분석 정보 제공

1. 빅데이터 정의 (2/2)
비지니스인텔리전스(BI)나 데이터웨어하우스(DW) 같은 전통적인 방식의 데이터 환경에서 처리하기 힘들었던 대용량 데이터를 Cloud Computing,
Hadoop, Distributed Computing과 같은 기술을 이용하여 저렴한 비용으로 가치를 추출하고 데이터를 수집, 발굴, 분석하는 모든 과정을 의미.
90%
전 세계 Data 90%
최근 2년 안에 생성
92%
VS
34%
모바일 트래픽 증가 92%
인터넷 트래픽 증가 34%
2011~15 연평균, 예상
2.5
quintillion
In 2012 2.5 quintillion
byte of every day
1.8ZB =1.8조 GB
2억/
1억
하루 평균 2억 개 트윗
트위터 이용 1억 명
SNS 11억 인구
Social 시대로 접어들면서 디지털 데이터 폭증 -> 효율적 데이터 수집/분석/관리의 필요성 증가

Reporting
2. 솔루션 기능 요건
Big Data Solution은 방대하고 복잡한 정형/비정형 데이터의 수집과 저장 및 분석 그리고 다양한 뷰를 통한 정보 제공의 4가지 핵심 기능을
기본으로 각 기능을 담당할 인력(Data Scientist) 및 관리 시스템을 필요로 함.
Collecting Store Analysis Visualization
Collecting Store Analysis Reporting
OpenAPI Crawling
Data Collector
Web, Social Network
System log, RDBMS 등
수집 데이터
저장
NoSQL
DBMS
DBMS
Hadoop 등을 이용한
대용량 데이터 저장
Data Query
Data Clustering
Classification
Recommendation
Hive, mahout, R 등을 통한
분산/병렬 데이터 실시간 분석
Chart/Grid
Data Export/API
Monitoring
Chart, API 등을 통한
다양한 View 생성 및 제공
Data Scientist
Management System
Big Data Solution 의 기능 및 처리 흐름과 관리 구조
Managing
Function of Big Data Solution

Data Input
3. 솔루션 주요 기능 - Hadoop
Hadoop은 대용량 데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임워크로 구글 파일 시스템을
벤치마킹 하여 Hadoop 분산 파일 시스템과 Map Reduce 를 구현한 데이터 분산, 저장 및 병렬 처리 기술
Web Data
Social
Network
Log Files
Legacy Data
Map
생성
Reduce
추출, 조립
Result
Data
Output
데이터
분산
데이터
분류
결과
데이터
<Distribute Map & Data Reduce Processing (Hadoop)>
 Hadoop의 장점
- 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공
- 클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리
- 장비를 증가시킬수록 성능이 Linear에 가깝게 향상
- 오픈소스, Intel Core 머신과 리눅스와 같은 저렴한 장비의 사용이 가능
 Hadoop의 단점
- Map/Reduce 방식의 사고의 전환 필요
- Open Source 로써 아직은 개발이 진행중인 상태
- 버전 호환성이 낮으며 구현되지 않은 부분이 많음
- 메모리 및 네트워크 관련 시행착오의 가능성이 높아 장애에 대한 대비가 필요

3. 솔루션 주요 기능 - NoSQL
기존의 RDBMS가 가지는 클라우드 컴퓨팅 환경에서의 빅 데이터의 효과적인 저장, 관리상의 한계점을 보완하기 위해 새로운 저장 기술의 필요성이
대두되고 있는 상황에서 나온 새로운 개념의 DBMS 시스템
Node3
Node1 Node2
Client 1 Client 2
Node3
Node1 Node2
Client 1 Client 2
<RDBMS> <NoSQL>
Sql 작업 수행 시점에
Replication, locking
및 Consistency 에 대
한 check 필요
데이터 처리 느림
병렬 데이터 처리로
노드간 커뮤니케이션에
의한 sql 작업의 중단이
발생하지 않음
고속 데이터 처리 가능
 NoSQL의 장점
- 빠르고 유연한 데이터 저장 및 조회 능력
- 데이터 증가 시 노드 확장만으로 처리 가능 (확장성 및 가용성 뛰어남)
- Key-Value 형식의 저장 구조로 유연한 데이터 구조를 가짐
- 데이터 인덱싱을 통한 빠른 응답성 (저비용으로 데이터 분석 가능)
 NoSQL의 단점
- 분석 방식의 변화 및 내재화 비용 발생
- 트랜잭션과 같은 복잡한 처리에 적합하지 않으며 장애 발생 시 복구 비용 발생
- Schemaless 구조로 Join 과 같은 복잡한 query 사용이 어려움
- Schema 설계, 서버 네트워크 구성, 메모리/IO 등에 대한 시행착오 대비 필요
Read Entity 1 Write 20 Entities Read Entity 1
Write 20 Entities
<NoSQL과 RDBMS 비교>

3. 솔루션 주요 기능 - CEP
데이터를 Event의 관점에서 바라보고 지속적으로 발생하는 데이터를 실시간(Real-Time)으로 분석하고 의미있는 패턴을 인지하여 즉시 반응하는
시스템. In-Memory기반으로 다양한 고속의 Event Stream을 실시간으로 처리가 가능
 CEP의 장점
- 선분석처리, 후저장 방식
- In-Memory 기반의 고성능 분석 가능 -> 실시간(Real-Time) 분석 가능
- Event-Driven Architecture
- 데이터 용량에 상관없이 Low-Latency 확보 가능
- 다양한 형태의 Input/Output Adapter 수용 가능
- EPL을 통한 실시간 이벤트 처리 및 외부 데이터 Join 연산 가능한 구조
Data
Input Adapter
Socket Input
Adapter
HTTP Input
Adapter
CSV Input
Adapter
Output Adapter
Socket Output
Adapter
HTTP Output
Adapter
CSV Output
Adapter
CEP Engine
EPL
Statements RDBMS
Open
API
Live Charts
JVM
RDBMSNoSQL
Log
Data
<CEP Real-Time Architecture>

Lucene
3. 솔루션 주요 기능 - Lucene
자바로 만들어진 확장 가능한 고성능 정보 검색(IR – Information Retrieval) 라이브러리. Lucene을 이용하여 각종 프로그램에 텍스트 색인 및
검색 기능의 추가가 가능함
 Lucene의 장점
- Full Text 검색에 효율적 -> 다양한 언어의 Full Text 분석기 지원
- Full Text(Contents) 와 text를 단어로 쪼개는 방법(Analyzer)를 제시하면 알아서 Index를 구성해주며 Index된 데이터를 통해 빠른 검색 결과 도출이 가능
- E-mail, Web page, Document 검색에 유리
- 서로 다른 언어간에도 색인(Index) 데이터를 100% 호환해서 사용이 가능
File System
DB
Web
Etc…
Crawler
Parser
Search
Index
User
Request
Search
Result
Indexer
Analysis
Index
DB
<Lucene Architecture>
형태소
분석기
중의어
처리기

4. 솔루션 적용 사례 – 자사 서비스
Big Data 플랫폼을 기반으로 자사 서비스에 서비스 로그 수집 및 데이터 분석을 통한 최종 추천 정보 제시 시스템 구현
User Service DAISY UserService
아임IN
Database
사용자
행동 패턴
HDFS
Data
collector
Data Analysis / Mining
By Hive / Mahout
* 분석 모델 적용
* 추천 키워드 추출
* Hive/Mahout 활용
Daisy를 통해
사용자 프로파일링 후
사용자 별 최적의 친구 추천
데이터를 제공합니다.
사용자 데이터
- 친구 맺기
- 조회 아이템
- 활동 아이템
- 발도장 남기기
맞춤형 친구/장소 추천
맞춤형
친구 추천
아임IN
푸딩.투
• 친구 추천
• 친구 맺기 경로
• Follow//following 수
• 추천 대비 결과
• 선호 사진 or POI
• Action 년/월/일/요일/시간
아임IN
로그 파일
푸딩.투
Database
푸딩.투
로그 파일
친구 추천 결과
친구 맺기 패턴
사용자 행동 패턴
최적의 친구 추천
Log
Agent
서비스별 챠트 및 통계

4. 솔루션 적용 사례 - KT VOC 모니터링 시스템
무선VOC Data를 기반으로 분석했던 기존 시스템에서 유무선 통합 VOC Data 분석으로 변경하고, 유무선 통합으로 인해
증가 된 VoC 데이터 분석을 위하여 기존의 검색엔진 기반의 아키텍처를 실시간 대용량 분석 솔루션인 DAISY로 변경, 유무선 통합으로 인한
데이터 처리 인프라 구축과 검색 및 리포트 성능 향상 시스템을 개발
<KT VITAL System 개선>
VOC 수집
검색 시스템
실시간 주제별 분석
통계현황/리포팅
• Genesis 연동
• IDMS 연동
• 키워드 연관 분석 검색
• 유무선 검색 조건 추가
• 총 VOC 분석
• 실시간 VOC 분석 외 2종
• 통계 현황 Chart 구성
• 검색 결과 리포팅 구현
<KT VOC Monitoring 시스템>

4. 솔루션 적용 사례 - 기상청(공공)
Big Data 관점에서 기상정보 처리 및 분석을 위한 Big Data 처리 플랫폼 구축
기상정보 성격에 적합한 클라우드 기반의 Big Data 분석 툴 및 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발
기상정보 활용 Big Data 개발
• 클라우드 기반 Big Data 분석툴 개발
• 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발
• 방대한 데이터의 실시간 분석을 고려한 Big Data 플랫폼
• Weather API store를 통해 내/외부에 기상 mash-up API 제공
Weather Daisy를 통해 실시간 Big Data 처리 기능을 제공
<다양한 기상정보 제공 시스템 개발>

5. 솔루션 분석 사례(자사)
■ 분석대상
114전국전화 사용자 데이터 분석을 통한 마케팅 활용 사례 (치킨 & 올림픽 영향도 분석)
- 114전국전화 사용자 클릭 기반 로그
- 축구, 올림픽 경기 일정 조사
- 열대야 날씨 데이터
- 2012.05~08.05 로그 데이터
- 검색 키워드 및 콜 추출
- 월별, 요일, 시간 기준 데이터 비교 분석
■ 분석조건
- 올림픽 이슈와 114전국전화 상관관계 추출
- 실질적인 사용자 분석을 통해 얻게 된 결과를
마케팅에 활용한 내부 첫 사례
■ 분석결과 및 시사점
뉴스 활용(2012.8.8) 주요매체 배포 114전국전화 사용자 데이터 기반 영향도 분석 그래프
런던올림픽 축구경기 있는 날, 야식 주문 가장 많았다.(MNB)
스마트 모바일 컴퍼니 KTH(대표 서정수)는 자사가 운영하는 전화번호 검색
애플리케이션 ‘114전국전화’의 데이터를 분석한 결과, 올림픽 시즌에
야식 주문량이 급증한 것으로 나타났다. 지난 7월 1일부터 8월 8일까지
런던올림픽 개막 전후로 야간시간(21시~03시)에 114전국전화를 이용한
야식 검색 및 주문 수가 큰 편차를 보인 것으로 나타났다….
■ 분석결과
7월 한달 동안 Daily 검색어 빈도/
콜 클릭 빈도수 비교(오후 9시 부
터 ~새벽 3시까지)결과 114전국
전화 서비스 요일별 추이와 비슷한
패턴의 그래프 유형을 보이고 있습
니다. 결과적으로 7월 21일 부터
31일까지 열대야 기간 동안 큰 변
화는 없었습니다. 7월 26일 목요
일 축구경기때 치킨 검색어가 약
25% 상승했습니다. 여기서도 대한
민국 대표팀 축구에 대해 반응합니
다. 평일 국내 축구 경기에는 반응
하지 않습니다.
(치킨 검색어 평균 약 8% 상승)

■ 분석대상
114전국전화 맞춤 메뉴 제공 (서비스로그데이터 분석을 통한 사용자 라이프타임 분석)
- 114전국전화 서비스 로그 전체
- 사용자 검색어 로그 전체
- 2011.08~2012.07.22 로그 데이터(전수)
- 요일, 시간, 시즌, 키워드 추출 통계 분석
- 패턴 파악 후 키워드 재 추출
■ 분석조건
- 114전국전화 메인 메뉴가 통계기반 구조로 변경
- 사용자 상황에 맞춰 메뉴를 추천해 준 결과
메뉴 선택과 UV, PV 증가한 긍정적 효과 입증
114전국전화 사용자데이터 기반으로 맞춤메뉴 구성 맞춤메뉴 개선 결과 측정 분석
■ 분석결과
1,2위 부동이었던 중국집, 치킨을
시간대로 상세하게 분류하면, 아래
그림처럼 평일 07~11시간대에는
병원이 1위에 오르기도 합니다.
2위에 순위가 오른 키워드는 점
심뭐먹지, 저녁뭐먹지 입니다. 사
용자 시간에 맞춰 메뉴명을 다르게
한 결과 사용자가 선택한 검색량이
증가 하였습니다.
12월 맞춤메뉴 적용 후 11월에 조
금 저조했던 콜 클릭 수가 증가하
였습니다. 12월 평균 및 Daily 수치
가 년 평균을 상회하고 있습니다.
12월에 송년회 등 사용자들의 활
발 한 시기 외에도 이벤트 등 다양
한 영향이 있겠지만, 맞춤메뉴 적
용 후 평균이상으로 증가 하고 있
으며 사용자에게 긍정적 영향을 미
치고 있습니다.
수집된 서비스 로그데이터 기반 사용자의 APP 행동패턴 분석
사용자 행동패턴 분석을 통해 요일, 시간, 시즌 별 검색키워드를 통해
통계기반으로 메인 메뉴를 다양한 조건에 따라 재배치 한다.
분석된 패턴을 기준으로 요일 분류체계, 시간 그룹, 시즌 그룹을 코드화
하고 이를 기반으로 메인 메뉴를 재 구성 하였다.

■ 분석대상
글로벌 서비스 푸딩.투 인기사진을 위한 Time zone 분석 (글로벌 사용자 배려를 위한 데이터 분석)
- 푸딩.투 사진 업로드 정보 DB
- 푸딩.투 사용자 정보 DB
- ~2012.05까지 전체 데이터 기준
- 글로벌 사용자 상위 타임존 라이프패턴 분석
- 패턴을 기준으로 인기사진 선정 룰 적용
■ 분석조건
- Data-Driven을 통한 인기사진 선정
- 지속적인 개선과 측정을 반복하며 서비스개선에
사용자 긍정적 반응 도출
글로벌 사용자를 고려한 데이터기반 인기사진 선정 인기사진 룰 변경 효과 측정
■ 분석결과
푸딩.투의 인기사진선정은 데이터
분석을 통해 사용자들의 다양한 사
용패턴을 통해 1차, 2차 룰을 비교
해가며 A|B Test를 진행하였다.
Data –Driven 을 통해 푸딩.투 활
성화를 위한 인기사진 선정 룰 변
경과 그 결과를 측정하는 방법으로
Data –Driven으로 적용, 측정을 반
복하며, 지속적으로 개선 모델을
만들었다.
그 결과 PV, UV 증가, 푸딩.투 사용
자 증가, 인기사진 선정 Pool 확대
등 긍정적인 결과를 얻었다.
인기사진에 선정되면 푸딩.투 사용자들의 인기도
함께 할 수 있다.
푸딩.투 서비스는 사진 기반의 글로벌 SNS서비스이다. 인
기사진을 통해 많은 인기와 Follower를 늘릴 수 있다. 하
지만 인기사진 선정시간(UTC)과 각 나라별 시간차가 존재
하므로 각 나라별로 다양하게 인기사진이 선정될 수 있는
다양한 데이터 분석을 통해 선정 룰을 변경하였다.

■ 분석대상
T-커머스 매출데이터 분석 (기초고객분석부터 주문과 매출에 대한 구매패턴 분석)
- T-커머스 매출 기준 DB
- T-커머스 주문 기준 DB
- 2012.08~2013.01 전체 매출, 주문 기준
- 주문고객,매출고객 고객기초통계
- 구매패턴 추출, 관련 아이템 도출
■ 분석조건
- 고객 구매패턴을 통한 시간 별 맞춤 상품 구성 가능
- 매출,주문 고객비교를 통한 매출로 전환되지 않는
주문 고객패턴을 추출하고 문제점 도출
T-커머스 구매 패턴 분석 매출, 주문 고객 분석
■ 분석결과
T-커머스의 구매지불수단은 카드
와 무통장으로 구분된다. 지불수단
중 약 33%에 해당하는 무통장 입
금은 실 구매단계로 전환하는 비율
이 62%였으며, 주문취소단계로
38%였다. 무통장의 특성 상 7일
이내 입금확인이 되지 않으면, 자
동으로 취소가 되는데, 고객주문이
실제 매출로 이어지기 위한 개선진
단을 도출하였다.
구매패턴 분석을 통한 사용자에게 맞춤 상품 제공
하는 기초분석
T-커머스에서 판매된 상품을 기준으로 월별현황, 요일별
현황, 최다판매상품리스트, 최다,최대 구매고객, 채널별 구
매 패턴 시간 등 다양한 구매패턴 분석을 통해 시간별 상
품 배열, 검색 우선 리스트, 상품 추천에 기반데이터로 활
용한다.

별첨. 기술구조도
Collection
Agent
Mobile Browser (http, udp, tcp) Kafka/Flume Agent (unstructured data)
Collection
Data Store (Hadoop Cluster)
Management
Administration
Monitoring
(Ganglia/
Grapite/Nagios)
Configuration
Management
(Puppet/chef)
Batch Control
Monitoring
Dash Board
System
Log-searcher
HBASENameNode DataNode DataNode DataNode DataNode
Speed Processing Layer
Storm Real-time Topology
Biz Logic(추천,랭킹 etc)
Workflow Mgmt
Rule Engine Scheduler
History DB
Biz Logic
Visualization Layer
Chart
User
Dashboard
R Studio
Web
Templet
Mobile Web
Templet
Collection Biz RuleStorm Collection Topology
Kafka/Flume Cluster
Interface Layer
REST SOAP SSL TCP UDP
Serving Layer
OrientDB
(Graph DB)
Elephant
DB
(Key-Value)
LuceneOLAP
LegacyDBLegacySystems(로그기반데이터)
Sqoop
Coordinator Cluster Handler Cluster
Batch Processing Layer
Pig R Hive
Data Analysis Logic
Mahout OpenPDC

THANK YOU!

빅데이터 솔루션 소개서(2013년 05월)

빅데이터 솔루션 소개서(2013년 05월)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 빅데이터 솔루션 소개서(2013년 05월)

Similar to 빅데이터 솔루션 소개서(2013년 05월) (20)

빅데이터 솔루션 소개서(2013년 05월)