SlideShare a Scribd company logo
1 of 14
줌인터넷(주) 빅데이터 활용사례
4월17일
김우승
소개
 줌인터넷(주) 연구소장
 이력
 줌인터넷
 SK 플래닛
 SK 텔레콤
 삼성전자
 http://kimws.wordpress.com
 @kimws
빅데이터를 하기 전에 고려해야 할 사항
 첫째, 레거시 시스템이 있다면 그냥 그걸 쓰는게 제일 좋다
 ROI 을 고려해야 한다
 투자도 중요하지만 운영에 들어가는 비용이 적지 않다
 둘째, 솔루션만으로는 절대로 해결할 수 없다.
 아웃소싱만으론 가질 수 없다.
 내재화를 처음부터 고려해야 한다.
 인력을 아웃소싱하는 것이 아니라 인력을 키워야 한다.
 자기 데이터를 남에게 줄 수는 없다.
 셋째, 데이터가 없으면 하지 말아야 한다
 없으면 먼저 데이터를 모으는 일부터 해야 한다.
 넷째, 데이터가 적다고, 회사가 작다고 빅데이터 기술을 못쓰는 것은 아니다
 ROI에 따라 스타트업, 작은 중소기업에서도 필요하다
 클라우드 컴퓨팅 환경이 있다.
국내에서는 대부분 빅데이터 기술을 가지고 스몰데이터를 다루고 있다
하지만 미래를 위해서 이러한 투자는 반드시 필요하다
다시 저희 회사 줌인터넷 사례로 ...
서비스 회사는 데이터 기반의 회사
Service User
New
Data Model
Metadata
Usage
Log
Improve
Service/Decision
Monetize
New Service
Value
Creation
Discovery
Data
Analyzing
2 Phases of Data Driven Business
끓임없는 고객 분석 및 서비스 개선 새로운 가치 창출, 신규 서비스
특히, 검색회사에서 하는 일들…
출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/
storage
Crawling
Analyzing
Serving
Real-time
Batch
Crawler
Analyzing
Parsing
웹크롤 시스템
문서를 크롤하면 (> 10억건)
메타데이터 저장
HTML 저장
제목, 본문 추출
이미지 추출
썸네일 생성
원본 이미지 저장
Structured Data
Unstructured Data
Multimedia Data
Semi-structured Data
대용량의 크롤데이터 저장 및 호스트, URL, 문서 분석을 위해서 하둡, HBase, MySQL 등을 모두 활용
웹문서 분석 시스템
 중복 문서 제거
 스팸 문서
 성인 필터링
 검색 랭킹 계산
 문서 클러스터링
 기타 문서 데이터 분석
(Pig + UDF ) + Python + Shell
Java Map-Reduce program
- 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행
- 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당
Hadoop & HBase 는 이미 몇 년된 레거시 시스템
그러나, 꾸준히 튜닝하고 테스트하고 …
줌 데이터 플랫폼에 대한 사례
줌데이터 플랫폼 (시스템 측면)
 로그 수집 체계
 로그 포맷 표준화 (JSON, Apache Log Format)
 중앙 데이터 저장소 구축 (HDFS)
 로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd)
 Access log
 ZUM service log
 Application log
 로그 데이터 분석시스템
 Hive 가 메인 도구
 Job Scheduler
 Pig 는 Hive Table 을 생성하는 전처리(ETL) 용 스크립트
줌데이터 플랫폼 (프로세스 측면)
 고정 지표
 상시 분석해서 결과를 파악해야 하는 지표
 공통 지표 정의
 서비스별 지표 정의
 배치성 지표
 실시간성 지표
 유동 지표
 서비스별로 필요한 경우에 따라서 파악할 지표
 중요도에 따라 고정지표로 전환
자동화의 대상
Ad-hoc 업무
데이터 분석 업무가 기존 개발자에서
기획자, 데이터 분석가의 손에서 다루어질 수 있도록
Service 1
… …
Service N
Service N+1
…
줌데이터 플랫폼
Log
Agen
t
Flume-NG
Data Repository (HDFS)
Log
Agen
t
Log
Agen
t
Log
Agen
t
Log
Agen
t
WebHDFS
Raw data
Hive
Table
목적
DB
(File)
변환 분석
Web Browser
Job
Scheduler
Data
Viewer
Hive
Console
Reporting
Server
R
Excel
Text File
DBMS
(MySQL)
Service 1
Service 2
… …
Service
Server
Service
Server…
fusefuse
Hive 는 Metadata 을 담고 있음
SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능
Real-time Analyzer
(ESPER)
TCP/IP
adapter
시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치
개발자는 Pig등을 이용해서
Raw Data를 Hive Data 등으로 변환
실시간결과
pig
로그데이터 분석 업무 프로세스 개선
데이터분석담당 개발자
데이터 추출 결과 확인
URL 추출 조건 확인 후 추출 요청
1) 추출된 데이터 확인
2) 추출 조건 수정하여 재 추출
기획자
데이터 추출 요청
데이터 전달
데이터분석담당
기획자
데이터 추출 요청
데이터 전달
 소프트웨어 개발자
 데이터 처리
 플랫폼 구현
 데이터 분석가
 분석로직
 데이터 검증
 협업은 기본
마무리
 작은 규모라도 시작하는 것이 중요
 하둡, 맵리듀스 … 특히 pig, hive 별로 생각보다 어렵지 않다
 PILOT 과 실제 시스템은 다르게 동작할 수 있다
 데이터가 늘어감에 따라
 클러스터 규모가 커짐에 따라
 네트워크에 따라
 서버 스펙 마다
 SQL 은 영원하다
 많은 상용솔루션들이 SQL 을 이용해서 빅데이터를 처리할 수
있도록 도와준다
 Hive , Impala 등등
 단, 기반 프레임워크나 시스템에 대한 엔지니어는 여전히 부족
 DevOps 의 양성과 확보가 중요

More Related Content

Similar to Zum인터넷 big data 활용사례 김우승연구소장

Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기수보 김
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준NAVER D2
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트koscom
 
AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)
AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)
AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)Amazon Web Services Korea
 
실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기
실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기
실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기Kee Hoon Lee
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개Gruter
 
02 fount ai_ir자료
02 fount ai_ir자료02 fount ai_ir자료
02 fount ai_ir자료VentureSquare
 
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823승우 백
 
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례Amazon Web Services Korea
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
Tableau : Leader of Agile BI
Tableau : Leader of Agile BITableau : Leader of Agile BI
Tableau : Leader of Agile BIPlanit-partners
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가r-kor
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa영진 박
 
빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용BESPIN GLOBAL
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 

Similar to Zum인터넷 big data 활용사례 김우승연구소장 (20)

Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
 
AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)
AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)
AI 비지니스 무엇을 어떻게 준비하고 해야 하는가? - 정우진 (AWS 사업개발 담당)
 
실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기
실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기
실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
 
02 fount ai_ir자료
02 fount ai_ir자료02 fount ai_ir자료
02 fount ai_ir자료
 
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
 
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
Tableau : Leader of Agile BI
Tableau : Leader of Agile BITableau : Leader of Agile BI
Tableau : Leader of Agile BI
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 

More from Jayoung Lim

좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기Jayoung Lim
 
[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tv[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tvJayoung Lim
 
Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리Jayoung Lim
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수Jayoung Lim
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수Jayoung Lim
 
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁Jayoung Lim
 
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash StamatelosJayoung Lim
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Jayoung Lim
 
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수Jayoung Lim
 
[빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원][빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원]Jayoung Lim
 

More from Jayoung Lim (10)

좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기
 
[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tv[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tv
 
Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수
 
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
 
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
 
[빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원][빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원]
 

Zum인터넷 big data 활용사례 김우승연구소장

  • 2. 소개  줌인터넷(주) 연구소장  이력  줌인터넷  SK 플래닛  SK 텔레콤  삼성전자  http://kimws.wordpress.com  @kimws
  • 3. 빅데이터를 하기 전에 고려해야 할 사항  첫째, 레거시 시스템이 있다면 그냥 그걸 쓰는게 제일 좋다  ROI 을 고려해야 한다  투자도 중요하지만 운영에 들어가는 비용이 적지 않다  둘째, 솔루션만으로는 절대로 해결할 수 없다.  아웃소싱만으론 가질 수 없다.  내재화를 처음부터 고려해야 한다.  인력을 아웃소싱하는 것이 아니라 인력을 키워야 한다.  자기 데이터를 남에게 줄 수는 없다.  셋째, 데이터가 없으면 하지 말아야 한다  없으면 먼저 데이터를 모으는 일부터 해야 한다.  넷째, 데이터가 적다고, 회사가 작다고 빅데이터 기술을 못쓰는 것은 아니다  ROI에 따라 스타트업, 작은 중소기업에서도 필요하다  클라우드 컴퓨팅 환경이 있다. 국내에서는 대부분 빅데이터 기술을 가지고 스몰데이터를 다루고 있다 하지만 미래를 위해서 이러한 투자는 반드시 필요하다
  • 4. 다시 저희 회사 줌인터넷 사례로 ...
  • 5. 서비스 회사는 데이터 기반의 회사 Service User New Data Model Metadata Usage Log Improve Service/Decision Monetize New Service Value Creation Discovery Data Analyzing 2 Phases of Data Driven Business 끓임없는 고객 분석 및 서비스 개선 새로운 가치 창출, 신규 서비스
  • 6. 특히, 검색회사에서 하는 일들… 출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/ storage Crawling Analyzing Serving Real-time Batch Crawler Analyzing Parsing
  • 7. 웹크롤 시스템 문서를 크롤하면 (> 10억건) 메타데이터 저장 HTML 저장 제목, 본문 추출 이미지 추출 썸네일 생성 원본 이미지 저장 Structured Data Unstructured Data Multimedia Data Semi-structured Data 대용량의 크롤데이터 저장 및 호스트, URL, 문서 분석을 위해서 하둡, HBase, MySQL 등을 모두 활용
  • 8. 웹문서 분석 시스템  중복 문서 제거  스팸 문서  성인 필터링  검색 랭킹 계산  문서 클러스터링  기타 문서 데이터 분석 (Pig + UDF ) + Python + Shell Java Map-Reduce program - 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행 - 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당 Hadoop & HBase 는 이미 몇 년된 레거시 시스템 그러나, 꾸준히 튜닝하고 테스트하고 …
  • 10. 줌데이터 플랫폼 (시스템 측면)  로그 수집 체계  로그 포맷 표준화 (JSON, Apache Log Format)  중앙 데이터 저장소 구축 (HDFS)  로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd)  Access log  ZUM service log  Application log  로그 데이터 분석시스템  Hive 가 메인 도구  Job Scheduler  Pig 는 Hive Table 을 생성하는 전처리(ETL) 용 스크립트
  • 11. 줌데이터 플랫폼 (프로세스 측면)  고정 지표  상시 분석해서 결과를 파악해야 하는 지표  공통 지표 정의  서비스별 지표 정의  배치성 지표  실시간성 지표  유동 지표  서비스별로 필요한 경우에 따라서 파악할 지표  중요도에 따라 고정지표로 전환 자동화의 대상 Ad-hoc 업무 데이터 분석 업무가 기존 개발자에서 기획자, 데이터 분석가의 손에서 다루어질 수 있도록
  • 12. Service 1 … … Service N Service N+1 … 줌데이터 플랫폼 Log Agen t Flume-NG Data Repository (HDFS) Log Agen t Log Agen t Log Agen t Log Agen t WebHDFS Raw data Hive Table 목적 DB (File) 변환 분석 Web Browser Job Scheduler Data Viewer Hive Console Reporting Server R Excel Text File DBMS (MySQL) Service 1 Service 2 … … Service Server Service Server… fusefuse Hive 는 Metadata 을 담고 있음 SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능 Real-time Analyzer (ESPER) TCP/IP adapter 시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치 개발자는 Pig등을 이용해서 Raw Data를 Hive Data 등으로 변환 실시간결과 pig
  • 13. 로그데이터 분석 업무 프로세스 개선 데이터분석담당 개발자 데이터 추출 결과 확인 URL 추출 조건 확인 후 추출 요청 1) 추출된 데이터 확인 2) 추출 조건 수정하여 재 추출 기획자 데이터 추출 요청 데이터 전달 데이터분석담당 기획자 데이터 추출 요청 데이터 전달  소프트웨어 개발자  데이터 처리  플랫폼 구현  데이터 분석가  분석로직  데이터 검증  협업은 기본
  • 14. 마무리  작은 규모라도 시작하는 것이 중요  하둡, 맵리듀스 … 특히 pig, hive 별로 생각보다 어렵지 않다  PILOT 과 실제 시스템은 다르게 동작할 수 있다  데이터가 늘어감에 따라  클러스터 규모가 커짐에 따라  네트워크에 따라  서버 스펙 마다  SQL 은 영원하다  많은 상용솔루션들이 SQL 을 이용해서 빅데이터를 처리할 수 있도록 도와준다  Hive , Impala 등등  단, 기반 프레임워크나 시스템에 대한 엔지니어는 여전히 부족  DevOps 의 양성과 확보가 중요