GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
Upcoming SlideShare
Loading in...5
×
 

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개

on

  • 3,647 views

- GRUTER의 빅데이터 플랫폼 qoobah의 아키텍쳐와 관리 도구 Cloumon 소개

- GRUTER의 빅데이터 플랫폼 qoobah의 아키텍쳐와 관리 도구 Cloumon 소개
- GRUTER의 빅데이터 플랫폼 Delivery 방법론 소개

Statistics

Views

Total Views
3,647
Views on SlideShare
3,647
Embed Views
0

Actions

Likes
14
Downloads
224
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개 GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개 Presentation Transcript

  • © 2013 Gruter. All rights reserved. GRUTER & BigData 2013.08.28 김형준 수석 연구원
  • © 2013 Gruter. All rights reserved. 오늘의 주제 • GRUTER가 바라보는 BigData 소개 • 하둡 기반 다양한 데이터 처리 플랫폼 구축 사례 • Tajo: Hadoop on SQL • But, 어떤 업무에 적용했고 어떤 분석 기법을 사 용했는지에 대해서는 다루지 않습니다. 2
  • BigData 3V? Volume Variety Velocity 이걸로는 너무 약하지 않는가?
  • BigData Data에 대한 모든 변화 태도 기술 프로세스 조직 대상 활용
  • © 2013 Gruter. All rights reserved. Data로 무엇을 할 수 있을까? • 데이터 그 차체로 서비스 – NHN, Google 등 • 서비스의 가치, 품질 향상 – e-Commerce 추천, 게임 등 • 의사결정지원 – BI/DW • Audit – 보안, 침입탐지 등 • 원래 데이터가 큰 분야 – Bio Informatics 5
  • © 2013 Gruter. All rights reserved. 데이터만 분석하면 BigData? • 해운대구 트위터 분석 사례 – SNS, 블로그 등 3만 8000건, 2012년 데이터 6 • 통화량 분석을 통한 서울시 심야버스 노선 – 지난 3개월, 30억건 Big/Small, 정형/비정형 어떤 용어를 사용하든 데이터를 통해 가치만 얻으면 되는 것 다만, 마케팅적으로 너무 “빅” 이라는 단어에 집중하고 있어 시장 참여자(고객, 사용자, 의사결정권자 등)의 혼란을 가져오고 있는 상황 필요도 없는 플랫폼 구축을 하고 있지 않은지?
  • © 2013 Gruter. All rights reserved. 어떤 데이터가 빅데이터? • 데이터를 생성하는 소스가 수천만 이상 – 사용자, 단말, 장비 등 • 이들 소스가 발생시키거나 관계된 데이터 종류도 수십 ~ 수백만 이상 – 판매 제품, 장비 로그 등 • 이 정도가 아니어도 – Velocity, Value에 대한 꾸준한 개선은 필요 (해운대구 사례) 7
  • © 2013 Gruter. All rights reserved. 빅데이터 고민 • 빅데이터 도입 시 어려움은 – 다루어야 할 데이터 종류도 많고 크기도 크다. – 데이터는 지속적으로 변화되고 새로운 종류의 데이터가 계속 발생한다. – 처리 결과가 가치가 있는지를 미리 알기 어렵다. – 기술력도 부족하다. • 프로젝트 추진 시 가장 고민은? – 어떤 데이터로? – 무엇을 분석하지? – BI/DW와 뭐가 다르지? – 그냥 벤더 제품 도입하면 안되나? • 벤더가 무엇을 가지고 들어 오는가? • DW 솔루션? Hadoop? 8
  • © 2013 Gruter. All rights reserved. 빅데이터 프로세스 9 시스템 기획 (분석 대상, 데이터, 알고리즘) 시스템 비용 및 ROI 산정 업체 선정 개발 운영 시스템 기획 (분석 도메인만 결정, 마케팅, 생산성 향상, ... ) 관련 데이터 수집 (기업 내부, 외부) 3 ~ 6개월 이상 소요 데이터 가지고 놀기 가치 발굴 시스템에 반영 지속적인 활동
  • © 2013 Gruter. All rights reserved. 빅데이터 기술 10 Google File System Google MapReduce BigTable Chubby Swazall Tenzing Pregel Dremel Hadoop File System Hadopo MapReduce HBase ZooKeeper Pig Hive Giraph Tajo
  • © 2013 Gruter. All rights reserved. GRUTER BigData 전략 • ROI • 플랫폼 • 내재화 11 그렇다면 분석은...
  • © 2013 Gruter. All rights reserved. BigData = ROI의 문제 12 ERP SCM Billing Web Log 게시판 글 SNS ?
  • © 2013 Gruter. All rights reserved. 오픈 소스 중심 13 Data Store File System (HadoopFS) NoSQL (Cloudata, HBase, Cassandra) Batch Analysis Data Analysis Platform(Hadoop, Giraph) Management Cluster Management (ZooKeeper) Real-time Analysis Aggregator Job Workflow Engine(oozie, cascade) Collector (flume, scribe) Script Language(Hive, Pig) CEP Engine (Esper) Real-time Analysis Platform(Storm) Analysis Job Search (ElasticSearch) Interative Analysis(Tajo, Imapa) Analysis Job Mining Lib (Mahout) Monitoring (cloumon) Statistics Lib (R)
  • © 2013 Gruter. All rights reserved. 데이터 플랫폼 • 데이터가 다양하고 계속 변화 – 서비스 종류도 많고, 서비스의 데이터/API도 계속 변 화 • 무엇을 분석해야 할 지 모르는 경우가 많다. – 데이터를 자주 만져 봐야 알 수 있다. • 시스템, 데이터 모두 알아야 한다. – 이런 전문가는 많지 않고 비싸다. • 비용 대비 성능 – 엔터프라이즈급 솔루션 도입? 14
  • © 2013 Gruter. All rights reserved. (Big)Data플랫폼이란? • 데이터의 전체 라이프 사이클을 관리하는 시스템 – 수집, 저장, 분석, 폐기 • 데이터 유형 변화에도 시스템의 변경 없이 적용, 운영 가 능 • 다양한 분석 알고리즘 또는 분석 플랫폼이 적용 가능 – Map/Reduce, MPI, Graph 등 • 비즈니스 요구사항에 부합되는 적절한 분석 Latency 지 원 – 실시간, 준-실시간, 배치 • 데이터의 용량 증가에도 즉시 대응 가능 • 데이터 Needs 가 있는 사용자가 쉽게 사용 – 데이터의 접근성, 프로그램 모델, SQL 지원 등 15
  • © 2013 Gruter. All rights reserved. Qoobah: Gruter’s Bigdata Platform 16 * 아키텍처는 고객의 세부요구사항에 따라 변경될 수 있음 데이터 소스/수집기 (각종 로그 데이터) Data Source (Web Server) Flume Agent Thrift Source Thrift Sink Temporary 데이터 수집기/실시간 분석 Thrift Source Sink (Hadoop, Hive 등) Real-time Analysis (질의 기반) 원본 저장소 Hadoop File System Cluster coordinator 검색엔진 (Search) ElasticSearch Origin File Index 분석 결과 저장소 NoSQL Semi- Structured Cluster Management 데이터 소스 (Agent 미 설치 장비) Data Source (IDS, IPS, Firewall등) Oracle/MySQL RDB Cloumon Data Management Data Type Management Zookeeper ElasticSearch Hadoop plugin 그루터 솔루션오픈 소스 Analysis Management 프로젝트 개발 메타정보 (RDB) 데이터 제공 분석 결과 API 서비스 실시간 분석 플랫폼 (프로그램 기반) R-Bamboo분석 모듈 데이터 소스 (DB/Storage 데이터) 프로젝트 개발 Sqoop 기본 플랫폼 배치분석 Hadoop Mapeduce Hive 분석 모듈 R
  • © 2013 Gruter. All rights reserved. Cloumon 17
  • © 2013 Gruter. All rights reserved. Delivery • 오픈 소스 + 그루터 솔루션 공급 + 아키텍처 컨설팅 + 구축 • 주요 Delivery 내용 – 고객의 요구사항에 적합한 시스템 아키텍처 수립 • 사용자 요구사항에 부합되는 아키텍처 및 솔루션 선정 • 하드웨어 스펙 및 필요 대수 산정 • 솔루션은 대부분 오픈 소스 중심으로 구성 – 플랫폼 구축 • 선정된 솔루션 설치 및 실행 환경 구성 • 커스터마이징 • 일부 컴포넌트 개발 – 분석 모듈 개발 • 고객과 협의된 업무 및 데이터를 설치된 플랫폼에 적용 • 분석 프로그램 개발 – 주요 산출물 • 요구사항 정의서, 아키텍처 정의서, 오픈 소스 솔루션 선정 사유 • 플랫폼 설치 내역 상세, 설치 솔루션 별 운영 매뉴얼 • 추가 개발된 모듈 설계서, 분석 프로그램 설계서 18
  • © 2013 Gruter. All rights reserved. Delivery Process 19 프로젝트 팀구성 (고객 + 그루터) 1차 교육 (이론 및 테스트 환경 내 실습) 장비 발주 요구 사항 정의 아키텍처 정의 아키텍처 구성 솔루션 검증 장비 입고 플랫폼 설치 및 구성 분석 대상 데이터 정의 (수집 대상 등) 데이터 적재 2차 교육 (실제 환경) 분석 모듈 설계/개발 분석 모듈 튜닝 운영 교육 플랫폼 구성 모듈 개발 운영 시스템 통합 계약 전 요구사항 파악 기존 분석 솔루션 사용 가이드
  • © 2013 Gruter. All rights reserved. 기술 내재화 및 유지보수 지원 • 현장 적용 가능한 수준의 교육 – 참여 개발자의 수준에 맞는 교육 진행 – 단계별 교육 진행 • 1차 교육: 프로젝트 초기, 기본 개념 및 이론 중심 교육 • 2차 교육: 프로젝트 중반, 실습 중심 교육 – Pair 프로그램을 통한 프로그래밍 기술 지원 • 개발 대상 프로그램 중 일부를 고객 개발자와 그루터 개발자가 페어 프로그램으로 개발 • 고객 개발자 개인 개발 장비에 각종 오픈 소스 설치 및 디버깅 환경 구축 지원 – 프로젝트 기간 내 기술 지원 채널 제공 • 개발자, 운영자 상시 기술 지원 • 운영 가능한 수준의 기술 내재화 지원 – 플랫폼 설치 지원 • 실제 운영할 서버를 이용하여 수행 • 단계별 실습  1단계: 그루터가 모든 플랫폼 설치, 개발/테스트에 활용  2단계: 플랫폼 활용 및 개념 숙지 후 실제 운영자가 직접 설치 – 운영 지원 • 상황 별 운영 방안 제시  솔루션 별 서버 추가 및 제거  솔루션 별 업그레이드  솔루션 별 장애 대응: HA 구성 및 HA 적용 테스트 • 프로젝트 일정 내 시범 서비스 운영  시범 서비스 동안 발생한 다양한 문제를 운영자와 공동 해결 • 유지 보수 방안 – 그루터 제공 솔루션 및 프로젝트 내 개발된 모듈에 대해서는 유지보수 계약으로 지원 – 오픈 소스 코어에 대한 지원은 각 솔루션의 오픈 소스 커뮤니티 배포판 또는 패치를 이용한 지원 • 오픈 소스 코어에 대한 솔루션 품질에 대한 책임은 없음 • 고객 요청 시 별도 계약으로 지원 가능 20
  • © 2013 Gruter. All rights reserved. GRUTER는 어떤 회사? • 오픈 소스 기반 빅데이터 플랫폼 전문 기업 • 2006년 ~ • 14명 + OO명 • 국내 최초(?) 상용 Hadoop 클러스터 운영 – 2007.04 ~, 블로그 데이터 수집 및 분석 Yahoo Korea에 제공 • 자체 서비스 – www.seenal.com (SNS 데이터 분석 서비스) • 오픈 소스 – TAJO: Apache Incubation – Cloudata, Cloumon-oozie, Drone • http://github.com/gruter 21
  • GRUTER: YOUR PARTNER IN THE BIG DATA REVOLUTION Phone +82-70-8129-2950 Fax +82-70-8129-2952 E-mail contact@gruter.com Web www.gruter.com © 2013 Gruter. All rights reserved. Gruter, Inc. 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839