2012 빅데이터 big data 발표자료
Upcoming SlideShare
Loading in...5
×
 

2012 빅데이터 big data 발표자료

on

  • 13,310 views

NIPA, DB

NIPA, DB

Statistics

Views

Total Views
13,310
Views on SlideShare
7,373
Embed Views
5,937

Actions

Likes
20
Downloads
363
Comments
1

15 Embeds 5,937

http://kimws.wordpress.com 5608
http://www.hanrss.com 102
http://www.scoop.it 88
http://10.240.54.168 85
http://cafe.naver.com 17
https://kimws.wordpress.com 14
http://localhost 6
https://twitter.com 4
http://webcache.googleusercontent.com 3
http://pinterest.com 3
http://blog.naver.com 3
http://131.253.14.66 1
https://si0.twimg.com 1
https://twimg0-a.akamaihd.net 1
http://www.pinterest.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

2012 빅데이터 big data 발표자료 2012 빅데이터 big data 발표자료 Presentation Transcript

  • 빅데이터 BIG DATA줌인터넷(주)김우승
  • 소개¨  http://zum.com¨  줌인터넷(주) 연구소장¨  김우승 (Wooseung Kim)¨  http://kimws.wordpress.com¨  @kimws
  • 60년 전 …1952.5.21The first IBM large-scale electronic computer IBM 701 View slide
  • 지금은 …¨  전세계 음악을 모두 저장할 수 있는 디스크 드라이브 가격 $600¨  2010년 전세계 핸드폰 50억대 이상¨  매달 페이스북에서 주고받는 컨텐츠 300억건¨  매년 전세계 데이터 40% 씩 증가, IT 분야는 5% 씩 증가¨  미국 의회 도서관이 수집한 데이터 235테라바이트 (2011.4 기준) Google Datacenter http://www.google.com/about/datacenters/locations/index.html Facebook Datacenter 스웨덴 극지방 위치출처: McKinsey&Company June 2011 Big Data View slide
  • 왜 빅데이터에 관심을 가지나?¨  Google¨  Facebook 웹 서비스 사업의 성장¨  Yahoo 기술 공개 , 빠른 기술 진화¨  LinkedIn 데이터 처리 비용 상대적으로 낮아짐¨  Twitter Cost < Value¨  Connected Everything ¤  Smartphone ¤  LTE 데이터의 폭발적인 증가 ¤  Sensor Networks 멀티미디어 실시간 데이터 ¤  … …
  • 구글과 아파치 하둡구글이 자신들의 빅데이터 기술을 논문으로 발표 à 오픈소스로 개발,공개¨  C/C++ ¨  Java¨  GFS ¨  HDFS¨  Chubby ¨  ZooKeeper¨  BigTable ¨  HBase¨  MapReduce ¨  MapReduce¨  Swazall ¨  Pig¨  Tenzing ¨  Hive
  • 빅 데이터에서 다루는 문제들 대용량 데이터 다양한 형태의 데이터 배치,실시간,스트리밍(GB을 넘어서 TB,PB…) (DB,텍스트,XML,이미지,동영상…) (센서,상거래,주식거래…)
  • 빅 데이터에서 다루는 문제들대용량 데이터를 저장,처리하기 위해서 필요한클러스터 컴퓨팅, 분산컴퓨팅 인프라에 대한 이해 •  수십-수천대의 서버를 구축,관리 •  효율적인 네트워크 구축 •  상태 모니터링 및 장애 대책 •  애플리케이션 배포 •  데이터의 저장, 백업 •  확장성, 가용성을 고려
  • 빅 데이터에서 다루는 문제들 빅 데이터를 위한 다양한 오픈 소스
  • 빅 데이터에서 다루는 문제들 레거시 시스템과의 연동, 마이그레이션 이슈 Legacy Data Platform Big Data Platform
  • 빅 데이터에서 다루는 문제들 데이터 마이닝 , 머신 러닝 알고리즘 Single Machine è Multiple Machines
  • 빅 데이터에서 다루는 문제들 데이터 유출시 기업경영에 치명적인 영향을 준다 어느 데이터나 활용할 수 있는 것이 아니다 통합보다 분산이 더 안전 데이터 보안 개인 정보 보호
  • 빅데이터에서 다루는 문제들대용량 데이터, 정형/비정형데이터, 이벤트/스트리밍 데이터분산컴퓨팅, 클러스터 컴퓨팅클라우드 컴퓨팅오픈소스데이터 마이닝/머신러닝레거시 시스템 연동 / 데이터 수집보안/개인정보 보호 이슈
  • Knowledge & Technology for Big Data Real-time Processing Statistics R SAS Complex Event Processing Linear Algebra Data Mining Stream Process Machine Learning OLAP Tools Scribe Excel Flume Algorithms ETL RedisGraph DB SQL Pig MSSQL KeyValue DB Column DB ZooKeeper MySQL Hive HDFS Protocolbuf Oracle MongoDB HBase MapReduce Entity Relation Cassandra XML NoSQL Hadoop Avro Amazon JSON HTTP RDBMS C/C++ Python Batch Processing Java Apache TCP/IP Linux Distributed Computing Cluster Computing Cloud Computing우승이의 블로그 http://kimws.wordpress.com
  • Big Data Platform 환경 비교 기존 데이터 플랫폼 환경 빅데이터 플랫폼 환경¨  Single Machine ¨  Multiple Machine ¤  Multi-core (> 16 cores) ¤  Commodity H/W, N/W ¤  Scale-up ¤  Scale-out ¤  High Price H/W, S/W ¤  Low Cost ¤  SAN Storage ¤  Distributed File System¨  MS Windows, AIX, HP-UX ¨  Linux¨  Commercial Solutions ¨  Open Source¨  IBM, Oracle, Microsoft ¨  Yahoo!,Facebook,Twitter¨  RDBMS ¨  NoSQL¨  TeraData, Exadata,Netizza ¨  Hadoop, Hive, Pig¨  SAS, SPSS ¨  R, Mahout
  • NoSQL (Not Only SQL) ? 관계형 데이터 모델을 사용하지 않고 SQL 을 사용하 지 않는 그 이외의 모든 데이터 베이스 시스템 또는 데이터 스토어 ¨  CAP Theorem ¤  Consistency ¤  Availability ¤  Partition Tolerance q  CA, CP, AP 의 특성에 따 라 상대적인 확장성과 성능 에 제약이 발생 q  대부분 오픈소스 요구사항에 대한 분명한 이해 개발/운영 역량 반드시 확인출처: http://blog.beany.co.kr/archives/275
  • NoSQL Ecosystem•  각 도메인 또는 요구사항에 맞는 NoSQL 을 선택하는 것이 매우 중요•  대부분의 NoSQL 이 오픈소스, 도입시 내부 검증 절차와 내재화 필요 출처: http://www.slideshare.net/mattaslett/mysql-vs-nosql-and-newsql-survey-results-13073043
  • Big Data Lifecycle 데이터 수집 데이터 처리 데이터 분석 데이터 제공¨  데이터 연동 ¨  데이터 클리닝 ¨  모델 검증 ¨  보고서¨  ftp, sftp, rcp, ¨  데이터 요약 ¨  데이터 마이닝 ¨  데이터 시각화 rsync ¨  데이터 기초통계 ¨  텍스트 마이닝 ¨  서비스 데이터¨  데이터 변환 ¨  데이터 탐색 ¤  상품 추천 ¤  유사 아이템
  • Legacy Data Platform DBMS 을 기반으로하는 데이터 플로우 , Scale-up 구조의 아키텍처고가의 하이엔드 싱글서버 서버, 네트워크장비 비용은 몇배로 발생SAN 스토리지 시스템 확장 시스템 아키텍쳐 & 데이터 구조 변경이 불가피상용 데이터베이스, 마이닝 솔루션 매우 고가 Scale up 처리할 수 있는 데이터 처리에 한계가 발생 데이터 수집 데이터 처리 데이터 분석 데이터 제공 ETL Process 데이터 마이닝 Data Warehouse OLAP Service (IBM DataStage) (SAS) (TeraData) Tools Server SQL, PL/SQL FTP SFTP Rsync RDBMS (Oracle, DB2, MSSQL …) Local FS SAN Storage Local FS
  • Migration ??? …Legacy Data Platform Big Data Platform
  • Hybrid !!!Legacy Data Platform Big Data Platform
  • Big Data Platform 다양한 데이터 소스/데이터 프로세싱 프레임워크를 수용할 수 있는 워크플로우,통합 관리 시스템 필요•  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용•  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용•  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성 데이터 수집 데이터 처리 데이터 분석 데이터 제공 FTP ETL Process 데이터 마이닝 Data Warehouse OLAP Service SFTP Pig & Script Lanugage Mahout, R Hive, R Tools Server Rsync (R) NoSQL Data Log Aggregator MapReduce Framework Warehouse (Mong (Flume) oDB) Real-time Stream & Event NoSQL RDBMS Processor (Hbase, Cassandra) (Oracle, MySQL) SAN Local FS Distributed File System Storage Local FS
  • 빅 데이터 수집¨  데이터 포맷 ¤  비정형 (log, csv,…) ¤  준정형 (XML,JSON) ¤  정형(데이터베이스) Extract / Transform / Load Extract / Load / Transform¨  데이터 변환¨  연동 주기 Agent¨  데이터 크기¨  전송 속도 Collector¨  손실 허용 기준 (100%?)¨  장애시 재전송 정책 Agent DFS¨  전송 방식 Collector ¤  ftp/sftp ¤  rsync, rcp Agent ¤  nfs / fuse Log Aggregator Framework ¤  Aggregator Framework n  Scribe (C++) n  Flume (Java)
  • 빅 데이터 처리/분석의 특징 Hadoop 기반 상용 제품들의 주요 솔루션 영역 Apache Oozie빅데이터 처리와 분석작업 Job Scheduler은 하나 이상의 데이터 작업들로 구성 Workflow배치 프로세싱 Engine(분단위,일단위,월단위) Cluster Management클러스터 컴퓨팅 관리 System Apache Amabari(신규구축, 노드추가/삭제) Cluster Monoring Cloudera클러스터 모니터링이 필수 System장애에 대한 대책 Notification
  • 빅 데이터 마이닝•  빅데이터 마이닝에 있어서 Training Set 을 만드는 것에 있어 많은 비용발생•  Supervised Learning 보다는 Unsupervised Learning 적용이 유리•  Mahout : MapReduce 기반의 scalable data mining algorithm 발굴 및 구현•  C-MR, Giraph 와 같은 데이터 마이닝에 적합한 프레임워크이 등장 Analyze & tune Analyze & tune Training Build Set Model Build Data Data Model Validate Validation Validate Set New New Data Data Supervised Learning Workflow Unsupervised Learning Workflow
  • 빅 데이터 제공¨  데이터 마이닝된 데이터 Hive Pig 를 서비스 서버에서 이용 Batch MapReduce Framework ¤  검색용 인덱스 DB Process ¤  추천엔진 룰데이터 DFS¨  데이터 처리/분석된 자료 Periodic Update 를 다양한 포맷의 보고서 나 차트를 생성할 수 있도 RDBMS NoSQL 록 제공 ¤  OLAP 도구 연동이 중요 OLTPè RDBMS 는 여전히 중요 OLAP Service Tools Server
  • 빅데이터 기술 도입시 고려 사항 Q1. 꼭 Hadoop, NoSQL, DFS가 필요한가? 도메인과 Q2. 기존의 기술로 해결할 수 없는 문제인가?요구사항에맞게 도입 Q3. 기존의 기술로는 비용이 많이 드는가? Q4. 상용/오픈소스 영역과 품질 수준을 정의했는가? 도입전 요구 사항에 맞는지 사전 벤치마킹이 필수내부 엔지니어 확보 및 오픈소스에서 주장하는 성능/품질은 참고사항일 뿐 기술 내재화 개발비보다 운영비가 크게 증가할 수도 있음을 명심
  • 빅데이터를 위한 역량•  자신은 어느 분야의 전문가인가?•  어느 방향으로 역량을 넓혀갈 것인가? 도메인 지식 Data Scientist 데이터 데이터 시각화 Data 마이닝 Scie ntist 소프트웨어 프로그래머 빅데이터 들에게 좀더 많은 기회? 플랫폼기술 Hadoop 머신러닝 /NoSQL s D evOp DevOps 운영체제 소프트웨어 분산컴퓨팅 프로그래밍
  • 빅데이터를 위한 역할과 요구기술 •  추천 로직 기획, 광고 플랫폼 •  Financial & Stock Market 도메인 전문가 •  Health Care •  Visualization •  BioInfomatics •  Infograph •  Power Management •  IR & RecSys Data Scientist •  통계 & 데이터 탐색 •  데이터 마이닝 & 기계학습 •  OLAP Tools 데이터 분석가 •  데이터 분석 •  SAS, •  리포팅 SPSS,R,Weka •  데이터 시각화 •  SQL •  RDBMS •  ETL •  데이터 수집 •  Script Language •  마이닝 알고리즘 & ML 구현 •  Pig, Hive소프트웨어 개발자 •  데이터 처리 엔진 구현 •  MapReduce DevOps •  데이터 저장소 최적화 •  분산 알고리즘 구현 •  Log Aggregator •  NoSQL •  Hadoop •  운영 체계 최적화 •  Linux시스템 엔지니어 •  컴퓨팅 H/W, N/W 최적화 •  X86 •  Network
  • Multi-Player .vs. Team•  중장기적으로 조직내에 빅데이터 기술의 내재화가 필수•  관련 역량을 갖춘 팀을 갖추고 개인 역량을 높이는 내재화 전략 필요 Data Team Data Scientst Domai n Expert DBA Data Miner 서비스 알고리즘 DevOps 개발 기획자 통계학자 Machine Learning S/W S/W 아키텍트 개발자 System Engineer
  • 향후 빅데이터 발전 방향 ¨  Real-time Analytics ¨  Advanced & Predictive Analytics ¨  Advanced Data Visualization 출처: TDWI Research 4thQ 2011 on Big Data Analytics
  • 빅데이터 솔루션과 하둡 출처: http://kimws.wordpress.com
  • Big Data in Cloud Amazon Google MicrosoftProduct Amazon Web Service Google Cloud Platform Microsoft AzureBig Data Storage S3 Cloud Storage HDFS on AzureWorking Storage Elastic Block Store Datastore , Blobstore Blog, table, queuesNoSQL database DynamoDB AppEngine Datastore Table StorageRelational database MySQL , Oracle CloudSQL (MySQL SQL Azure compatible)Application hosting EC2 AppEngine Azure ComputeMap/Reduce service Elastic MapReduce Compute Engine Hadoop on Azure(Hadoop Partner) (Cloudera) (MapR) (Hortonworks)Big data anlytics Pig, Hive BigQuery Pig, Hive Pig, HiveMachine Learning Mahout (on Hadoop) Prediction API Mahout (on Hadoop) Mahout (Hadoop)Streaming Processing N/A N/A StreamInsightData Import Network Network Network Storage Device
  • Beyond the Yottabyte "the data volumes are increasing with a projection that sensor data volume could potentially increase to the level of Yottabytes by 2015." Googol = 10100
  • 감사합니다.