빅데이터 플랫폼, 새로운 미래	
  

     Pla&orm	
  Camp	
  2012	
  
          12.06.23	
  
           김우승	
  
                	
  
                	
  
소개	
  
•  줌인터넷(주) 연구소장	
  
•  이력	
  
   –    줌인터넷	
  
   –    SK	
  플래닛	
  
   –    SK	
  텔레콤	
  	
  
   –    삼성전자	
  


•  h7p://kimws.wordpress.com	
  
•  @kimws	
  
Why	
  Now?	
  

¨    Google	
  
¨    Facebook	
                                                   NoSQL	
  
                                              웹 서비스 비즈의 성장
¨    Yahoo	
                               기술 공개 ,	
  빠른 기술 진화	
  
¨    LinkedIn	
                          데이터 처리 비용 상대적으로 낮아짐 	
  
¨    Twi7er	
  
                                               Cost	
  <	
  Value	
  
	
  	
  	
  Connected	
  Everything	
  
       –  Smartphone	
  
       –  LTE	
                               데이터의 폭발적인 증가	
  
                                                 멀티미디어	
  
       –  Sensor	
  Networks	
  	
              실시간 데이터	
  
       –  …	
  …	
                                  	
  
Legacy	
  Technologies	
  .vs.	
  	
  Big	
  Data	
  Technologies	
  

•  Single	
  Machine	
                             •  MulYple	
  Machines	
  
        –  MulY-­‐core	
  (>	
  16	
  cores)	
         –  Commodity	
  H/W,	
  N/W	
  
        –  Scale-­‐up	
                                –  Scale-­‐out	
  
        –  High	
  Price	
  H/W,	
  S/W	
              –  Low	
  Cost	
  H/W	
  
        –  SAN	
  Storage	
                            –  Distributed	
  FS	
  
•  MS	
  Windows,	
  AIX,	
  HP-­‐UX	
             •  Linux	
  
•  Commercial	
  SoluYons	
                        •  Open	
  Source	
  
•  IBM,	
  Oracle,	
  Microsoa	
                   •  Google,	
  Yahoo!,	
  Facebook,	
  
   	
                                                 Twi7er,	
  LinkedIn	
  
•  RDBMS	
                                         •  NoSQL	
  
•  TeraData,	
  Exadata,NeYzza	
                   •  Hadoop	
  
•  SAS,	
  SPSS	
                                  •  R	
  
Legacy	
  Data	
  Pla&orm	
  
                                      시스템 확장	
  

고가의 하이엔드 싱글서버 서버, 네트워크장비                                          비용은 몇배로 발생
SAN 스토리지                                           시스템 아키텍쳐 & 데이터 구조 변경이 불가피
상용 데이터베이스, 마이닝 솔루션 매우 고가                             처리할 수 있는 데이터 처리에 한계가 발생




  데이터 수집	
              데이터 처리	
              데이터 분석	
                 데이터 제공	
  

                    ETL Process
                                          데이터 마이닝     Data Warehouse     OLAP        Service
                    (IBM DataStage)
                                          (SAS)       (TeraData)         Tools       Server
                    SQL, PL/SQL
    FTP
    SFTP
    Rsync

                    RDBMS (Oracle, DB2, MSSQL …)


    Local FS    SAN Storage                                               Local FS
No	
  MigraYon	
  ,	
  Hybrid!!!	
  
Big	
  Data	
  Pla&orm	
  
•  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용
•  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용
•  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성




  데이터 수집	
                 데이터 처리	
                데이터 분석	
                 데이터 제공	
  

                                                                              OLAP
     FTP               ETL Process             데이터 마이닝     Data Warehouse                Service
                       Pig & Script Lanugage   Mahout, R                      Tools
     SFTP                                                  Hive, R                       Server
                                                                              (R)
     Rsync

                                                                                         NoSQL
                                                                     Data
     Log Aggregator    MapReduce Framework                           Warehouse
                                                                                         (Mong
     (Flume)                                                                             oDB)

     Real-time
     Stream & Event
                       NoSQL                                         RDBMS
     Processor         (Hbase, Cassandra)                            (Oracle, MySQL)

                                                                  SAN
     Local FS    Distributed File System                          Storage
                                                                                      Local FS
재빠른 벤더들의 움직임	
  
‘12년 국내 빅데이터 시장은?	
  
•  DB,	
  DW	
  벤더중심의 마케팅으로 왜곡	
  
  –  기존 DW,	
  데이터 마이닝과 무슨 차이?	
  
•  빅데이터가 있기는 한건가?	
  
  –  주로 소셜미디어 (주로 트위터) 분석 시장	
  
    •  SmartInsight,	
  Seenal,	
  TrueStory,PulseK,	
  tweetTrend	
  …	
  
  –  게임회사,	
  포털서비스, 서비스회사,	
  Telco	
  
    •  2-­‐3년 전부터 기술을 도입하여 활용중	
  




    ‘12년 하반기되면 거품이 빠질 듯 …	
  
그러다보니 …	
  
•  ‘11년부터 분산 컴퓨팅 환경에서의 데이터 프로세싱 영역에는
   빅데이터 기술들을 적극 도입하고 활용	
  
  –  퍼스널 클라우드의 확대로 저가의 분산 스토리지에 대한 개발과
       적용은 활발	
  
  –  대용량 데이터 저장과 프로세싱을 위한 NoSQL에 대한 활용이 크
       게 늘고 있음 	
  
  	
  
•  데이터 분석 분야에서 특히 분산 컴퓨팅 환경에서의 대용량 마
   이닝 알고리즘이나 분석 기법은 제한적으로 활용되고 있음	
  
  –  이 영역이 외국계 업체들의 컨설팅, 솔루션 비지니스시에 강점으
     로 내세울 것임	
  
  –  데이터가 없으니 당연히 국내에서는 이 영역에서 두각을 나타내
     는 업체 없음. 소셜분석이 뜨는 이유는 트위터데이터만이 활용할
     수 있는 공개된 빅데이터(?) 라 할 수 있기 때문에
Big	
  data	
  is	
  not	
  bubble!!!	
  
                                         Financial	
  
2-­‐3년 이내에 각 산업계, 학계의 다양한                Services	
  
                                                                       Healthcare	
  
도메인별로 해외의 성공사례들이 나오
게되면 비싼 컨설팅 비용과 솔루션 비                                                 Media	
  and	
  
용이 발생하고 기술 및 역량을 내재화                  Manufacturing	
  
                                                                   Entertainment	
  
하는 시기마저 놓칠수도	
  
                                          Natural	
  
                                                                          Retail	
  
                                         Resources	
  

전 산업분야에 걸쳐서 빅데이
                                      TransportaYons	
                   UYliYes	
  
터 기술을 이용한 응용들이 크
게 늘어나게 될 것이며 이를
뒷받침하는 하드웨어, 네트워                        Government	
                       Cloud	
  

크, 분산 알고리즘 연구, 분석
도구 시장 역시 함께 성장하게                                         Science	
  

될 것이다.	
  
	
  
             	
  
    클라우드 컴퓨팅이 거품이 아니었듯이	
  
빅데이터는 있다. 하지만 …	
  
         어떤 가치를 찾을 수 있지?	
  
                  	
  
•  당장 분석할 충분한 데이터를 갖추고(저장하고) 있지않다.	
  
•  그래도 일단 데이터를 수집하고 바로 시작해야 한다. 	
  
•  다양한 분석과 데이터로부터 가치를 찾는 일을 시작해야 한다.	
  




                      	
  
            닭과 달걀의 문제	
  
             즉 ROI	
  의 문제!!!	
  
            내재화가 필요하다	
  
빅데이터를 위한 기술 역량	
  
                •    추천 로직 기획,	
  광고 플랫폼	
  
                •    Financial	
  &	
  Stock	
  Market	
  
                                                             •    VisualizaYon	
  
 도메인 전문가	
      •    Health	
  Care	
  
                                                             •    Infograph	
  
                •    BioInfomaYcs	
  
                •    Power	
  Management	
                   •    IR	
  &	
  RecSys	
  	
  




                                                                                              Data	
  ScienYst	
  
                •    통계 & 데이터 탐색	
  
                •    데이터 마이닝 & 기계학습	
                        •    OLAP	
  Tools	
  
 데이터 분석가	
      •    데이터 분석	
                                •    SAS,	
  SPSS,R,Weka	
  
                •    리포팅	
  
                •    데이터 시각화	
  
                                                             •    SQL	
  
                                                             •    RDBMS	
  
                                                             •    ETL	
  
                •    데이터 수집	
                                •    Script	
  Language	
  
                •    마이닝 알고리즘 &	
  ML 구현	
                   •    Pig,	
  Hive	
  
소프트웨어 개발자	
     •    데이터 처리 엔진 구현	
                          •    MapReduce	
  




                                                                                                                     DevOps	
  
                •    데이터 저장소 최적화	
  
                •    분산 알고리즘 구현	
                            •    Log	
  Aggregator	
  
                                                             •    NoSQL	
  
                                                             •    Hadoop	
  
                •    운영 체계 최적화	
                             •    Linux	
  
시스템 엔지니어	
      •    컴퓨팅	
  H/W,	
  N/W	
  최적화	
             •    X86	
  
                                                             •    Network	
  
감사합니다.	
  

빅데이터 플랫폼 새로운 미래

  • 1.
    빅데이터 플랫폼, 새로운미래   Pla&orm  Camp  2012   12.06.23   김우승      
  • 2.
    소개   •  줌인터넷(주)연구소장   •  이력   –  줌인터넷   –  SK  플래닛   –  SK  텔레콤     –  삼성전자   •  h7p://kimws.wordpress.com   •  @kimws  
  • 3.
    Why  Now?   ¨  Google   ¨  Facebook   NoSQL   웹 서비스 비즈의 성장 ¨  Yahoo   기술 공개 ,  빠른 기술 진화   ¨  LinkedIn   데이터 처리 비용 상대적으로 낮아짐   ¨  Twi7er   Cost  <  Value        Connected  Everything   –  Smartphone   –  LTE   데이터의 폭발적인 증가   멀티미디어   –  Sensor  Networks     실시간 데이터   –  …  …    
  • 4.
    Legacy  Technologies  .vs.    Big  Data  Technologies   •  Single  Machine   •  MulYple  Machines   –  MulY-­‐core  (>  16  cores)   –  Commodity  H/W,  N/W   –  Scale-­‐up   –  Scale-­‐out   –  High  Price  H/W,  S/W   –  Low  Cost  H/W   –  SAN  Storage   –  Distributed  FS   •  MS  Windows,  AIX,  HP-­‐UX   •  Linux   •  Commercial  SoluYons   •  Open  Source   •  IBM,  Oracle,  Microsoa   •  Google,  Yahoo!,  Facebook,     Twi7er,  LinkedIn   •  RDBMS   •  NoSQL   •  TeraData,  Exadata,NeYzza   •  Hadoop   •  SAS,  SPSS   •  R  
  • 5.
    Legacy  Data  Pla&orm   시스템 확장   고가의 하이엔드 싱글서버 서버, 네트워크장비 비용은 몇배로 발생 SAN 스토리지 시스템 아키텍쳐 & 데이터 구조 변경이 불가피 상용 데이터베이스, 마이닝 솔루션 매우 고가 처리할 수 있는 데이터 처리에 한계가 발생 데이터 수집   데이터 처리   데이터 분석   데이터 제공   ETL Process 데이터 마이닝 Data Warehouse OLAP Service (IBM DataStage) (SAS) (TeraData) Tools Server SQL, PL/SQL FTP SFTP Rsync RDBMS (Oracle, DB2, MSSQL …) Local FS SAN Storage Local FS
  • 6.
    No  MigraYon  ,  Hybrid!!!  
  • 7.
    Big  Data  Pla&orm   •  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용 •  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용 •  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성 데이터 수집   데이터 처리   데이터 분석   데이터 제공   OLAP FTP ETL Process 데이터 마이닝 Data Warehouse Service Pig & Script Lanugage Mahout, R Tools SFTP Hive, R Server (R) Rsync NoSQL Data Log Aggregator MapReduce Framework Warehouse (Mong (Flume) oDB) Real-time Stream & Event NoSQL RDBMS Processor (Hbase, Cassandra) (Oracle, MySQL) SAN Local FS Distributed File System Storage Local FS
  • 8.
  • 9.
    ‘12년 국내 빅데이터시장은?   •  DB,  DW  벤더중심의 마케팅으로 왜곡   –  기존 DW,  데이터 마이닝과 무슨 차이?   •  빅데이터가 있기는 한건가?   –  주로 소셜미디어 (주로 트위터) 분석 시장   •  SmartInsight,  Seenal,  TrueStory,PulseK,  tweetTrend  …   –  게임회사,  포털서비스, 서비스회사,  Telco   •  2-­‐3년 전부터 기술을 도입하여 활용중   ‘12년 하반기되면 거품이 빠질 듯 …  
  • 10.
    그러다보니 …   • ‘11년부터 분산 컴퓨팅 환경에서의 데이터 프로세싱 영역에는 빅데이터 기술들을 적극 도입하고 활용   –  퍼스널 클라우드의 확대로 저가의 분산 스토리지에 대한 개발과 적용은 활발   –  대용량 데이터 저장과 프로세싱을 위한 NoSQL에 대한 활용이 크 게 늘고 있음     •  데이터 분석 분야에서 특히 분산 컴퓨팅 환경에서의 대용량 마 이닝 알고리즘이나 분석 기법은 제한적으로 활용되고 있음   –  이 영역이 외국계 업체들의 컨설팅, 솔루션 비지니스시에 강점으 로 내세울 것임   –  데이터가 없으니 당연히 국내에서는 이 영역에서 두각을 나타내 는 업체 없음. 소셜분석이 뜨는 이유는 트위터데이터만이 활용할 수 있는 공개된 빅데이터(?) 라 할 수 있기 때문에
  • 11.
    Big  data  is  not  bubble!!!   Financial   2-­‐3년 이내에 각 산업계, 학계의 다양한 Services   Healthcare   도메인별로 해외의 성공사례들이 나오 게되면 비싼 컨설팅 비용과 솔루션 비 Media  and   용이 발생하고 기술 및 역량을 내재화 Manufacturing   Entertainment   하는 시기마저 놓칠수도   Natural   Retail   Resources   전 산업분야에 걸쳐서 빅데이 TransportaYons   UYliYes   터 기술을 이용한 응용들이 크 게 늘어나게 될 것이며 이를 뒷받침하는 하드웨어, 네트워 Government   Cloud   크, 분산 알고리즘 연구, 분석 도구 시장 역시 함께 성장하게 Science   될 것이다.       클라우드 컴퓨팅이 거품이 아니었듯이  
  • 12.
    빅데이터는 있다. 하지만…   어떤 가치를 찾을 수 있지?     •  당장 분석할 충분한 데이터를 갖추고(저장하고) 있지않다.   •  그래도 일단 데이터를 수집하고 바로 시작해야 한다.   •  다양한 분석과 데이터로부터 가치를 찾는 일을 시작해야 한다.     닭과 달걀의 문제   즉 ROI  의 문제!!!   내재화가 필요하다  
  • 13.
    빅데이터를 위한 기술역량   •  추천 로직 기획,  광고 플랫폼   •  Financial  &  Stock  Market   •  VisualizaYon   도메인 전문가   •  Health  Care   •  Infograph   •  BioInfomaYcs   •  Power  Management   •  IR  &  RecSys     Data  ScienYst   •  통계 & 데이터 탐색   •  데이터 마이닝 & 기계학습   •  OLAP  Tools   데이터 분석가   •  데이터 분석   •  SAS,  SPSS,R,Weka   •  리포팅   •  데이터 시각화   •  SQL   •  RDBMS   •  ETL   •  데이터 수집   •  Script  Language   •  마이닝 알고리즘 &  ML 구현   •  Pig,  Hive   소프트웨어 개발자   •  데이터 처리 엔진 구현   •  MapReduce   DevOps   •  데이터 저장소 최적화   •  분산 알고리즘 구현   •  Log  Aggregator   •  NoSQL   •  Hadoop   •  운영 체계 최적화   •  Linux   시스템 엔지니어   •  컴퓨팅  H/W,  N/W  최적화   •  X86   •  Network  
  • 14.