SlideShare a Scribd company logo
Next Revolution
Toward Open Platform




       R and RHive
in Data Scientist’s toolbox



                       NexR Data Scientist
                         Jeon Hee-Won
시작하며 – 빅 데이터 분석 -
 “분석”에                있어서의 “빅 데이터” 문제
       데이터가 크기 때문에 일어나는 모든 일
         수집과 저장 불가능  플랫폼
         참을 수 없는 분석 수행 속도  분석
         로딩조차 불가능한 데이터 크기  분석

   “빅 데이터”에 대한 “분석”의 입장
       분석은 빅 데이터라는 거대한 근육에 지능을 불어 넣는 작업
       다양한 분석 기법을 시도해야 되기 때문에 빅 데이터 문제는 난제 중
        에 난제이다.
         샘플링 기반?
         젂체 데이터 기반?

 분석을   빠르고 원홗하게 시도할 수 있는 홖경을 제공하는 건
    분석 플랫폼의 필수 요건이다.


            Next Revolution
            Toward Open Platform           -2-
SAS understands why R


“A key benefit of R is that it provides near instant
availability of new and experimental methods created by
its user base — without waiting for the
development/release cycle of commercial software. SAS
recognizes the value of R to our customer base…”

— Michael Gilliland, Product Marketing Manager SAS Institute, Inc.




      Next Revolution
      Toward Open Platform                                           -3-
Using R




      R은 영어처럼 통계분석/대회에서 가장 일반화된 언어로 사용되고 있다.

http://www.kdnuggets.com/2011/08/poll-languages-for-data-mining-analytics.html
http://blog.revolutionanalytics.com/2011/11/r-still-the-preferred-tool-of-predictive-modelers-competing-at-kaggle.html
           Next Revolution
           Toward Open Platform                                                                                      -4-
빅 데이터 분석에서의 R의 문제점/해결책
 메모리 한계 이슈
     모든 데이터를 메모리에 로딩 후 처리하는 작업 방식
          ff, bigmemory, RevoScaleR
          GB급 데이터 처리 가능 10GB 이상 데이터는 처리 가능하나 너무 느리다는
           단점
     불필요한 데이터 저장으로 인한 메모리 부족 현상
          gc(), rm()
     32비트에서 표현 가능한 숫자만이 사용, 2^31-1
          R 2.15부터 2^51 이상의 벡터 길이 사용 가능
     No int64

                               TB급 빅 데이터
          int64 package from Google
     메모리 단편화
          64bit 머싞 사용
          더 많은 메모리
                               는 여전히 처리
Single Core 이슈
     멀티코어 CPU에서 1코어만 사용한다.
                               하기 힘듬
     R 2.14 부터 parallel 패키지 기본 탑재


     Next Revolution
     Toward Open Platform                          -5-
Motivation of RHive




                              select * from foo;




Map/Reduce   for data analysis?
    배워야 한다. 그러나 어렵다
SQL for data analysis!
    대부분 배울 필요가 없다. 그리고 쉽다.



     Next Revolution
     Toward Open Platform                          -6-
RHive

                          R을 사용한 데이터 분산 처리 가능



                                               지원
                                   
                                       

                                   
                                                     방식
                                           으로    실행
                                   
                                       




   Next Revolution
   Toward Open Platform                               -7-
RHive Analytics

                RHive 위에 구현된 대용량 분산 데이터 마이닝 시스템




    


    
    


    


    
    

        Next Revolution
        Toward Open Platform                      -8-
클라우드 데이터센터 로그 분석 – 적용 예
클라우드 시스템이 생성하는 각종 시스템 로그와 Usages 그리고 네트워크 플
로우를 분석해 시스템 운영에 필요한 모니터링 정보를 제공하는 시스템
                     RHIVE(ETL)
                                    Network               Virtual Machine             Disk Volume
                                                                                                                           최종 Output




                    RHIVE         Network Log 집계                  VM Log              Disk Volume Log
                    (Aggregate)



                                 Account Level              Account Level                Account Level
                             Network Log 집계데이터              VM 집계데이터                Disk Volume 집계데이터




                                                               고객별
                                                              특성데이터


  R(Plotting)                                      RHIVE                                                                      R(Plotting)
                                                   (Clustering)

                                                             scale된                      일별 SEG별        시갂대별 SEG별    일별 SEG별
        일별 SEG별       시갂대별 SEG별                           고객별 특성데이터                       VM 집계           VM 집계   Disk Volume 집계
       Network 집계     Network 집계



                                                            scale된 고객별                   Cluster별         Cluster       Cluster별
       Cluster별         Cluster별                              특성데이터                      VM 현황           VM 현황      Disk Volume 현황
      Network 현황       Network 현황                                           군집특성도
                                                               고객별
                                                              특성데이터

                                                                               고객별 SEG별              고객별 SEG별
                                          정기 보고서                               일별 집계데이터             시갂대별 집계데이터


  Next Revolution
  Toward Open Platform                                                                                                                  -9-
SNA with CDR – 적용 예
 SNA?
       개인 및 집단들 갂의 관계를 노드와 링크로서 모델링 하여 그
        위상구조 확산 진화 과정을 계량적으로 분석하는 방법론




                  from https://www.facebook.com/notes/facebook-engineering/visualizing-friendships/469716398919
    Next Revolution
    Toward Open Platform                                                                               -10-
Big Data Problems
                          
                              


                              

                          
                                 분석을 위한 데이터 로딩이 힘
                                  들다
                                    특징을 뽑는데 많은 시갂
                                  소요
                                   를 표현하기엔 많은 노드와
                                  링크가 있다

                              모두 Big Data 문제

   Next Revolution
   Toward Open Platform                        -11-
Solving

     데이터 로딩 문제               처리 시갂 문제                플로팅 문제

   • 데이터에 대한 이해           • 분산처리만이 답이다.        • 무엇을 보고자 하는
   • 테스트 그리고 충분           • Map/Reduce, MPI,    가?
    한 젂처리                  multicore           • 보고자하는 정보 집
                           programming          중 표현/ 필요없는 정
                                                보 제거




   vertex는 인구에 비례, edge
                                                sub-network기반 데이
    는 연락을 자주 하는 평균
         지인수에 비례                  RHive               터 표현




   Next Revolution
   Toward Open Platform                                            -12-
Group Network Tracking

    젂체 네트워크는 그룹 네트워크로 세분화 될 수 있으며 이들을 정의하고 트
           래킹하는 것은 고급 SNA 분석의 한 분야이다.

                              란
       개별 고객에 대한 분석이 아닌    기반의 네트워크 분석 방법
       그룹에 대한 집계를 기반으로 하는 것이라 개인정보에 민감한 부분들
        에 대해서 이슈가 해결될 수 있음


                              분석 과정
       각 서브 그룹 도출
       그룹 특징 분류 가족 직장동료 동호회 동창모임 등등
       그룹 프로파일 추출 및 시갂에 따른 그룹 추적 및 라이프 사이클 도출
            그룹 내에서 경쟁사의               를 자사 고객으로 만든 뒤 네트워크가
             변해가는 모습 트래킹


        Next Revolution
        Toward Open Platform                             -13-
SNA 홗용

    홗용 구분                   홗용 내용                       상세 홗용 내용
                                      • 타사 사용자 중에서 중심성 점수가 높은 사용자를 대상으로 한
                    사회성 등급으로 이용         타킷 마케팅
고객 등급
                    기졲 등급은 가치등급       • 자사 고객 중에서 중심성 점수가 높은 사용자를 대상으로 혜택
                                        부여

                    중심성 크기에 따라 해지     • 중심점이 높은 고객은 Influential Customer이므로 해지 방어 비
고객 이탈 방지            방어의 비용과 Inbound     용을 높여서 잠재적인 동반 해지(지인,가족 등 node 연결 고객)를
                    Call 우선 순위 결정       방어

                                      • 짧은 단위 시갂에 여러 Network Group으로 Outbound Call을 시
                    Fisher로 유추되는 고객
Fishing 방지                              도하는 고객 도출, 이들과 통화하는 사용자들에게 SMS 경고 메
                    Detection
                                        시지 발송
                                      • 경찰청 통화이력 조회 대상자의 Network 분석
                    경찰청 통신이력 조회 대
범죄자 SNA                               • 통화 이력뿐 아니라 Node 고객의 Demographics 정보, 통화 위
                    상자의 Network 분석
                                        치 등의 정보를 포함한 SNA 분석 및 Network 그래프 출력




                       중심성(사회성)


     Next Revolution
     Toward Open Platform                                                         -14-
Q&A




                        haven-jeon@nexr.com


 Next Revolution
 Toward Open Platform                         -15-

More Related Content

What's hot

하둡완벽가이드 Ch6. 맵리듀스 작동 방법
하둡완벽가이드 Ch6. 맵리듀스 작동 방법하둡완벽가이드 Ch6. 맵리듀스 작동 방법
하둡완벽가이드 Ch6. 맵리듀스 작동 방법HyeonSeok Choi
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
[164] pinpoint
[164] pinpoint[164] pinpoint
[164] pinpointNAVER D2
 
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계PgDay.Seoul
 
Spark은 왜 이렇게 유명해지고 있을까?
Spark은 왜 이렇게  유명해지고 있을까?Spark은 왜 이렇게  유명해지고 있을까?
Spark은 왜 이렇게 유명해지고 있을까?KSLUG
 
Mapreduce tuning
Mapreduce tuningMapreduce tuning
Mapreduce tuningGruter
 
Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Keeyong Han
 
Spark 소개 2부
Spark 소개 2부Spark 소개 2부
Spark 소개 2부Jinho Yoo
 
The MongoDB Strikes Back / MongoDB 의 역습
The MongoDB Strikes Back / MongoDB 의 역습The MongoDB Strikes Back / MongoDB 의 역습
The MongoDB Strikes Back / MongoDB 의 역습Hyun-woo Park
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSGruter
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)SANG WON PARK
 
7가지 동시성 모델 람다아키텍처
7가지 동시성 모델  람다아키텍처7가지 동시성 모델  람다아키텍처
7가지 동시성 모델 람다아키텍처Sunggon Song
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다민철 정민철
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대DaeHeon Oh
 
TestDFSIO
TestDFSIOTestDFSIO
TestDFSIOhhyin
 

What's hot (20)

Druid+superset
Druid+supersetDruid+superset
Druid+superset
 
하둡완벽가이드 Ch6. 맵리듀스 작동 방법
하둡완벽가이드 Ch6. 맵리듀스 작동 방법하둡완벽가이드 Ch6. 맵리듀스 작동 방법
하둡완벽가이드 Ch6. 맵리듀스 작동 방법
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
[164] pinpoint
[164] pinpoint[164] pinpoint
[164] pinpoint
 
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
 
Spark은 왜 이렇게 유명해지고 있을까?
Spark은 왜 이렇게  유명해지고 있을까?Spark은 왜 이렇게  유명해지고 있을까?
Spark은 왜 이렇게 유명해지고 있을까?
 
Mapreduce tuning
Mapreduce tuningMapreduce tuning
Mapreduce tuning
 
Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)
 
Apache sqoop
Apache sqoopApache sqoop
Apache sqoop
 
Spark 소개 2부
Spark 소개 2부Spark 소개 2부
Spark 소개 2부
 
The MongoDB Strikes Back / MongoDB 의 역습
The MongoDB Strikes Back / MongoDB 의 역습The MongoDB Strikes Back / MongoDB 의 역습
The MongoDB Strikes Back / MongoDB 의 역습
 
Storm 훑어보기
Storm 훑어보기Storm 훑어보기
Storm 훑어보기
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
7가지 동시성 모델 람다아키텍처
7가지 동시성 모델  람다아키텍처7가지 동시성 모델  람다아키텍처
7가지 동시성 모델 람다아키텍처
 
YARN overview
YARN overviewYARN overview
YARN overview
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
TestDFSIO
TestDFSIOTestDFSIO
TestDFSIO
 

Viewers also liked

Compose Async with RxJS
Compose Async with RxJSCompose Async with RxJS
Compose Async with RxJSKyung Yeol Kim
 
Ionic adventures - Hybrid Mobile App Development rocks
Ionic adventures - Hybrid Mobile App Development rocksIonic adventures - Hybrid Mobile App Development rocks
Ionic adventures - Hybrid Mobile App Development rocksJuarez Filho
 
Module, AMD, RequireJS
Module, AMD, RequireJSModule, AMD, RequireJS
Module, AMD, RequireJS偉格 高
 
제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing
제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing
제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturingdgmit2009
 
차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)beom kyun choi
 
System webpack-jspm
System webpack-jspmSystem webpack-jspm
System webpack-jspmJesse Warden
 
Single Page Web Applications with CoffeeScript, Backbone and Jasmine
Single Page Web Applications with CoffeeScript, Backbone and JasmineSingle Page Web Applications with CoffeeScript, Backbone and Jasmine
Single Page Web Applications with CoffeeScript, Backbone and JasminePaulo Ragonha
 
고객건강관리앱제안서
고객건강관리앱제안서고객건강관리앱제안서
고객건강관리앱제안서Sinye Keum
 
Building a Single-Page App: Backbone, Node.js, and Beyond
Building a Single-Page App: Backbone, Node.js, and BeyondBuilding a Single-Page App: Backbone, Node.js, and Beyond
Building a Single-Page App: Backbone, Node.js, and BeyondSpike Brehm
 
Becoming Node.js ninja on Cloud Foundry
Becoming Node.js ninja on Cloud FoundryBecoming Node.js ninja on Cloud Foundry
Becoming Node.js ninja on Cloud FoundryRaja Rao DV
 
Testing nodejs apps
Testing nodejs appsTesting nodejs apps
Testing nodejs appsfelipefsilva
 
[C5]deview 2012 nodejs
[C5]deview 2012 nodejs[C5]deview 2012 nodejs
[C5]deview 2012 nodejsNAVER D2
 
The Art of AngularJS - DeRailed 2014
The Art of AngularJS - DeRailed 2014The Art of AngularJS - DeRailed 2014
The Art of AngularJS - DeRailed 2014Matt Raible
 
AngularJS Deep Dives (NYC GDG Apr 2013)
AngularJS Deep Dives (NYC GDG Apr 2013)AngularJS Deep Dives (NYC GDG Apr 2013)
AngularJS Deep Dives (NYC GDG Apr 2013)Nitya Narasimhan
 
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안Jeongsang Baek
 
서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)
서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)
서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)USABLE 윤
 

Viewers also liked (20)

Introduction to R for Data Mining
Introduction to R for Data MiningIntroduction to R for Data Mining
Introduction to R for Data Mining
 
Compose Async with RxJS
Compose Async with RxJSCompose Async with RxJS
Compose Async with RxJS
 
Ionic adventures - Hybrid Mobile App Development rocks
Ionic adventures - Hybrid Mobile App Development rocksIonic adventures - Hybrid Mobile App Development rocks
Ionic adventures - Hybrid Mobile App Development rocks
 
Module, AMD, RequireJS
Module, AMD, RequireJSModule, AMD, RequireJS
Module, AMD, RequireJS
 
제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing
제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing
제 5회 DGMIT R&D 컨퍼런스: JavsScript Event Bubbling & Capturing
 
차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)
 
Angular2 ecosystem
Angular2 ecosystemAngular2 ecosystem
Angular2 ecosystem
 
System webpack-jspm
System webpack-jspmSystem webpack-jspm
System webpack-jspm
 
Single Page Web Applications with CoffeeScript, Backbone and Jasmine
Single Page Web Applications with CoffeeScript, Backbone and JasmineSingle Page Web Applications with CoffeeScript, Backbone and Jasmine
Single Page Web Applications with CoffeeScript, Backbone and Jasmine
 
고객건강관리앱제안서
고객건강관리앱제안서고객건강관리앱제안서
고객건강관리앱제안서
 
The SPDY Protocol
The SPDY ProtocolThe SPDY Protocol
The SPDY Protocol
 
Building a Single-Page App: Backbone, Node.js, and Beyond
Building a Single-Page App: Backbone, Node.js, and BeyondBuilding a Single-Page App: Backbone, Node.js, and Beyond
Building a Single-Page App: Backbone, Node.js, and Beyond
 
Becoming Node.js ninja on Cloud Foundry
Becoming Node.js ninja on Cloud FoundryBecoming Node.js ninja on Cloud Foundry
Becoming Node.js ninja on Cloud Foundry
 
Testing nodejs apps
Testing nodejs appsTesting nodejs apps
Testing nodejs apps
 
[C5]deview 2012 nodejs
[C5]deview 2012 nodejs[C5]deview 2012 nodejs
[C5]deview 2012 nodejs
 
The Art of AngularJS - DeRailed 2014
The Art of AngularJS - DeRailed 2014The Art of AngularJS - DeRailed 2014
The Art of AngularJS - DeRailed 2014
 
AngularJS Deep Dives (NYC GDG Apr 2013)
AngularJS Deep Dives (NYC GDG Apr 2013)AngularJS Deep Dives (NYC GDG Apr 2013)
AngularJS Deep Dives (NYC GDG Apr 2013)
 
D3.js workshop
D3.js workshopD3.js workshop
D3.js workshop
 
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
 
서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)
서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)
서비스디자인, 서비스산업을 다시 디자인하다 (2016.4. PPT)
 

Similar to [빅데이터 컨퍼런스 전희원]

Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Jayoung Lim
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316기한 김
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBrockplace
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB rockplace
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료Wooseung Kim
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)IMQA
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화Kenneth Ceyer
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기Yeonhee Kim
 
2012 platform day_nowcom
2012 platform day_nowcom2012 platform day_nowcom
2012 platform day_nowcom승태 봉
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019devCAT Studio, NEXON
 

Similar to [빅데이터 컨퍼런스 전희원] (20)

Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDB
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
 
2012 platform day_nowcom
2012 platform day_nowcom2012 platform day_nowcom
2012 platform day_nowcom
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
 
Intro to r & hadoop
Intro to r & hadoopIntro to r & hadoop
Intro to r & hadoop
 

More from Jayoung Lim

Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장Jayoung Lim
 
좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기Jayoung Lim
 
[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tv[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tvJayoung Lim
 
Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리Jayoung Lim
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수Jayoung Lim
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수Jayoung Lim
 
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁Jayoung Lim
 
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash StamatelosJayoung Lim
 
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수Jayoung Lim
 

More from Jayoung Lim (9)

Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장
 
좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기좌충우돌작은회사 클라우드도입기
좌충우돌작은회사 클라우드도입기
 
[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tv[ZDNet korea] 7th Cvision Daum tv
[ZDNet korea] 7th Cvision Daum tv
 
Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리Roa holdings vp, 소 쿠니노리
Roa holdings vp, 소 쿠니노리
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수
 
Eva 김현종&손영수
Eva 김현종&손영수Eva 김현종&손영수
Eva 김현종&손영수
 
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
직장인 라이트에 적용해 보는 실전 스마트워킹 고영혁
 
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
사례를 통해 살펴보는 퍼블릭 클라우드 서비스 프로바이더 동향_VMware Sr.Director,Tash Stamatelos
 
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
 

[빅데이터 컨퍼런스 전희원]

  • 1. Next Revolution Toward Open Platform R and RHive in Data Scientist’s toolbox NexR Data Scientist Jeon Hee-Won
  • 2. 시작하며 – 빅 데이터 분석 -  “분석”에 있어서의 “빅 데이터” 문제  데이터가 크기 때문에 일어나는 모든 일  수집과 저장 불가능  플랫폼  참을 수 없는 분석 수행 속도  분석  로딩조차 불가능한 데이터 크기  분석  “빅 데이터”에 대한 “분석”의 입장  분석은 빅 데이터라는 거대한 근육에 지능을 불어 넣는 작업  다양한 분석 기법을 시도해야 되기 때문에 빅 데이터 문제는 난제 중 에 난제이다.  샘플링 기반?  젂체 데이터 기반?  분석을 빠르고 원홗하게 시도할 수 있는 홖경을 제공하는 건 분석 플랫폼의 필수 요건이다. Next Revolution Toward Open Platform -2-
  • 3. SAS understands why R “A key benefit of R is that it provides near instant availability of new and experimental methods created by its user base — without waiting for the development/release cycle of commercial software. SAS recognizes the value of R to our customer base…” — Michael Gilliland, Product Marketing Manager SAS Institute, Inc. Next Revolution Toward Open Platform -3-
  • 4. Using R  R은 영어처럼 통계분석/대회에서 가장 일반화된 언어로 사용되고 있다. http://www.kdnuggets.com/2011/08/poll-languages-for-data-mining-analytics.html http://blog.revolutionanalytics.com/2011/11/r-still-the-preferred-tool-of-predictive-modelers-competing-at-kaggle.html Next Revolution Toward Open Platform -4-
  • 5. 빅 데이터 분석에서의 R의 문제점/해결책  메모리 한계 이슈  모든 데이터를 메모리에 로딩 후 처리하는 작업 방식  ff, bigmemory, RevoScaleR  GB급 데이터 처리 가능 10GB 이상 데이터는 처리 가능하나 너무 느리다는 단점  불필요한 데이터 저장으로 인한 메모리 부족 현상  gc(), rm()  32비트에서 표현 가능한 숫자만이 사용, 2^31-1  R 2.15부터 2^51 이상의 벡터 길이 사용 가능  No int64 TB급 빅 데이터  int64 package from Google  메모리 단편화  64bit 머싞 사용  더 많은 메모리 는 여전히 처리 Single Core 이슈  멀티코어 CPU에서 1코어만 사용한다. 하기 힘듬  R 2.14 부터 parallel 패키지 기본 탑재 Next Revolution Toward Open Platform -5-
  • 6. Motivation of RHive select * from foo; Map/Reduce for data analysis?  배워야 한다. 그러나 어렵다 SQL for data analysis!  대부분 배울 필요가 없다. 그리고 쉽다. Next Revolution Toward Open Platform -6-
  • 7. RHive R을 사용한 데이터 분산 처리 가능  지원     방식 으로 실행   Next Revolution Toward Open Platform -7-
  • 8. RHive Analytics RHive 위에 구현된 대용량 분산 데이터 마이닝 시스템           Next Revolution Toward Open Platform -8-
  • 9. 클라우드 데이터센터 로그 분석 – 적용 예 클라우드 시스템이 생성하는 각종 시스템 로그와 Usages 그리고 네트워크 플 로우를 분석해 시스템 운영에 필요한 모니터링 정보를 제공하는 시스템 RHIVE(ETL) Network Virtual Machine Disk Volume 최종 Output RHIVE Network Log 집계 VM Log Disk Volume Log (Aggregate) Account Level Account Level Account Level Network Log 집계데이터 VM 집계데이터 Disk Volume 집계데이터 고객별 특성데이터 R(Plotting) RHIVE R(Plotting) (Clustering) scale된 일별 SEG별 시갂대별 SEG별 일별 SEG별 일별 SEG별 시갂대별 SEG별 고객별 특성데이터 VM 집계 VM 집계 Disk Volume 집계 Network 집계 Network 집계 scale된 고객별 Cluster별 Cluster Cluster별 Cluster별 Cluster별 특성데이터 VM 현황 VM 현황 Disk Volume 현황 Network 현황 Network 현황 군집특성도 고객별 특성데이터 고객별 SEG별 고객별 SEG별 정기 보고서 일별 집계데이터 시갂대별 집계데이터 Next Revolution Toward Open Platform -9-
  • 10. SNA with CDR – 적용 예  SNA?  개인 및 집단들 갂의 관계를 노드와 링크로서 모델링 하여 그 위상구조 확산 진화 과정을 계량적으로 분석하는 방법론 from https://www.facebook.com/notes/facebook-engineering/visualizing-friendships/469716398919 Next Revolution Toward Open Platform -10-
  • 11. Big Data Problems      분석을 위한 데이터 로딩이 힘 들다  특징을 뽑는데 많은 시갂 소요  를 표현하기엔 많은 노드와 링크가 있다 모두 Big Data 문제 Next Revolution Toward Open Platform -11-
  • 12. Solving 데이터 로딩 문제 처리 시갂 문제 플로팅 문제 • 데이터에 대한 이해 • 분산처리만이 답이다. • 무엇을 보고자 하는 • 테스트 그리고 충분 • Map/Reduce, MPI, 가? 한 젂처리 multicore • 보고자하는 정보 집 programming 중 표현/ 필요없는 정 보 제거 vertex는 인구에 비례, edge sub-network기반 데이 는 연락을 자주 하는 평균 지인수에 비례 RHive 터 표현 Next Revolution Toward Open Platform -12-
  • 13. Group Network Tracking 젂체 네트워크는 그룹 네트워크로 세분화 될 수 있으며 이들을 정의하고 트 래킹하는 것은 고급 SNA 분석의 한 분야이다.  란  개별 고객에 대한 분석이 아닌 기반의 네트워크 분석 방법  그룹에 대한 집계를 기반으로 하는 것이라 개인정보에 민감한 부분들 에 대해서 이슈가 해결될 수 있음  분석 과정  각 서브 그룹 도출  그룹 특징 분류 가족 직장동료 동호회 동창모임 등등  그룹 프로파일 추출 및 시갂에 따른 그룹 추적 및 라이프 사이클 도출  그룹 내에서 경쟁사의 를 자사 고객으로 만든 뒤 네트워크가 변해가는 모습 트래킹 Next Revolution Toward Open Platform -13-
  • 14. SNA 홗용 홗용 구분 홗용 내용 상세 홗용 내용 • 타사 사용자 중에서 중심성 점수가 높은 사용자를 대상으로 한 사회성 등급으로 이용 타킷 마케팅 고객 등급 기졲 등급은 가치등급 • 자사 고객 중에서 중심성 점수가 높은 사용자를 대상으로 혜택 부여 중심성 크기에 따라 해지 • 중심점이 높은 고객은 Influential Customer이므로 해지 방어 비 고객 이탈 방지 방어의 비용과 Inbound 용을 높여서 잠재적인 동반 해지(지인,가족 등 node 연결 고객)를 Call 우선 순위 결정 방어 • 짧은 단위 시갂에 여러 Network Group으로 Outbound Call을 시 Fisher로 유추되는 고객 Fishing 방지 도하는 고객 도출, 이들과 통화하는 사용자들에게 SMS 경고 메 Detection 시지 발송 • 경찰청 통화이력 조회 대상자의 Network 분석 경찰청 통신이력 조회 대 범죄자 SNA • 통화 이력뿐 아니라 Node 고객의 Demographics 정보, 통화 위 상자의 Network 분석 치 등의 정보를 포함한 SNA 분석 및 Network 그래프 출력 중심성(사회성) Next Revolution Toward Open Platform -14-
  • 15. Q&A haven-jeon@nexr.com Next Revolution Toward Open Platform -15-