Cloud 기반 Big Data 분석 엔진 서비스

       SK Telecom 차세대 IT Lab

       박근태 (keuntae.park@sk.com)
목차


 1. Big Data 기본개념


 2. 분석 엔진 기본개념


 3. 클라우드 기반 Big Data 분석 엔진


 4. 향후 계획




                             1
                                 1
Big Data?

  Big data is a term applied to data sets whose size is beyond the ability of
  commonly used software tools to capture, manage, and process the data
  within a tolerable elapsed time
                                                                 - wikipedia


     Volume                     -   Volume: 다루는 데이터 량이 수십 Terabytes에서
             Terabytes              Peta, Exa, Zettabyte 스케일
               ~ over
             Zettabytes         -   Velocity: 실시간으로 발생하는 데이터를 수집/처리, 그
                                    분석 결과를 신속(필요한 경우 실시간)하게 추출
       Batch /        정형 /
       실시간            비정형       -   Variety: 기존의 RDB로 처리하던 정형적인 데이터
                                    (15%) 뿐 만 아니라 로그파일, SNS데이터, 이미지, 음
     Velocity         Variety       성 정보 등 비정형 데이터(85%)에 대한 처리 필요




             Value
                                                                                2
                                                                                    2
왜 Big Data? – 개인화 서비스


                       Sampled data



                                      젂반적인 경향
                       Focus group     주류의 흐름
                                                소품종 대량생산


  VS.
             웹 이용 로그

        통화

                  상품 구매


   위치 정보
                   SNS
                                      개인 및 친밀
                                      그룹의 성향
                                                개인 맞춤형 서비스


                                                             3
                                                                 3
왜 Big Data? – 분석의 정확성 향상




       고성능의
                     +

                         Small Data
                                           <                        +

                                                      단순한 알고리즘
     복잡한 알고리즘
                                                                          Big Data


-   The unreasonable effectiveness of data
    http://googleresearch.blogspot.com/2009/03/unreasonable-effectiveness-of-data.html
-   More data usually beats better algorithms
    http://anand.typepad.com/datawocky/2008/03/more-data-usual.html
-   Processing Natural Language without Natural Language Processing
    http://www.mendeley.com/research/processing-natural-language-without-natural-language-
    processing/




                                                                                             4
                                                                                                 4
왜 Big Data? – 새로운 Business




      < Scientific Data 분석 >          < Social Data 분석 >




   < 금융 >                 < 의료 >   < 국방 >            < 토목/ 건축 >

                                                                  5
                                                                      5
Big data 분석 흐름


        수집                 저장            분석         리포팅


                                       분석 알고리즘



   Log collector         대용량 분산        병렬 분산 처리
                                        Framework
                         파일 시스템

    Amazon S3
     Easy Storage
    Open API
                       RDBMS / NoSQL    결과 저장




        Easy Storage (with T-FS)                     ?


                           클라우드 기반 Big data 분석 엔진 서비스
                              (Hadoop MapReduce 기반)
                                                          6
                                                              6
MapReduce 기술

다수 서버 상에서의 분산 컴퓨팅을 통하여 Big data 처리를 지원하는 소프트웨어 프레임워크
(2004년도에 Google 발표)




 코드에 데이터를
    젂송

                    데이터                      분석 코드
                                 고성능 분석 서버




 데이터에 코드를
    젂송



            분석 코드


                                분산 저장 & 처리 서버
                                                     7
                                                         7
MapReduce 흐름
Map(key1, value1)  list(key2, value2)
Reduce(key2, list(value2))  list(value3)
                                                                         Map
                                                                                 사용자의 코딩
                                                                                 이 필요한 부분
                               Map                                      Reduce



                               Map                                        Reduce




                                                          Comparison
                                            Partition
                               Map                                        Reduce



                               Map



         ① 분석 대상 데이터 ② 분산 처리를 통한 ③ Key 값에               ④ Merge         ⑤ Key, value 쌍에서
            분산 저장    key, value 쌍 도출 따라 분류               & Sort        의미 있는 결과 도출/저장


               분석할 데이터를 저장한 서버에서 진행                     분석 결과를 도출할 서버에서 진행
                                                                                            8
                                                                                                8
MapReduce 예제 – word count
                         Snow: Hi, Cyber Bob. This is Snow White.
                         Cyber: Hi, Snow White. Nice to meet you!
                         Snow: Nice to meet you, too. Where are you from?
                         Cyber: I'm from England.
                                                   분산 저장


  Snow: Hi, Cyber Bob. This is Snow White.                Snow: Nice to meet you, too. Where are you from?
  Cyber: Hi, Snow White. Nice to meet you!                Cyber: I'm from England
                           Map                                                  Map

  (Snow, 1)    (Hi, 1)   (Cyber, 1)   (Bob, 1)                  (Snow, 1)   (Nice, 1) (to, 1)     (meet, 1)
  (This, 1)    (is, 1)   (Snow, 1)    (White, 1)                (you, 1)    (too, 1)   (Where, 1) (are, 1)
  (Cyber, 1)   (Hi, 1)   (Snow, 1)    (White,1)                 (you, 1)    (from, 1) (Cyber, 1) (I’m, 1)
  (Nice, 1)    (to, 1)   (meet, 1)    (you, 1)                  (from, 1)   (England, 1)

                                                Merge, Sort

                                      … (from, [1, 1]) … (meet, [1, 1])
                                      … (to, [1, 1]) … (you, [1, 1, 1]) …

                                                         Reduce
                                      … (from, 2) … (meet, 2]) … (to, 2)
                                      … (you, 3) …

                                                                                                              9
                                                                                                                  9
Cloud기반 Big data 분석 엔진 서비스




      ②분석 엔진 서비스 신청
                                 서비스 portal

                               ③분석 엔진 클라우드 구성

                      분석 엔진 서버 Farm
    ④분석 과정
    조회 및 제어
                                                   Amazon S3
                                 ④데이터 분석 및 결과 저장

                        Easy Storage
   ①데이터 및 분석 코드 업로드


   ⑤결과 조회




                                                          10
                                                               10
Cloud기반 Big data 분석 엔진 서비스 – 특징

Hadoop MapReduce 기반 서비스
-   Big Data 분석 엔진의 사실상의 표준 방식 준수를 통하여 기 작성된 MapReduce 코드의 활용이 가능
-   Hive, Pig, Mahout, HBase 등 Hadoop 과 연계된 풍부한 open source 저변 활용이 가능


클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감
-   분석용 서버 클러스터의 구축 및 소프트웨어 설치 부담 경감
-   가상화 기반의 자원 보호를 통하여 분석 작업 오류에 의한 데이터 손실 및 타 분석 작업 영향 최소화
-   분석 작업 단위로 필요한 만큼만 할당해서 사용한 만큼만 과금


T Cloudbiz 서비스와의 Synergy
-   클라우드 서버 사용자 및 Easy Storage 사용자 데이터에 대한 분석 시 네트워크 부담 최소화
    (클라우드 서버에서 발생한 데이터를 Easy Storage에 저장하고, Big data 분석 엔진 서비스로 분석)


Open API 제공
-   웹 서비스 포탈 접속 없이도 데이터 분석 서비스 이용이 가능
-   Amazon EMR과 호환성을 제공하여 기존 Amazon 사용자들이 환경 수정 없이 손쉽게 사용 가능
-   Amazon S3 API와의 연계를 통하여 다른 클라우드에 저장된 데이터에 대한 분석 기능 제공



                                                                      11
                                                                           11
Cloud기반 Big data 분석 엔진 서비스 – 특징

                클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감



        알고리즘1       알고리즘2        알고리즘 스케줄링 및 오류 대응


           분석 엔진 S/W             S/W 설치 및 유지 관리


                                 H/W sizing 및 구입/유지 보수
          분석용 서버 Farm
  VS.

        알고리즘1       알고리즘2
                                - 분석 작업 스케줄링 및 모니터링

                                - 가상화 기반 자원 보호
        Cloud 기반 Big Data
          분석 엔진 서비스             - 실시간 분석 엔진 클러스터 구성

                                - 탄력적인 서버 구성


                                                         12
                                                              12
Cloud기반 Big data 분석 엔진 서비스 – 특징

               T Cloudbiz 서비스와의 Synergy




                        저장
                                      - Big Data 분석의 full chain 제공
                                        (데이터 수집  저장  분석)
      생성/수집

                                      - T cloudbiz 내에서 데이터 젂송
                                        이 이루어지므로 추가적인 네트
                                        워크 비용이 발생하지 않음

                                      - 다른 Cloud 서비스들에서 생성
                   분석                   데이터 분석에도 쉽게 적용 가능
                                        > 대용량 파일 메일 서버
                                        > Enterprise Folder Solution
                                        > Cloud Call Center
                 분석 엔진 서비스




                                                                   13
                                                                        13
Cloud기반 Big data 분석 엔진 서비스 – 특징

                                 Open API 제공

 -   어플리케이션에 의한 자동화된 분석 처리 가능
 -   기존 Amazon 기반의 어플리케이션은 수정 없이 사용 - Amazon Java API 호홖
 -   외부 (Amazon S3 호홖) 클라우드 스토리지의 데이터도 구분 없이 분석 가능



                                  Cloud 기반 Big Data
                                    분석 엔진 서비스


                                     Easy Storage


        Service/
       Application




                      REST API


                                                      Amazon S3
                                                                  14
                                                                       14
향후 계획

서비스의 지속적인 개발과 발젂
                          Workflow 기능 추가
                          외부 연동 기능 강화
                           - ETL 라이브러리, Pig, Hive 연동
       사용자 편의성           Developer Tool 추가
                           - .NET이나 PHP등 SDK 개발
                           - MapReduce 기반 알고리즘 구현 협조
                           - 분석 엔진 서비스 사용 교육




                          Pregel과 유사한 Graph 기반 분석 엔진
                           도입
       기능적 차별화
                          고성능 CUDA H/W 연계 분석 엔진 서비
                           스 개발




       Hybrid 분석 엔진      Private Cloud와의 연계 분석



                                                        15
                                                             15
Missing pieces




      Cloud 기반 Big Data
                          분석 알고리즘
        분석 엔진 서비스

             +              +

         Easy Storage     대용량 데이터




            SKT              ?


                                    16
                                         16
무엇이든 물어보세요

    Q&A
 keuntae.park@sk.com


                       17
Thank you

            18

Cloud 기반 Big Data 분석 엔진 서비스

  • 1.
    Cloud 기반 BigData 분석 엔진 서비스 SK Telecom 차세대 IT Lab 박근태 (keuntae.park@sk.com)
  • 2.
    목차 1. BigData 기본개념 2. 분석 엔진 기본개념 3. 클라우드 기반 Big Data 분석 엔진 4. 향후 계획 1 1
  • 3.
    Big Data? Big data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time - wikipedia Volume - Volume: 다루는 데이터 량이 수십 Terabytes에서 Terabytes Peta, Exa, Zettabyte 스케일 ~ over Zettabytes - Velocity: 실시간으로 발생하는 데이터를 수집/처리, 그 분석 결과를 신속(필요한 경우 실시간)하게 추출 Batch / 정형 / 실시간 비정형 - Variety: 기존의 RDB로 처리하던 정형적인 데이터 (15%) 뿐 만 아니라 로그파일, SNS데이터, 이미지, 음 Velocity Variety 성 정보 등 비정형 데이터(85%)에 대한 처리 필요 Value 2 2
  • 4.
    왜 Big Data?– 개인화 서비스 Sampled data 젂반적인 경향 Focus group 주류의 흐름 소품종 대량생산 VS. 웹 이용 로그 통화 상품 구매 위치 정보 SNS 개인 및 친밀 그룹의 성향 개인 맞춤형 서비스 3 3
  • 5.
    왜 Big Data?– 분석의 정확성 향상 고성능의 + Small Data < + 단순한 알고리즘 복잡한 알고리즘 Big Data - The unreasonable effectiveness of data http://googleresearch.blogspot.com/2009/03/unreasonable-effectiveness-of-data.html - More data usually beats better algorithms http://anand.typepad.com/datawocky/2008/03/more-data-usual.html - Processing Natural Language without Natural Language Processing http://www.mendeley.com/research/processing-natural-language-without-natural-language- processing/ 4 4
  • 6.
    왜 Big Data?– 새로운 Business < Scientific Data 분석 > < Social Data 분석 > < 금융 > < 의료 > < 국방 > < 토목/ 건축 > 5 5
  • 7.
    Big data 분석흐름 수집 저장 분석 리포팅 분석 알고리즘 Log collector 대용량 분산 병렬 분산 처리 Framework 파일 시스템 Amazon S3 Easy Storage Open API RDBMS / NoSQL 결과 저장 Easy Storage (with T-FS) ? 클라우드 기반 Big data 분석 엔진 서비스 (Hadoop MapReduce 기반) 6 6
  • 8.
    MapReduce 기술 다수 서버상에서의 분산 컴퓨팅을 통하여 Big data 처리를 지원하는 소프트웨어 프레임워크 (2004년도에 Google 발표) 코드에 데이터를 젂송 데이터 분석 코드 고성능 분석 서버 데이터에 코드를 젂송 분석 코드 분산 저장 & 처리 서버 7 7
  • 9.
    MapReduce 흐름 Map(key1, value1) list(key2, value2) Reduce(key2, list(value2))  list(value3) Map 사용자의 코딩 이 필요한 부분 Map Reduce Map Reduce Comparison Partition Map Reduce Map ① 분석 대상 데이터 ② 분산 처리를 통한 ③ Key 값에 ④ Merge ⑤ Key, value 쌍에서 분산 저장 key, value 쌍 도출 따라 분류 & Sort 의미 있는 결과 도출/저장 분석할 데이터를 저장한 서버에서 진행 분석 결과를 도출할 서버에서 진행 8 8
  • 10.
    MapReduce 예제 –word count Snow: Hi, Cyber Bob. This is Snow White. Cyber: Hi, Snow White. Nice to meet you! Snow: Nice to meet you, too. Where are you from? Cyber: I'm from England. 분산 저장 Snow: Hi, Cyber Bob. This is Snow White. Snow: Nice to meet you, too. Where are you from? Cyber: Hi, Snow White. Nice to meet you! Cyber: I'm from England Map Map (Snow, 1) (Hi, 1) (Cyber, 1) (Bob, 1) (Snow, 1) (Nice, 1) (to, 1) (meet, 1) (This, 1) (is, 1) (Snow, 1) (White, 1) (you, 1) (too, 1) (Where, 1) (are, 1) (Cyber, 1) (Hi, 1) (Snow, 1) (White,1) (you, 1) (from, 1) (Cyber, 1) (I’m, 1) (Nice, 1) (to, 1) (meet, 1) (you, 1) (from, 1) (England, 1) Merge, Sort … (from, [1, 1]) … (meet, [1, 1]) … (to, [1, 1]) … (you, [1, 1, 1]) … Reduce … (from, 2) … (meet, 2]) … (to, 2) … (you, 3) … 9 9
  • 11.
    Cloud기반 Big data분석 엔진 서비스 ②분석 엔진 서비스 신청 서비스 portal ③분석 엔진 클라우드 구성 분석 엔진 서버 Farm ④분석 과정 조회 및 제어 Amazon S3 ④데이터 분석 및 결과 저장 Easy Storage ①데이터 및 분석 코드 업로드 ⑤결과 조회 10 10
  • 12.
    Cloud기반 Big data분석 엔진 서비스 – 특징 Hadoop MapReduce 기반 서비스 - Big Data 분석 엔진의 사실상의 표준 방식 준수를 통하여 기 작성된 MapReduce 코드의 활용이 가능 - Hive, Pig, Mahout, HBase 등 Hadoop 과 연계된 풍부한 open source 저변 활용이 가능 클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감 - 분석용 서버 클러스터의 구축 및 소프트웨어 설치 부담 경감 - 가상화 기반의 자원 보호를 통하여 분석 작업 오류에 의한 데이터 손실 및 타 분석 작업 영향 최소화 - 분석 작업 단위로 필요한 만큼만 할당해서 사용한 만큼만 과금 T Cloudbiz 서비스와의 Synergy - 클라우드 서버 사용자 및 Easy Storage 사용자 데이터에 대한 분석 시 네트워크 부담 최소화 (클라우드 서버에서 발생한 데이터를 Easy Storage에 저장하고, Big data 분석 엔진 서비스로 분석) Open API 제공 - 웹 서비스 포탈 접속 없이도 데이터 분석 서비스 이용이 가능 - Amazon EMR과 호환성을 제공하여 기존 Amazon 사용자들이 환경 수정 없이 손쉽게 사용 가능 - Amazon S3 API와의 연계를 통하여 다른 클라우드에 저장된 데이터에 대한 분석 기능 제공 11 11
  • 13.
    Cloud기반 Big data분석 엔진 서비스 – 특징 클라우드 기반의 안젂하고 간편한 이용 및 비용 젃감 알고리즘1 알고리즘2 알고리즘 스케줄링 및 오류 대응 분석 엔진 S/W S/W 설치 및 유지 관리 H/W sizing 및 구입/유지 보수 분석용 서버 Farm VS. 알고리즘1 알고리즘2 - 분석 작업 스케줄링 및 모니터링 - 가상화 기반 자원 보호 Cloud 기반 Big Data 분석 엔진 서비스 - 실시간 분석 엔진 클러스터 구성 - 탄력적인 서버 구성 12 12
  • 14.
    Cloud기반 Big data분석 엔진 서비스 – 특징 T Cloudbiz 서비스와의 Synergy 저장 - Big Data 분석의 full chain 제공 (데이터 수집  저장  분석) 생성/수집 - T cloudbiz 내에서 데이터 젂송 이 이루어지므로 추가적인 네트 워크 비용이 발생하지 않음 - 다른 Cloud 서비스들에서 생성 분석 데이터 분석에도 쉽게 적용 가능 > 대용량 파일 메일 서버 > Enterprise Folder Solution > Cloud Call Center 분석 엔진 서비스 13 13
  • 15.
    Cloud기반 Big data분석 엔진 서비스 – 특징 Open API 제공 - 어플리케이션에 의한 자동화된 분석 처리 가능 - 기존 Amazon 기반의 어플리케이션은 수정 없이 사용 - Amazon Java API 호홖 - 외부 (Amazon S3 호홖) 클라우드 스토리지의 데이터도 구분 없이 분석 가능 Cloud 기반 Big Data 분석 엔진 서비스 Easy Storage Service/ Application REST API Amazon S3 14 14
  • 16.
    향후 계획 서비스의 지속적인개발과 발젂  Workflow 기능 추가  외부 연동 기능 강화 - ETL 라이브러리, Pig, Hive 연동  사용자 편의성  Developer Tool 추가 - .NET이나 PHP등 SDK 개발 - MapReduce 기반 알고리즘 구현 협조 - 분석 엔진 서비스 사용 교육  Pregel과 유사한 Graph 기반 분석 엔진 도입  기능적 차별화  고성능 CUDA H/W 연계 분석 엔진 서비 스 개발  Hybrid 분석 엔진  Private Cloud와의 연계 분석 15 15
  • 17.
    Missing pieces Cloud 기반 Big Data 분석 알고리즘 분석 엔진 서비스 + + Easy Storage 대용량 데이터 SKT ? 16 16
  • 18.
    무엇이든 물어보세요 Q&A keuntae.park@sk.com 17
  • 19.