ビッグデータの3つのVと4つの
プロセスを支えるAWS活用法

  アマゾンデータサービスジャパン
  ソリューションアーキテクト
  大谷 晋平
  (ohtani@amazon.co.jp)
WIFIおよびハッシュタグ




  WiFi access
                     #
                    hashtag
Network:awssummit   #AWSTokyo
Password:awstokyo
自己紹介
大谷 晋平(おおたに しんぺい)
アマゾンデータサービスジャパン
• お客様がAWSクラウドを最適に使えるように、
  お手伝いをするお仕事をしています
• ソリューションアーキテクト
ソーシャルネットワーク(連絡先)
• Twitter: @shot6
• Facebook: facebook.com/shot6
• Mail: ohtani@amazon.co.jp
自己紹介(続き)
経歴
• 金融エンジニア
• →ITアーキテクト
• →ソリューションアーキテクト(←イマココ)
執筆
アジェンダ
AWSのおさらい
ビッグデータとは何か?
事例に学ぶビッグデータ活用
ビッグデータアーキテクチャ
まとめ
AWSのおさらい
ビッグデータとは
   何か?
amazon.co.jp, today
amazon.co.jp, today
ビッグデータ?
ビッグデータ
=データ量??
ビッグデータ
 =3つのV
1つ目のV
 Volume
(データ量)
そもそもデータ量はなぜ増えるか?
• デバイス数の増加・高機能化
• パーソナライゼーション
 • 各ユーザ毎の動向・リコメンデーション
• ビジネスメトリクスの確保
• 低価格Webストレージの出現
 • 桁違いの量の補完が実現可能に
ビッグデータの成長速度

    そもそもコンシューマが
    扱うデバイスの大容量化
    2012年で2.7ゼタバイト
    のデータ(PBの上)
    そのほとんどが構造化さ
    れていないデータ
ビッグデータを支えるAmazon S3
  リージョン

           S3

          データを   1    サーバ
          自動複製
    S3           S3




データは3つ以上のデータセンターに自動複製
設計上のデータ耐久性は 99.999999999%
容量は無制限で従量課金。初期費用ゼロ。
 約11円/GBスタート
Webサイトホスティングも可能に
Amazon S3のコンセプト
堅牢    常時利用可能 スケーラブル 安全・安心




 高速       シンプル     従量課金・低価格

           EASY!
2つ目のV
 Velocity
(データ到達速度)
・エンドユーザはデバイスの多様化、
 高機能化によって、あらゆるシーンに
 おいてITを利用

・マシンが直接生成するデータも増加
 =データの生成速度があがった
 =データがビジネスのライフライン
Velocity:AmazonのWebサーバ移行
 あらゆるデバイスからの膨大なリクエスト
 EC2+オートスケールで自在にスケール
     Amazon.com AWS
                       アベイラビリティゾーンA
       Load
      Balancer           EC2
                        www 1
                                …    EC2
                                    www n


      他サービス                 ・・・
                       アベイラビリティゾーンN
                 VPC
                         EC2
                        www 1
                                …    EC2
                                    www n
       DB
3つ目のV
Variety
(データの種類)
Varietyへの対応
DynamoDB      リレーショナルDB:
テーブル:         顧客マスターデータ
発注データ




           リレーショナルDB:
           ターゲット情報の抽出
Varietyへの対応(2)
   DynamoDB テーブル:      リレーショナルDB:
   発注データ               顧客マスターデータ



      S3上の              サードパーティ製品で
クリックログデータ               抽出したソーシャルメディア
                        のデータ




                    リレーショナルDB:
                    ターゲット情報の抽出
Varietyへの対応(3)

         S3に週次レポートを抽出
         s3://weekly-trend-data/
         CSV形式



         S3に月次レポートを抽出
         s3://weekly-trend-data/
         CSV形式
事実:AWSではビッグデータに対応する様々な
インフラストラクチャサービスを展開しています


         Dynamo DB
                      S3


                               EMRのクラスタ
   RDS




   EC2上のデータ
    ウェアハウス
                           インフラやアプリケー
                             ション監視
               サードパーティの
                データセット
BIG DATA
4つのプロセス
   1.収集
   2.保存
   3.分析
   4.共有
AWSを使うとシンプルに実現可能


        Glacier   S3    分析クラスタ



 EC2    Dynamo    RDS
          DB            Amazon EMR   EC2+BI


データ収集   データ保存           データ解析         結果の共有
                                     ビジュアライズ
 1            2            3             4
データサイズ・構造との
  AWSサービス対応
            データ構造
      構造化                          非構造化

  大きい
                              S3   Glacier
                        EMR

データ         Dynamo DB
サイズ データサイズ、構造によらず、
  AWSクラウドでは幅広くカバーできる
      RDS

  小さい
事例に学ぶ
ビッグデータ活用
リクルート様
リクルート様の課題
Suumoでのビジネスニーズの追及
• ユーザの行動分析をすぐにやりたい
 • 利用者800万ユニークユーザ
• ユーザへのレコメンドもすぐにやりたい
スピード最優先で進めたい
ソリューション:EMR+S3で分析基盤を構築

    オンプレミス            AWSクラウド
    ※一部クラウド



                       基礎データ
              ログ転送     <分析環境>


              モジュール

                        レコメンド
              モジュール   アプリケーション
                       <施策環境>
              モジュール
リクルート様での効果
物件情報のリコメンド
• 「この物件見た方はこちらも見ています」
• RDBMSで構築した場合、1日以上→EMRで30分
Webサイトでのユーザ行動分析
• 統計専門家がすぐ開始。リードタイムの劇的短縮
ターゲッティングメルマガ
コンバージョン数集計、月次集計
おすすめメンバのリコメンド
Sonet様
Sonet様の課題
広告分析基盤の構築
• データ量は増え続ける
• 初期費用がかかりすぎる
データ量が増えても、スケールさせたい
人材は自社メンバだけでやりたい
ソリューション:
S3+EMR+SQSとSFDCの連携




    AWS+SalesForceのクラウド連携
        SFDCは表示部分のみ
    AWSはビッグデータ処理部分全て
Sonet様での効果
広告配信ログの分析
• 1日平均10GB、年間3.65TB以上
• 1年分5TBをS3アップロードしてEMRで解析
コスト効果
• オンプレミス試算:初期費用で数千万円単位
• AWSの価格:毎月50万円(年間600万円)
 • 価格差は20分の1
• EC2スポットインスタンスで、アドホック分析
 • 更にコストを50%削減
アンデルセンサービス様
アンデルセンサービス様の課題
原材料からの原価計算バッチが4時間
かかっている
• BOM展開、原価積み上げ、組み合わせ爆発
原価計算をもっと頻度高く行いたい
• 想定データではなく、実際の数字で
• 何回も実施し、原価への影響をみたい
ソリューション:
VPC上での原価計算バッチ処理

原価計算バッチ環境(EC2)
  EMRに移行し、
より簡単に利用しやすく
         Hadoop
  Hadoop         Master                監視
   Slave
           EMR            VPN経由で
                          データ送信
Hadoopでバッチ処理して、
終了後クラスタは停止する                         バッチサーバ 基幹DB

                               VPN




                                        ユーザ
アンデルセンサービス様での効果
夜間バッチからの解放→業務変革
• データ量は多くないが、組み合わせが膨大
時間的制約からの解放
より新しいチャレンジへ
運用コストの大幅削減
既存データベースの負荷軽減
アンデルセンサービス様での効果
   実行時間が大幅短縮→何度も試行可能に
    • 4時間→20分
          Clusterの起動       データの転送            原価計算
          データの受信           Clusterの停止



バッチ処理時間       2   2           12             3      2




          0            5      10        15          20   25
Netflix様
2500万人以上のストリーミング会員
500億以上のイベント
Netflix様の課題
複数の箇所で発生するフォーマットの
データを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと
安価に試したい
Netflix様の課題
複数の箇所で発生するフォーマットの
データを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと
安価に試したい
Netflix様でのデータ収集

    Netflix Web Services
           (Honu)          S3




1日に8TBのイベントデータを収集
S3




           レガシーデータ

                Data Center



                              DWH
                                         RDBMS
オンプレミスデータセンター
からのレガシーデータもS3
   へアップロード
                               Netflix Data Center
DWH
                      RDBMS
NoSQLデータベース上の
顧客データもS3へエクス
      ポート
事実:Netflixでは1PB以上のデータを
  Amazon S3に保存しています


         S3
Netflix様の課題
複数の箇所で発生するフォーマットの
データを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと
安価に試したい
Netflix様でのデータ解析

           Prod Cluster
           EMRクラスタ
   S3        (EMR)


            EMR      HDFS




    EMRを活用して、
  データはすべてS3から提供
Netflix様でのデータ解析

           Prod Cluster
           EMRクラスタ
   S3        (EMR)


            EMR      HDFS




    結果はS3へ書き戻す
Netflix様でのデータ解析

             アドホック
              分析
 リコメンデーション
                     パーソナライゼーション


        S3            EMRクラスタ
                       Prod Cluster
                         (EMR)


                         EMR




    EMRで生成したデータは
      様々な用途で利用
EMRクラスタのリサイズ
Netflixでは土日の夜がピーク
• EMRはクラスタのサイズが変更可能
• ジョブの再起動なしに、ピークに合わせて300から
  400ノード以上に変更
                        Job Flow
             Job Flow
  Job Flow




    平日
               平日夜

                         土日夜
Netflix様の課題
複数の箇所で発生するフォーマットの
データを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと
安価に試したい
Netflix本番クラスタ構成
         Prod Cluster
        本番クラスタ
            (EMR)

   S3
            EMR



         アドホック
         Query Cluster
           分析用
            (EMR)


            EMR
各分析毎にクラスタを構築できる
          Prod Cluster
         本番クラスタ
            (EMR )

    S3
            EMR



          各分析毎にクラスタ
          Query Cluster
            (を柔軟に構築
             EMR )


            EMR
             EMR
                   EMR

                         EMR
Yelp様の事例
スペルミスの   検索ワードの    リコメン
 自動修正     自動補完    デーション
どこでAWSクラウドが動いているか?


                 必要なデータ
スペルミスの自動修正   月間のユーザ毎の履歴   一般的な間違いの
                             データ
                           Westen
                            Wistin
                           Westan
                            Whestin
YelpのWebサイトログは全てS3で保管




    Amazon S3   月間のユーザ検索データ
                検索用語
                ミススペルデータ
                クリックデータ
Elastic MapReduceで200ノードの
    Hadoopクラスターを起動


                 Hadoop Cluster

     Amazon S3

                                  Amazon EMR
200ノードのクラスタ同時に
一般的なスペルミスを検索する


              Hadoop Cluster

  Amazon S3

     Westen
     Wistin
                               Amazon EMR
     Westan



              検索・解析は数時間
              で処理される
検索した一般的なスペルミスは再度S3上で
データ保存し、アプリケーションから利用する



                 Hadoop Cluster

     Amazon S3

        Westen
        Wistin
                                  Amazon EMR
        Westan



                 検索・解析は数時間
                 で処理される
EMRクラスターは処理完了後シャットダウン
    Yelpは利用した分のみの支払い



                 Hadoop Cluster

     Amazon S3

                                  Amazon EMR
での効果

Yelpのエンジニアで、ビッグデータ処理
は日常になった
• いつでも、好きな時に、制限なく利用可能
1日400GBのログはS3に保存
• 月間5000万PV、1800万レビューデータ
• データを捨てる必要もない
毎週平均250台のクラスターを利用
ビッグデータ
アーキテクチャ
標準的なアーキテクチャ
                        データの           データの
                         保存             共有
           SQSや            ログを蓄積       分析結果
         他ミドルウェア
                               Amazon S3

      データの収集

                            データの
      Web/APサーバ
                              分析
ELB                 ワーカー     Hadoopクラスタ

           Amazon EC2            EMR
BIツールとの連携アーキテクチャ
          アナリスト

                                      EMR



                                                   S3


Karmasphere Analyst
BIツールでGUIで利用          VPN経由


                                                外部の広告データなどを
                                                  エクスポート
                                   Oracle RDS




                      エンジニア
                      SQLでそのまま利用
データ中心アーキテクチャ


データを中心にコンピュート処理は
            S3    データ可視化
データ集約・変換
柔軟に状況に応じて、処理の仕方・ レポーティング


         量を変動させる
  =クラウドがベストフィット
           ビッグデータ処理部分は
           ・いつでも実施可能
                          パーソナライゼーション
           ・いつでもリサイズ可能
 高速バッチ処理                  リコメンデーション
           ・いつでも複製可能
           ・揮発・長期どちらも可能
まとめ
ビジネス編まとめ
AWSクラウドxビッグデータ=革新
• 3つのV(Volume, Velocity, Variety)
• 4つのプロセス(収集、保存、分析、共有)
• AWSクラウドがベストフィット
 • 従量課金・低コスト・スケール
ビッグデータ処理自体も普及期へ
• バズワードからの脱却
技術編まとめ
3つのV(Volume, Velocity, Variety)
• Volume:S3のスケーラビリティ
• Velocity:EC2+AutoScaling
• Variety:S3、RDS、DynamoDB
4つのプロセス(収集、保存、分析、共有)
• AWSでは4プロセスを全方位カバー
• S3、EC2、EMR、RDS等、柔軟に選択可能
ビッグデータ処理のアーキテクチャが、
確立しつつある
次のアクションは?
AWSの始め方
• http://aws.amazon.com/jp/aws-first-step/
AWSクラウドサービス活用
• http://aws.amazon.com/jp/aws-jp-introduction/
お問い合わせ
• http://aws.amazon.com/jp/contact-us/aws-sales/
• ohtani@amazon.co.jp まで
ビッグデータビジネスで
ぜひAWSクラウドをご
活用ください!
 Meet the SAコーナーでお待ちしています
質問・疑問等ありましたらお気軽にどうぞ!
ご静聴ありがとう
ございました!

ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法