ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
Upcoming SlideShare
Loading in...5
×
 

ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

on

  • 2,297 views

ソリューションセッション#3 ...

ソリューションセッション#3
ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

登壇者名・社名 大谷 晋平(アマゾン データ サービス ジャパン 株式会社)

Statistics

Views

Total Views
2,297
Views on SlideShare
2,297
Embed Views
0

Actions

Likes
2
Downloads
47
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 Presentation Transcript

  • ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 アマゾンデータサービスジャパン ソリューションアーキテクト 大谷 晋平 (ohtani@amazon.co.jp)
  • WIFIおよびハッシュタグ WiFi access # hashtagNetwork:awssummit #AWSTokyoPassword:awstokyo
  • 自己紹介大谷 晋平(おおたに しんぺい)アマゾンデータサービスジャパン• お客様がAWSクラウドを最適に使えるように、 お手伝いをするお仕事をしています• ソリューションアーキテクトソーシャルネットワーク(連絡先)• Twitter: @shot6• Facebook: facebook.com/shot6• Mail: ohtani@amazon.co.jp
  • 自己紹介(続き)経歴• 金融エンジニア• →ITアーキテクト• →ソリューションアーキテクト(←イマココ)執筆
  • アジェンダAWSのおさらいビッグデータとは何か?事例に学ぶビッグデータ活用ビッグデータアーキテクチャまとめ
  • AWSのおさらい
  • ビッグデータとは 何か?
  • amazon.co.jp, today
  • amazon.co.jp, today
  • ビッグデータ?
  • ビッグデータ=データ量??
  • ビッグデータ =3つのV
  • 1つ目のV Volume(データ量)
  • そもそもデータ量はなぜ増えるか?• デバイス数の増加・高機能化• パーソナライゼーション • 各ユーザ毎の動向・リコメンデーション• ビジネスメトリクスの確保• 低価格Webストレージの出現 • 桁違いの量の補完が実現可能に
  • ビッグデータの成長速度 そもそもコンシューマが 扱うデバイスの大容量化 2012年で2.7ゼタバイト のデータ(PBの上) そのほとんどが構造化さ れていないデータ
  • ビッグデータを支えるAmazon S3 リージョン S3 データを 1 サーバ 自動複製 S3 S3データは3つ以上のデータセンターに自動複製設計上のデータ耐久性は 99.999999999%容量は無制限で従量課金。初期費用ゼロ。 約11円/GBスタートWebサイトホスティングも可能に
  • Amazon S3のコンセプト堅牢 常時利用可能 スケーラブル 安全・安心 高速 シンプル 従量課金・低価格 EASY!
  • 2つ目のV Velocity(データ到達速度)
  • ・エンドユーザはデバイスの多様化、 高機能化によって、あらゆるシーンに おいてITを利用・マシンが直接生成するデータも増加 =データの生成速度があがった =データがビジネスのライフライン
  • Velocity:AmazonのWebサーバ移行 あらゆるデバイスからの膨大なリクエスト EC2+オートスケールで自在にスケール Amazon.com AWS アベイラビリティゾーンA Load Balancer EC2 www 1 … EC2 www n 他サービス ・・・ アベイラビリティゾーンN VPC EC2 www 1 … EC2 www n DB
  • 3つ目のVVariety(データの種類)
  • Varietyへの対応DynamoDB リレーショナルDB:テーブル: 顧客マスターデータ発注データ リレーショナルDB: ターゲット情報の抽出
  • Varietyへの対応(2) DynamoDB テーブル: リレーショナルDB: 発注データ 顧客マスターデータ S3上の サードパーティ製品でクリックログデータ 抽出したソーシャルメディア のデータ リレーショナルDB: ターゲット情報の抽出
  • Varietyへの対応(3) S3に週次レポートを抽出 s3://weekly-trend-data/ CSV形式 S3に月次レポートを抽出 s3://weekly-trend-data/ CSV形式
  • 事実:AWSではビッグデータに対応する様々なインフラストラクチャサービスを展開しています Dynamo DB S3 EMRのクラスタ RDS EC2上のデータ ウェアハウス インフラやアプリケー ション監視 サードパーティの データセット
  • BIG DATA4つのプロセス 1.収集 2.保存 3.分析 4.共有
  • AWSを使うとシンプルに実現可能 Glacier S3 分析クラスタ EC2 Dynamo RDS DB Amazon EMR EC2+BIデータ収集 データ保存 データ解析 結果の共有 ビジュアライズ 1 2 3 4
  • データサイズ・構造との AWSサービス対応 データ構造 構造化 非構造化 大きい S3 Glacier EMRデータ Dynamo DBサイズ データサイズ、構造によらず、 AWSクラウドでは幅広くカバーできる RDS 小さい
  • 事例に学ぶビッグデータ活用
  • リクルート様
  • リクルート様の課題Suumoでのビジネスニーズの追及• ユーザの行動分析をすぐにやりたい • 利用者800万ユニークユーザ• ユーザへのレコメンドもすぐにやりたいスピード最優先で進めたい
  • ソリューション:EMR+S3で分析基盤を構築 オンプレミス AWSクラウド ※一部クラウド 基礎データ ログ転送 <分析環境> モジュール レコメンド モジュール アプリケーション <施策環境> モジュール
  • リクルート様での効果物件情報のリコメンド• 「この物件見た方はこちらも見ています」• RDBMSで構築した場合、1日以上→EMRで30分Webサイトでのユーザ行動分析• 統計専門家がすぐ開始。リードタイムの劇的短縮ターゲッティングメルマガコンバージョン数集計、月次集計おすすめメンバのリコメンド
  • Sonet様
  • Sonet様の課題広告分析基盤の構築• データ量は増え続ける• 初期費用がかかりすぎるデータ量が増えても、スケールさせたい人材は自社メンバだけでやりたい
  • ソリューション:S3+EMR+SQSとSFDCの連携 AWS+SalesForceのクラウド連携 SFDCは表示部分のみ AWSはビッグデータ処理部分全て
  • Sonet様での効果広告配信ログの分析• 1日平均10GB、年間3.65TB以上• 1年分5TBをS3アップロードしてEMRで解析コスト効果• オンプレミス試算:初期費用で数千万円単位• AWSの価格:毎月50万円(年間600万円) • 価格差は20分の1• EC2スポットインスタンスで、アドホック分析 • 更にコストを50%削減
  • アンデルセンサービス様
  • アンデルセンサービス様の課題原材料からの原価計算バッチが4時間かかっている• BOM展開、原価積み上げ、組み合わせ爆発原価計算をもっと頻度高く行いたい• 想定データではなく、実際の数字で• 何回も実施し、原価への影響をみたい
  • ソリューション:VPC上での原価計算バッチ処理原価計算バッチ環境(EC2) EMRに移行し、より簡単に利用しやすく Hadoop Hadoop Master 監視 Slave EMR VPN経由で データ送信Hadoopでバッチ処理して、終了後クラスタは停止する バッチサーバ 基幹DB VPN ユーザ
  • アンデルセンサービス様での効果夜間バッチからの解放→業務変革• データ量は多くないが、組み合わせが膨大時間的制約からの解放より新しいチャレンジへ運用コストの大幅削減既存データベースの負荷軽減
  • アンデルセンサービス様での効果 実行時間が大幅短縮→何度も試行可能に • 4時間→20分 Clusterの起動 データの転送 原価計算 データの受信 Clusterの停止バッチ処理時間 2 2 12 3 2 0 5 10 15 20 25
  • Netflix様
  • 2500万人以上のストリーミング会員
  • 500億以上のイベント
  • Netflix様の課題複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築大量に発生するイベントデータの処理複数の分析方法でどれが良いかをもっと安価に試したい
  • Netflix様の課題複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築大量に発生するイベントデータの処理複数の分析方法でどれが良いかをもっと安価に試したい
  • Netflix様でのデータ収集 Netflix Web Services (Honu) S31日に8TBのイベントデータを収集
  • S3 レガシーデータ Data Center DWH RDBMSオンプレミスデータセンターからのレガシーデータもS3 へアップロード Netflix Data Center
  • DWH RDBMSNoSQLデータベース上の顧客データもS3へエクス ポート
  • 事実:Netflixでは1PB以上のデータを Amazon S3に保存しています S3
  • Netflix様の課題複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築大量に発生するイベントデータの処理複数の分析方法でどれが良いかをもっと安価に試したい
  • Netflix様でのデータ解析 Prod Cluster EMRクラスタ S3 (EMR) EMR HDFS EMRを活用して、 データはすべてS3から提供
  • Netflix様でのデータ解析 Prod Cluster EMRクラスタ S3 (EMR) EMR HDFS 結果はS3へ書き戻す
  • Netflix様でのデータ解析 アドホック 分析 リコメンデーション パーソナライゼーション S3 EMRクラスタ Prod Cluster (EMR) EMR EMRで生成したデータは 様々な用途で利用
  • EMRクラスタのリサイズNetflixでは土日の夜がピーク• EMRはクラスタのサイズが変更可能• ジョブの再起動なしに、ピークに合わせて300から 400ノード以上に変更 Job Flow Job Flow Job Flow 平日 平日夜 土日夜
  • Netflix様の課題複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築大量に発生するイベントデータの処理複数の分析方法でどれが良いかをもっと安価に試したい
  • Netflix本番クラスタ構成 Prod Cluster 本番クラスタ (EMR) S3 EMR アドホック Query Cluster 分析用 (EMR) EMR
  • 各分析毎にクラスタを構築できる Prod Cluster 本番クラスタ (EMR ) S3 EMR 各分析毎にクラスタ Query Cluster (を柔軟に構築 EMR ) EMR EMR EMR EMR
  • Yelp様の事例
  • スペルミスの 検索ワードの リコメン 自動修正 自動補完 デーション
  • どこでAWSクラウドが動いているか? 必要なデータスペルミスの自動修正 月間のユーザ毎の履歴 一般的な間違いの データ Westen Wistin Westan Whestin
  • YelpのWebサイトログは全てS3で保管 Amazon S3 月間のユーザ検索データ 検索用語 ミススペルデータ クリックデータ
  • Elastic MapReduceで200ノードの Hadoopクラスターを起動 Hadoop Cluster Amazon S3 Amazon EMR
  • 200ノードのクラスタ同時に一般的なスペルミスを検索する Hadoop Cluster Amazon S3 Westen Wistin Amazon EMR Westan 検索・解析は数時間 で処理される
  • 検索した一般的なスペルミスは再度S3上でデータ保存し、アプリケーションから利用する Hadoop Cluster Amazon S3 Westen Wistin Amazon EMR Westan 検索・解析は数時間 で処理される
  • EMRクラスターは処理完了後シャットダウン Yelpは利用した分のみの支払い Hadoop Cluster Amazon S3 Amazon EMR
  • での効果Yelpのエンジニアで、ビッグデータ処理は日常になった• いつでも、好きな時に、制限なく利用可能1日400GBのログはS3に保存• 月間5000万PV、1800万レビューデータ• データを捨てる必要もない毎週平均250台のクラスターを利用
  • ビッグデータアーキテクチャ
  • 標準的なアーキテクチャ データの データの 保存 共有 SQSや ログを蓄積 分析結果 他ミドルウェア Amazon S3 データの収集 データの Web/APサーバ 分析ELB ワーカー Hadoopクラスタ Amazon EC2 EMR
  • BIツールとの連携アーキテクチャ アナリスト EMR S3Karmasphere AnalystBIツールでGUIで利用 VPN経由 外部の広告データなどを エクスポート Oracle RDS エンジニア SQLでそのまま利用
  • データ中心アーキテクチャデータを中心にコンピュート処理は S3 データ可視化データ集約・変換柔軟に状況に応じて、処理の仕方・ レポーティング 量を変動させる =クラウドがベストフィット ビッグデータ処理部分は ・いつでも実施可能 パーソナライゼーション ・いつでもリサイズ可能 高速バッチ処理 リコメンデーション ・いつでも複製可能 ・揮発・長期どちらも可能
  • まとめ
  • ビジネス編まとめAWSクラウドxビッグデータ=革新• 3つのV(Volume, Velocity, Variety)• 4つのプロセス(収集、保存、分析、共有)• AWSクラウドがベストフィット • 従量課金・低コスト・スケールビッグデータ処理自体も普及期へ• バズワードからの脱却
  • 技術編まとめ3つのV(Volume, Velocity, Variety)• Volume:S3のスケーラビリティ• Velocity:EC2+AutoScaling• Variety:S3、RDS、DynamoDB4つのプロセス(収集、保存、分析、共有)• AWSでは4プロセスを全方位カバー• S3、EC2、EMR、RDS等、柔軟に選択可能ビッグデータ処理のアーキテクチャが、確立しつつある
  • 次のアクションは?AWSの始め方• http://aws.amazon.com/jp/aws-first-step/AWSクラウドサービス活用• http://aws.amazon.com/jp/aws-jp-introduction/お問い合わせ• http://aws.amazon.com/jp/contact-us/aws-sales/• ohtani@amazon.co.jp まで
  • ビッグデータビジネスでぜひAWSクラウドをご活用ください! Meet the SAコーナーでお待ちしています質問・疑問等ありましたらお気軽にどうぞ!
  • ご静聴ありがとうございました!