Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

2,086 views

Published on

本年のWebDBフォーラム2015 http://db-event.jpn.org/webdbf2015/ 
技術報告セッションにおけるYahoo! JAPAN発表資料を公開します。

Published in: Technology
  • Be the first to comment

データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

  1. 1. データサイエンスを支える基盤と そのテクノロジー ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発1部 部長 小林 直哉
  2. 2. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  3. 3. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  4. 4. データ で
  5. 5. 79% Yahoo! JAPAN利用率79% ニールセン2014年 日本のインターネットサービス利用者数ランキングを発表~ Nielsen NetView 家庭および職場のPCからの利用 インターネット利用者総数5200万人のうち、 79%の皆様がヤフーを利用
  6. 6. 2億7000万以上 アプリ累計ダウンロード数 “Yahoo! JAPAN”、“天気”、“防災速報”,”乗換案内”、 “カーナビ”など、ランキング1位獲得アプリも多数
  7. 7. 事業領域 マーケティング ソリューション事業 3,042億円 69.4% コンシューマ事業 1,020億円 23.2% % その他 323億円 7.4% 2014年度通期および第4四半期決算より
  8. 8. 18期連続増収増益 18 15 16 17 サービス開始以来、18期連続で増収増益を達成 2014年度の売上高は4284億円、営業利益は1972億円 2014年度通期および第4四半期決算より
  9. 9. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  10. 10. ヤフーのビッグデータ?
  11. 11. サービス数 メディア、コマース、エンターテインメント、コミュニケー ション、金融・決済など、幅広い分野でサービスを展開 100以上
  12. 12. 100以上のデータバラエティ 検索キーワード、ビュー/クリック、コンテンツ、購買情報、 ツイートなど、多様なデータを活用可能 100以上
  13. 13. 膨大なデータボリューム 月間649億ページビュー 1日8,300万ユニークブラウザ 649億PV
  14. 14. 約50,000アクセス in 1sec
  15. 15. Variety Volume Velocity
  16. 16. ヤフーはビッグデータカンパニー Variety Volume Velocity
  17. 17. Yahoo! JAPANはインターネット複合企業 Media JP US Search C2C EC B2C EC ニュース 検索 Answer 知恵袋
  18. 18. Media JP US Search C2C EC B2C EC ニュース 検索 Answer 知恵袋 日本市場No.1のサービスを保有している
  19. 19. Media JP US Search C2C EC B2C EC ニュース 検索 Answer 知恵袋 Yahoo! JAPAN IDで連結されている 100以上のサービス・ビジネスデータと連結
  20. 20. ヤフーは多数のビッグデータを抱えた マルチビッグデータカンパニー
  21. 21. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  22. 22. あなたへのおすすめ
  23. 23. 検索キーワード入力補助 言葉の一部を入力すると、 残りのワードをサジェストする
  24. 24. おすすめ商品をレコメンド
  25. 25. 検索結果の最適化
  26. 26. 広告表示の最適化
  27. 27. 自動画像クロッピング 画像処理で人物の顔を 自動的にクロッピングする 適用前 適用後
  28. 28. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  29. 29. データ分析基盤とそのテクノロジー ① データパイプライン環境 ② データ処理環境
  30. 30. 基盤:データパイプライン環境 多種多様な大量のデータを収集できる 収集データサイズ 約125TB/日 独自パイプライン システム
  31. 31. 基盤:データ処理環境 多種多様な大量のデータを格納し処理できる 6,000台の処理環境 (最大クラスタは3,000台) 独自パイプライン システム
  32. 32. 基盤:データ分析基盤の活用 多種多様な大量のデータを活用できる 広告配信 ターゲティング アドホック 予測モデル 独自パイプライン システム
  33. 33.  多種多様な大量のデータを収集できる データパイプライン環境がある  多種多様な大量のデータを格納し処理できる データ分析環境がある データ分析基盤とそのテクノロジー
  34. 34. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  35. 35. 広告最適化における分析基盤利用の実例 ① デモグラフィック推定 ② クリック予測モデル作成
  36. 36. 広告最適化における分析基盤利用の実例 ① デモグラフィック推定 ② クリック予測モデル作成
  37. 37. 広告最適化:デモグラフィック推定概要 デモグラフィック推定で対象を増やす 男性には男性向けの広告 女性には女性向けの広告 ログインのみ ログイン+推定
  38. 38. 広告最適化:デモグラフィック推定概要 行動履歴から性別を推定する 乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ)
  39. 39. 広告最適化:デモグラフィック推定概要 推定結果から広告を配信する 乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) 女性向け広告を配信 推定
  40. 40. 広告最適化:デモグラフィック推定概要 収集データを分析基盤で学習し推定する 検索ログ アクセスログ (URL・ドメイン) 等 広告配信サーバ 機械学習 推定結果
  41. 41. 広告最適化における分析基盤利用の実例 ① デモグラフィック推定 ② クリック予測モデル作成
  42. 42. 広告最適化:クリック予測概要 データを収集する 乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ) 女性向けカメラの広告 女性向けゲームの広告 女性向け旅行の広告 広告 入稿
  43. 43. 広告最適化:クリック予測概要 クリック予測結果から最適な広告を配信する 乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ) クリック 予測 女性向け カメラの広告を配信 女性向けカメラの広告 女性向けゲームの広告 女性向け旅行の広告 広告 入稿
  44. 44. 広告最適化:クリック予測概要 分析基盤で学習したクリック予測結果に基づき配信する 広告配信ログ 広告クリックログ 配信広告タイトル 広告配信ページクロールデータ 広告配信サーバ データ結合&整形 クリックした (100%) クリックされない (サンプリング) 機械学習 数百GBのメモリを積んだ モンスターマシンで学習 モデル 乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)
  45. 45. アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤
  46. 46.  大量のデータを扱える スマホアプリ・位置情報・IoT・オフラインデータ  高速に処理できる 長期間・組み合わせ・DeepLearning(画像・音声解析)  高効率である サーバ・ネットワーク・場所・電力・運用  新しい取り組みをすぐに試せる 新しいデータ・新しいOSS・新しいアルゴリズム 進化:データ分析環境で大事なこと
  47. 47. 進化:課題は進化のスピード  データと処理量は指数関数的に増加 CPU・メモリ・HDD・ネットワークの進化では間に合わない  新しいデータ分析技術の開発が活発化 独自技術の開発では間に合わない 進化を加速させる必要がある
  48. 48. 進化:基盤の進化を加速させる クローズドからオープンへ 試行錯誤を高速に繰り返す
  49. 49. と 技術提携 進化:基盤の進化を加速させる OSS共同研究開発への投資
  50. 50.  多種多様なデータを収集する技術(構築) クローズドな独自パイプラインからオープンなKafkaへ • OSS開発サイクルによる早い機能追加 • オープンなインタフェースによる高い接続性と拡張性 進化:大量のデータを扱える技術の開発 HDFS Erasure Code Storage データ保存効率を向上させる技術(開発) 誤り訂正符号による高い冗長性と保存効率の向上 • 信頼性が向上(2-冗長 → 3-冗長) • 保存効率が向上(元データの3倍 → 1.5倍)
  51. 51. LLAP - long-lived execution in Hive  多様なデータを高速に処理する技術(検証) GPUクラスタによりさらに高速にデータを処理 シングルGPU(既利用)からマルチGPU・マルチGPUサーバへ • 画像・音声データ等の高コストデータの処理 • 機械学習 • Deep Learning  データ処理効率を向上させる技術(開発) HiveクエリをFragmentに分けて常駐プロセスで処理 • 起動時間の短縮 • データのキャッシュ • 最適化効果の向上 進化:高速に処理できる技術の開発
  52. 52. 進化:高効率な技術の導入  効率を追求したハードウェア技術(導入) オープンなハードウェアによる高効率な処理環境 OCP(Open Compute Project) • サーバ費用の削減 • 消費電力の削減 • 設置スペースの削減 • 現地作業時間の削減 • データ移行コストの削減
  53. 53.  リサーチ環境(設計) 本番のデータで新しい取り組みをすぐに試せる環境 進化:新しい取り組みを試せる環境の提供 本番環 境 リサーチ環境 効果をすぐに確認できる 問題を事前に把握できる 10% クラスタ規模 10% データ送信 100% ジョブ投入 新しいデータ 最新のバージョン 新しいOSS 新しいアルゴリズム 等の導入が早まる(はず) 最新のバージョンテスト 新しい改善の投入 新しい取り組みの投入 本番環境は安定運用が最優 先
  54. 54.  マルチビッグデータがある  ビジネスにデータサイエンスを活用している  データサイエンスを支えるデータ分析基盤がある  データ分析基盤は進化している チャレンジできる環境がある まとめ
  55. 55. データ で
  56. 56. ご清聴ありがとうございました

×