Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sano hmm 20150512

8,004 views

Published on

hivemall meetup

Published in: Data & Analytics

Sano hmm 20150512

  1. 1. ネット広告で機械学習 Hivemallの活用例 2015/05/12(火)19:00 第一回Hivemall Meetup
  2. 2. アジェンダ • 自己紹介 • FreakOut • 分析チームの紹介 • 機械学習 – Hivemallの活用例
  3. 3. 自己紹介 • 佐野正和(さのまさかず, @Masa_S3) • FreakOutのデータマイニングエンジニア • 5年くらいネット広告分野で分析業務を担当 • バックグラウンドは素粒子物理学
  4. 4. • FreakOut
  5. 5. FreakOut • ネット広告の会社です。 • 広告入札システムを提供しています。
  6. 6. ネット広告売買の世界:Real Time Bidding(RTB) • SSP(Supply-Side Platform)がimpressionのオークションを仕切って、 それに複数のDSP(Demand-Side Platform )がセリに参加するイメー ジ。 DSP1 DSP2 DSP3 SSP いくらで 配信す るの? ¥10 ¥30 ¥20 DSP2を配信 ユーザID, 広告サイズ等 を開示 6
  7. 7. DSP (Demand-Side Platform)とは 7 これまで 現在 広告枠 広告主 広告枠 メディア ユーザ 広告枠 ? 広告主のロジックでの買い付けが可能に ネット広告のパラダイムシフト 取引対象が、「広告枠」から「人」へ変化 手売りでの 広告販売 RTBによる 自動買い付け 広告枠
  8. 8. 50ms or die. フリークアウトのTechチームが掲げるミッション。 月間2200億のリクエスト、 その1つ1つに対して50msでレスポンスを返さないと、 事業そのものが成り立たない
  9. 9. 50msでやっていること 広告主側のロジックで、 必要な枠、必要な人、必要な瞬間だけ をリアルタイムに判定して入札 ↓ 入札ロジックの洗練が利益に直 結
  10. 10. 分析チームの紹介
  11. 11. 分析チームの紹介 • 5名+3名アルバイト(現時点) • FreakOutとM.T.Burn(スマホ向けアドネットワーク)の プロダクト改善 • 広告配信アルゴリズム改善のための分析に関わること全般 を担当 • メンバーは実装できることが必須。
  12. 12. 分析チームの紹介 • 使用言語は自由:よく使われているのは Python, Perl, C++ • 集計にはHiveを活用 • 機械学習などの論文を参考にモデルを実装 • 検証(オンライン・オフライン)を繰り返す • 必要に応じて集計ベースの仮説検証も実施
  13. 13. • 機械学習 – Hivemallの活用例
  14. 14. • FreakOutでは常時複数のアルゴリズムが実行・ 検証されています • 使用されているアルゴリズムの一例としてクリッ ク予測モデルを例にHivemallの活用例を紹介し ます
  15. 15. ロジックの一例:クリック予測モデル Hivemallのロジスティック回帰を活用 • 操作がとても簡単。 jarを読み込んですぐ使える • Hueからも使えるので、コーディングが得意ではない人も簡単 に使える • 大規模データに対して学習可能 • Hiveで学習から検証まで実行することができるようになり作業 効率が良い
  16. 16. • 学習用のログは直近数日分のimpression & click log • 学習時間は数時間程度
  17. 17. 学習器 Impression log click log Hivemallで学習 (ロジスティ回帰) Clickする確率 ユーザ 入札価格の決定 Feature - weight 実配信 Hiveの操作
  18. 18. 学習器 Impression log click log Hivemallで学習 (ロジスティ回帰) Clickする確率 検証 Hiveの操作 評価
  19. 19. ロジックの一例:クリック予測モデル 工夫した点 • amplifyを使うと処理の途中過程で学習データが10倍程度に なる(設定による)。 • オンプレ環境ではデータ容量を大きくできない • 使用容量が多いと特徴量の種類を増やすことも容易ではな い • 精度を落とさず容量を減らしたい
  20. 20. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] Negative Samples (impresion log)Positive Samples (click log)
  21. 21. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] Negative samples Positive samples Subsampling rate r(<1)でnegative sampleからサンプリング。 subsampling
  22. 22. 学習器 Impression log click log Hivemallで学習 (ロジスティ回帰) Clickする確率 ユーザ 入札価格の決定 Feature - weight 実配信 Hiveの操作 subsampling
  23. 23. ロジックの一例:クリック予測モデル • 学習データを作る部分でSubsamplingの導入 • Hive内の処理で完結するのでHivemallと合わせ て簡単に使うことができる 精度をほぼ変えずに消費リソースの削減を実現 • r=0.2 • 60-80%の消費リソース減少 • 学習時間も半分以下に
  24. 24. まとめ • Hivemallの利用は簡単 • 大規模データに対して機械学習が簡単にできます • Hive queryが使えれば複雑な実装をしなくてもよい

×