Successfully reported this slideshow.
Your SlideShare is downloading. ×

Mlct 20150430v2

More Related Content

Slideshows for you

Mlct 20150430v2

  1. 1. ネット広告実務で機械学習を活用するうえでの苦労話
  2. 2. アジェンダ • 自己紹介 • FreakOutの概観 • 機械学習苦労話
  3. 3. 自己紹介
  4. 4. 佐野正和(さのまさかず, @Masa_S3) • データマイニングエンジニア (Techlead) • バックグラウンドは素粒子物理学 • 5年くらいネット広告分野で分析業務を担当 分析チーム • 5名+3名アルバイト(現時点) • FreakOutとM.T.Burn(スマホ向けアドネットワーク)のプロダクト改善 メンバーを募集しております! • 分析から学習モデルの実装までやってみたい方。 • 自分の実装モデルをリアルなデータで試したい方。 • アナリティクスの力でビジネスをドライブさせてみたい方。
  5. 5. • FreakOutの概観
  6. 6. ネット広告売買の世界:Real Time Bidding(RTB) • SSP(Supply-Side Platform)がimpressionのオークションを仕切って、 それに複数のDSP(Demand-Side Platform )がセリに参加するイメー ジ。 DSP1 DSP2 DSP3 SSP いくらで 配信す るの? ¥10 ¥30 ¥20 DSP2を配信 ユーザID, 広告サイズ等 を開示 6
  7. 7. DSP (Demand-Side Platform)とは 7 これまで 現在 広告枠 広告主 広告枠 メディア ユーザ 広告枠 ? 広告主のロジックでの買い付けが可能に ネット広告のパラダイムシフト 取引対象が、「広告枠」から「人」へ変化 手売りでの 広告販売 RTBによる 自動買い付け 広告枠
  8. 8. 50ms or die. フリークアウトのTechチームが掲げるミッション。 月間2200億のリクエスト、 その1つ1つに対して50msでレスポンスを返さないと、 事業そのものが成り立たない
  9. 9. 50msでやっていること 広告主側のロジックで、 必要な枠、必要な人、必要な瞬間だけ をリアルタイムに判定して入札 ↓ 競合十数社でのオークションに勝てば バナーを表示
  10. 10. ・入札配信サーバ/Hadoopクラスタは、それぞれ 数百台の規模 ・基本はオンプレミス、一部AWS使用 ・入札サーバは安いコアを並べる FreakOut DSP の構成概要
  11. 11. ロジックのABテスト環境 月間2200億のトラフィックに対して、 複数の入札ロジックを、任意の割合(%)で 並行して走らせることが可能 結果も即座に集計可能 常時複数のアルゴリズムが実環境で検証されている 高速PDCA
  12. 12. • 機械学習苦労話
  13. 13. 広告主側のロジックで、 必要な枠、必要な人、必要な瞬間だけ をリアルタイムに判定して入札 • 高精度なユーザ判別(click/CV)の実現 • 制約 • 高速レスポンス • オンプレ 機械学習への制約
  14. 14. 機械学習への制約 学習器 Impression log click log 学習 (ロジスティ回帰) Clickする確率 イメージ 過去の履歴 入札価格の決定
  15. 15. ロジックの一例:クリック予測モデル Hivemallのロジスティック回帰を活用 • amplify()関数を活用したアンサンブル学習でイテレーション効 果を得る。 • Hiveで学習から検証まで実行可能で非常に便利。 学習用のログは直近数日分のimpression & click log • 学習時間;1時間程度
  16. 16. ロジックの一例:クリック予測モデル 課題 • amplifyを使うと処理の途中過程で学習データが10倍程度に なる(設定による)。 • オンプレ環境ではデータ容量を大きくできない • 使用容量が多いと特徴量の種類を増やすことも容易ではな い • 精度を落とさず容量を減らしたい
  17. 17. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] Negative Samples (impresion log)Positive Samples (click log)
  18. 18. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] Negative samples Positive samples Subsampling rate r(<1)でnegative sampleからサンプリング。 subsampling
  19. 19. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] 非常に簡潔
  20. 20. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] 精度をほぼ変えずに消費リソースの削減を実現 • r=0.2 • 60-80%の消費リソース減少 • 学習時間も半分以下に
  21. 21. おまけ苦労話:モデルの比較 実配信環境にモデルを投下するためには機械学習モ デルの比較検証が大事 モデルを同じ基準で比較するのが意外と難しい
  22. 22. view cv • Viewからクリックまでは期間が短い • コンバージョンまでにはラグが存在する場合があ る
  23. 23. view cv view cv オンライン検証開始 すでに動いているモデルと新しい モデルを比較検証する場合、 Model Bのような検証開始日より 過去から発生しているコンバー ジョンを除外しないと公平な比較 にならない。 クリック予測モデルと違う点で気 をつけるべき点。 案外落とし穴 。遅れて発生する コンバージョンは割と多い。 New model A Old model B
  24. 24. まとめ 地味なところ大事。特にデータ周り。 同じくらい業務知識も大事。落とし穴に気づける。

×