ネット広告実務で機械学習を活用するうえでの苦労話
アジェンダ
• 自己紹介
• FreakOutの概観
• 機械学習苦労話
自己紹介
佐野正和(さのまさかず, @Masa_S3)
• データマイニングエンジニア (Techlead)
• バックグラウンドは素粒子物理学
• 5年くらいネット広告分野で分析業務を担当
分析チーム
• 5名+3名アルバイト(現時点)
• FreakOutとM.T.Burn(スマホ向けアドネットワーク)のプロダクト改善
メンバーを募集しております!
• 分析から学習モデルの実装までやってみたい方。
• 自分の実装モデルをリアルなデータで試したい方。
• アナリティクスの力でビジネスをドライブさせてみたい方。
• FreakOutの概観
ネット広告売買の世界:Real Time Bidding(RTB)
• SSP(Supply-Side Platform)がimpressionのオークションを仕切って、
それに複数のDSP(Demand-Side Platform )がセリに参加するイメー
ジ。
DSP1
DSP2
DSP3
SSP
いくらで
配信す
るの?
¥10
¥30
¥20
DSP2を配信
ユーザID, 広告サイズ等
を開示
6
DSP (Demand-Side Platform)とは
7
これまで 現在
広告枠
広告主
広告枠
メディア
ユーザ
広告枠
?
広告主のロジックでの買い付けが可能に
ネット広告のパラダイムシフト
取引対象が、「広告枠」から「人」へ変化
手売りでの
広告販売
RTBによる
自動買い付け
広告枠
50ms or die.
フリークアウトのTechチームが掲げるミッション。
月間2200億のリクエスト、
その1つ1つに対して50msでレスポンスを返さないと、
事業そのものが成り立たない
50msでやっていること
広告主側のロジックで、
必要な枠、必要な人、必要な瞬間だけ
をリアルタイムに判定して入札
↓
競合十数社でのオークションに勝てば
バナーを表示
・入札配信サーバ/Hadoopクラスタは、それぞれ
数百台の規模
・基本はオンプレミス、一部AWS使用
・入札サーバは安いコアを並べる
FreakOut DSP の構成概要
ロジックのABテスト環境
月間2200億のトラフィックに対して、
複数の入札ロジックを、任意の割合(%)で
並行して走らせることが可能
結果も即座に集計可能
常時複数のアルゴリズムが実環境で検証されている
高速PDCA
• 機械学習苦労話
広告主側のロジックで、
必要な枠、必要な人、必要な瞬間だけ
をリアルタイムに判定して入札
• 高精度なユーザ判別(click/CV)の実現
• 制約
• 高速レスポンス
• オンプレ
機械学習への制約
機械学習への制約
学習器
Impression log
click log
学習
(ロジスティ回帰)
Clickする確率
イメージ
過去の履歴
入札価格の決定
ロジックの一例:クリック予測モデル
Hivemallのロジスティック回帰を活用
• amplify()関数を活用したアンサンブル学習でイテレーション効
果を得る。
• Hiveで学習から検証まで実行可能で非常に便利。
学習用のログは直近数日分のimpression & click
log
• 学習時間;1時間程度
ロジックの一例:クリック予測モデル
課題
• amplifyを使うと処理の途中過程で学習データが10倍程度に
なる(設定による)。
• オンプレ環境ではデータ容量を大きくできない
• 使用容量が多いと特徴量の種類を増やすことも容易ではな
い
• 精度を落とさず容量を減らしたい
ロジックの一例:クリック予測モデル
Subsamplingの導入
Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
Negative
Samples
(impresion log)Positive
Samples
(click log)
ロジックの一例:クリック予測モデル
Subsamplingの導入
Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
Negative
samples
Positive
samples
Subsampling rate r(<1)でnegative
sampleからサンプリング。
subsampling
ロジックの一例:クリック予測モデル
Subsamplingの導入
Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
非常に簡潔
ロジックの一例:クリック予測モデル
Subsamplingの導入
Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
精度をほぼ変えずに消費リソースの削減を実現
• r=0.2
• 60-80%の消費リソース減少
• 学習時間も半分以下に
おまけ苦労話:モデルの比較
実配信環境にモデルを投下するためには機械学習モ
デルの比較検証が大事
モデルを同じ基準で比較するのが意外と難しい
view
cv
• Viewからクリックまでは期間が短い
• コンバージョンまでにはラグが存在する場合があ
る
view
cv
view
cv
オンライン検証開始
すでに動いているモデルと新しい
モデルを比較検証する場合、
Model Bのような検証開始日より
過去から発生しているコンバー
ジョンを除外しないと公平な比較
にならない。
クリック予測モデルと違う点で気
をつけるべき点。
案外落とし穴 。遅れて発生する
コンバージョンは割と多い。
New model A
Old model B
まとめ
地味なところ大事。特にデータ周り。
同じくらい業務知識も大事。落とし穴に気づける。

Mlct 20150430v2