Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ブラックボックスなアドテクを機械学習で推理してみた Short ver

1,845 views

Published on

Ventures Salon vol.6 で発表した資料です。

業務でどのように機械学習が使われているか、
という観点でまとめました。
(あくまで概要+αレベル)

より深く学びたい方のために参考文献を提示しました。
機械学習の教科書、ブログ、論文など、
ご覧くださいませ。

Published in: Data & Analytics
  • Be the first to comment

ブラックボックスなアドテクを機械学習で推理してみた Short ver

  1. 1. ブラックボックスなアドテクを 機械学習で推理してみた 某WEB広告代理店 坂井 尚行
  2. 2. 今日、得られるモノ 業務(アドテク)で使われている機械学習がどんなも のか、ざっくり知ることができる どんなところで機械学習が使えそうか、ざっくり知る ことができる あとで独学できるように参考文献を知ることができる
  3. 3. DSP/RTBの時代 広告在庫発生 広告主 媒体 DSP SSP オークション通知 購入 購入 広告在庫発生オークション通知 購入しない DSP間で広告効果をめぐって競争激化
  4. 4. ところで効果って?(´・ω・`) 理想:安く広告を配信して、売上をあげたい 成果系KPI 売上: ECなどで商品が購入された金額 CV(Conversion): Web上で定義した成果(ex. 購入した回数、資料請求) 効率系KPI CTR(Click Through Ratio): クリック数/広告表示回数 CPA(Cost Per Acquisition): 広告のコスト/CV数 ROAS(Return Of Ad Spend): 売上/コスト
  5. 5. 以下、 DSPと機械学習の私見
  6. 6. DSPの差別化ポイント① 独自の媒体枠: 接続先SSPは皆がつないでいて差がない GDN、YDN(優先的につないでいるcriteo)、MicroAdが独自枠をお さえている? ADNW/SSPに価格マージン/優良ユーザを抜かれないので優位 最近はソーシャルが狙われている
  7. 7. DSPの差別化ポイント② 効果を追求したアルゴリズム: 広告主サイトから離脱後、ほぼリアルタイムで配信 機械学習によるスジのよいユーザの選択 オークションの参加選択と価格の調整
  8. 8. DSPの差別化ポイント③ 多様なバナーメニュー: 様々な枠にだせるようにサイズは多くする レコメンド広告ならば、文言・画像レイアウトも複数用意する アニメーションもつけて工夫する(効果にあまり影響ない、と いうウワサも…) 機械学習による商品レコメンド
  9. 9. 機械学習的に見たDSP 分類: 効果の良さそうなユーザをカテゴリに分ける カテゴリに基づく価格調整: あるユーザは価格をおさえて、別のユーザは価格を高くする 協調フィルタリング: ユーザ別にCVしそうな順に商品を推薦する
  10. 10. 分類って?(´・ω・`) 複数のカテゴリにわけること 顔の分類 アニメキャラの顔を分類 猫種類の分類 広告のクリック、非クリックへの分類 ステップは二つ テストデータをもとにモデルを作成 モデルから本番データを類推して分類 [('Abyssinian', 0.621), ('Bengal', 0.144), ('Sphynx', 0.087)] ※※http://rest-term.com/archives/3172/ ※ http://christina.hatenablog.com/entry/2015/01/23/212541
  11. 11. ユーザ分類の原則 似たようなユーザは似たような行動をする 効果✖️行動(ログデータ)でユーザを分類する クリック率の高そうなユーザ CPAが低そうなユーザ ROIがよさそうなユーザ
  12. 12. 単純な多変量の線形回帰では上手くいかない 仮に以下の数字を置いてみる CTR: 0.5% CVR: 1.0% 1,000,000 回広告が配信された場合、 Click数: 5,000回 CV数: 50回 データのうち、ほぼ誤差みたいなデータが 重要。うまく場合分けして計算する必要が ある。 x1 x2 イメージ
  13. 13. 効果が高いシンプルなCTR予測 多くの{0,1}の変数で クリック有無{-1,1}を ロジスティック関数で分類 +1:clickする 確率 P (y = +1|x) = 1 1 + exp( wT x) 媒体 広告主 ユーザ 時間 • 媒体NW • 媒体 • URL • 広告主NW • 広告主 • 広告 • (可能なら)年齢/性別 • 主サイト行動履歴 • 曜日 • 時間帯 ex. msn に来訪した場合 (0, 0, 1, 0, 0…) www.msn.com www.yahoo.co.jp
  14. 14. サンプリングと高次補正 媒体 NW 媒体 広告枠 広告 広告主 広告主 NW 証券会社とyahoo financeではCTRが上がる 変数の組み合せを{0,1}の変数にする 右上のデータは少ないため、 サンプルデータを多めにとる あとで数式に合うように補正する P (y = +1|x) = 1 1 + exp( wT x)
  15. 15. 【余談】階層化と自己成長サイクル ①優良媒体を増やす ②変数とデータ量が 増える ③広告主の 効率がよくなる ⑤入札価格が 高くなる ⑥他の広告主が 増える ④成果(CV・売上)が 増える ⑦媒体/SSPの 売り上げが増える
  16. 16. CTR予測コンテスト by Criteo & Kaggle 予測モデリング/分析のプラットフォーム 賞金をかけてクラウドソーシングされる 無数の戦略が可能であり、事前にどれが よいか予測することが困難なため Criteo CTR Prediction Contest 圧倒的な効果を出してきたCriteoもコン テストを開催 コンテストの成果を機能開発に反映?
  17. 17. CTR予測の最近のアルゴリズム 主要素分析 入力データから重要なデータを選ぶ デシジョンツリー作成 重要なデータで3∼7階層のツリー をつくる ツリーの末端は特徴量になる ロジスティック回帰 特徴量の線形結合する ロジスティック関数にあてはめる Figure 1: Hybrid model structure. Input features are transformed by means of boosted decision trees. The output of each individual tree is treated as a categorical input feature to a sparse linear classifier. Boosted decision trees prove to be very powerful feature transforms. ※ http://quinonero.net/Publications/predicting-clicks-facebook.pdfより抜粋
  18. 18. この考え方、死亡フラグです ヒャッハー! 機械学習で 一山あてるぜー!!
  19. 19. コールドスタート問題 これまでのアルゴリズムは大量のデータが必要 最初はデータがない 既存の中規模・大規模サイトにサービスを提供 するか、グロースハックが重要
  20. 20. 運用 地道なバックテストとA/Bテストの繰り返し 分類器のアルゴリズムの検証 使用する変数の検証 最初から検証することを込みでアーキテクチャを 作りこんでおく
  21. 21. 今後の展望 基本となるアルゴリズム? 分類、クラスタリング、レコメンド 画像処理、音声処理、自然言語処理を使う分野で使われる? CRMのデータエントリー(申込書のデータ入力) リアル店舗の動線解析 Skypeのリアルタイム翻訳 アルゴリズム提供のプラットフォーム化 クラウドソーシング Kaggle Microsoft Azure ML 競争優位性は、迅速にアルゴリズムをビジネスへ転換することで得られる?
  22. 22. Appendix 基本資料 DSP/SSP/RTB The Ad Technology: http://www.amazon.co.jp/dp/4798136557 DSP/RTBオーディエンスターゲティング入門: http:// www.amazon.co.jp//dp/4864780013 機械学習の入門書 集合知プログラミング:http://www.amazon.co.jp/dp/4873113644/ Mahout In Action: http://www.amazon.co.jp/dp/4873115841/ オンライン機械学習: http://www.amazon.co.jp/dp/406152903X オンライン機械学習は論文を読み始める前に読んでおくとよいです
  23. 23. Appendix CTR予測 基本的な考え方: https://web.stanford.edu/class/msande239/lectures-2011/Lecture%2007%20Targeting%202011.pdf 最近のCTR予測の元ネタ論文: http://quinonero.net/Publications/predicting-clicks-facebook.pdf Kaggle Criteo Challenge: https://www.kaggle.com/c/criteo-display-ad-challenge https://www.kaggle.com/c/criteo-display-ad-challenge/forums/t/10555/3-idiots-solution-libffm https://github.com/guestwalk/kaggle-2014-criteo ロジスティック回帰によるシンプルな予測 http://olivier.chapelle.cc/pub/ngdstone.pdf http://www.slideshare.net/OlivierChapelle/wsdm14 精度向上のテクニック ブースティング:http://www.slideshare.net/holidayworking/ss-11948523 フィーチャー・ハッシング:http://ja.wikipedia.org/wiki/Feature_Hashing バンディット・アルゴリズム: http://www.slideshare.net/greenmidori83/ss-28443892

×