坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
発表内容
   今年のWSDMで発表された最新の広告コン
    バージョン最適化の手法について発表しま
    す
Background :
Growth of online ad market
検索連動型広告
 検索単語に連動して広告を表示する
 広告主は検索キーワードに対して、クリッ
  クされたらいくら払うかを入札する
     広告の表示はbid * eCTRで決定される
コンテンツ連動型広告
   表示しているページのコンテンツに合わせ
    て広告を表示する
ディスプレイ広告
 主に画像の形式で配信される広告
 今回の発表における対象
ディスプレイ広告
 一番単純な方法としては既存のメディアと
  同様に広告枠を購入して一定のインプレッ
  ション回数表示するというものがある
 しかし、この場合女性向け化粧品の宣伝が
  男性にでるなどの問題がある
     “Half the money I spend on advertising is wasted;
     the trouble is I don't know which half” : John
     Wanamaker
ターゲティング広告
 広告を表示する際に一定の対象のみに広告
  を表示する
 例えば男性のみに表示、東京に住んでいる
  人のみ、車に興味のある人、対象の広告に
  興味のある人など
 これを行うためにはサイトを訪問したユー
  ザの属性、興味を推定する必要がある
    機械学習などの手法により、ユー
    ザの行動履歴データに基づいて属
    性、興味を推定する
行動履歴の蓄積とか配信に関して
   5/25にこういう本が出るようです
Background :
Computational advertising
   Yahoo! Research, Microsoft Researchなど
    を中心にオンライン広告に機械学習、情報
    検索などの技術を適用するという研究が行
    われている
     http://www.stanford.edu/class/msande239/
     Yahoo! Researchに関しては主要な研究者が今年
     に入って大分Microsoft, Googleに移動している
興味の推定
   ゲームなどカテゴリベースで推定する方法
     Large-scale behavioral targeting, KDD 2009




                       www.google.com/ads/preferences/ より
興味の推定
   その広告キャンペーンに対してコンバー
    ジョンしたユーザをもとに近いユーザを
    ターゲットとする
従来研究
   クリックを最大化するもの
     Large-scale behavioral targeting, KDD 2009
     How much can behavioral targeting help online advertising,
      WWW 2009
     Learning relevance from a heterogeneous social network
      and its application in online targeting, SIGIR 2011
   コンバージョンを最大化するもの
     Large-scale customized models for advertisers, ICDM
      2010
     Learning to Target: What Works for Behavioral Targeting,
      CIKM 2011
紹介論文
   Finding the right consumer : Optimizing for
    conversion in display advertising campaigns
     Yandong Liu(Carnegie Mellon), Sandeep Pandey,
     Deepak Agarwal, Vanja Josifovski(Yahoo!
     Research)
 ユーザの過去の行動履歴からコンバージョ
  ンを起こしそうなユーザを発見する
 コンバージョンを起こしそうなユーザを発
  見することにより、適切なユーザに対して
  広告を届けることができる
従来研究の課題
 従来の研究ではカテゴリごと、広告キャン
  ペーンごとなど独立にモデルを作成してい
  た
 多くの場合はコンバージョンしたユーザと
  しなかったユーザの二値分類の問題に落と
  す
 このため新規の広告キャンペーンに対して
  はモデルの作成ができないという欠点があ
  る
本研究の成果
   本研究では広告キャンペーンごとのlocal
    modelに加えて、他のキャンペーンの情報も
    用いたglobal modelを用いることにより、コ
    ンバージョンの推定精度が向上した
Notation
 𝑥 𝑢 ∈ 𝑅 𝑚 : ユーザ𝑢を表すベクトル
 𝑧 𝑐 ∈ 𝑅 𝑛 : キャンペーン𝑐を表すベクトル
 𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐) : ユーザ𝑢がキャンペーン𝑐に関し
  てコンバージョンする傾向
     𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐)を学習するのがこの論文での課題
User representation
   クエリ、ページ閲覧、広告クリックなどを
    テキストに変換してBOW表現する。
     ただし頻度情報は無視して0/1で表す
Campaign representation
   広告キャンペーンは2つの要素から構成され
    る
     広告のランディングページ(メタデータ)
     キャンペーンでコンバージョンしたユーザ群
Modeling approaches
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑔 𝑥 𝑢 , 𝑧 𝑐 + 𝑓𝑐 (𝑥 𝑢 )
 と分解する
     𝑔はキャンペーンのメタデータにしかよらない関
      数であり
     𝑓はキャンペーン𝑐に固有の値である
   𝑓の学習法としては以下の3つが考えられる
     Linear SVM
     Logistic regression
     Naive Bayes
Local model using seed sets
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑓𝑐 (𝑥 𝑢 )の場合を考える
 これはキャンペーンのメタ情報を使わずに、
  キャンペーン𝑐に対してコンバージョンした
  ユーザとしなかったユーザを使って学習す
  ることに相当する
 SVM, Logistic regressionの場合は
                 𝑇
     𝑓𝑐 𝑥 𝑢 = 𝑥 𝑢 𝛽となり、この𝛽を学習する
Global model using the campaign
metadata
 キャンペーンのランディングページなどの
  メタ情報を使って、最適化を行う
 手法としては以下の2つを考える
 Merge-based global model
 Interaction-based global model
Merge-based global model
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝛽とモデル化する
 キャンペーンごとの差異を無視して、一般
  的にコンバージョンしやすいユーザを選択
  することになる
Interaction-based global model
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝐷𝑧 𝑐 + 𝑥 ′𝑢 𝛽とモデル化する
 ここで行列𝐷は𝑚 × 𝑛行列でユーザ特徴量と
  キャンペーン特徴量間の重みを表す


   このままでは𝑚が大きすぎるので変数選択する
     𝑞 𝑖𝑐 を特徴量𝑖を持ったユーザがキャンペーン𝑐にコン
      バージョンする確率とする
     𝑞 𝑖. を特徴量𝑖を持ったユーザがコンバージョンする確
      率とする
                             𝑞
     KLダイバージェンス 𝑐 𝑞 𝑖𝑐 log 𝑖𝑐 の上位を選択する
                            𝑞 𝑖.
Global + Local model



 Interaction-based global modelとLocal modelを
  合わせる
 学習法としては
     𝜆 𝑐 = 𝜆として同時学習を行う
     初めにglobal modelを学習して、個別にlocal modelを
     学習する
   の2つが考えられる
Experiments
 2011年のAdnetworkからランダムに選んだ
  10個のキャンペーンを利用
 コンバージョンの予測対象となったユーザ
  は300,000以上
 コンバージョンしなかったユーザはした
  ユーザに比べて非常に多いので、各キャン
  ペーンにつきランダムに30000ユーザを選択
  して負例とする
キャンペーンのサイズ
   キャンペーン中のコンバージョンの数は数
    十個から数千個とキャンペーンごとに大き
    く異なる
学習アルゴリズムによる違い
   Local modelに関して3つの学習アルゴリズムの比較を
    行った
   SVMとLogisticはほぼ同じ性能、Naive-Bayesはあまりよ
    くない
     この後の実験ではSVMを利用する
学習器のSensibility
   SVM, Logisticは正則化定数によって精度が
    大きく変わる
     Naive Bayesの方はそれに比べてRobust
データサイズと精度の関係




   同一サイズのキャンペーンにおいてはデータを
    増やすほど精度が高くなる
     Smallキャンペーンの方がLargeキャンペーンより精
     度が高いのはSmallの方がコンバージョンの定義が商
     品を注文するなど厳格でありLargeに比べてノイズが
     少ないため
Global model
   Medium, Largeサイズのキャンペーンにおいては
    データが少ないときにはmergeモデルの方が高い精
    度となった
     smallに関してはデータが少ない時もLocalの方が精度が高
      い
     ただ既存のキャンペーンのコンバージョンデータをデー
      タがないときに利用することによって初期のcold-start問
      題を防げる
Global model (Large)
Interaction-based global model
 ユーザの特徴量は特徴選択により3000に絞っ
  た
 キャンペーンの方はキャンペーンごとに50個し
  かないので特に特徴選択は行わなかった
 いずれのサイズにおいてもInteraction-based
  modelの方が高い精度になった
Global + Local モデル
   Small,LargeのキャンペーンにおいてGlobal
    + Localモデルの方がGlobalモデルよりも高
    い精度となった
まとめ
 本研究では広告キャンペーンのランディン
  グページなどのメタ情報を使うことにより、
  広告キャンペーンのコンバージョンデータ
  がないときにも有効なモデルを提案した
 今回の研究は広告に注力したが、この手法
  はコンテント推薦、検索のパーソナライズ
  などに利用できると考えられる
その他広告に関する話題
(検索連動型広告)
   検索単語に対して、入札され
    た広告を表示する
   検索エンジン側の期待収益と
    しては(期待CTR) * (bid価格)と
    なる
   収益を高めるためCTRの予測
    を高い精度で行う必要がある
     広告の表示位置や同時に表示され
      ている物同士の関係を考慮したク
      リックモデルの構築が必要
     Relational click prediction for
      sponsored search, WSDM 2012
     Web-scale bayesian click-through
      rate prediction for sponsored
      search, ICML 2011
その他広告に関する話題
(コンテンツ連動型広告)
 広告が表示されている面と関連している広
  告を表示する
 面と類似性が高い広告を高速かつ高い精度
  で取得できる必要がある
     Fast top-k retrieval for model based
      recommendation, WSDM 2012
     A hidden class page-ad probability model for
      contextual advertising, WWW 2008 (Workshop)
     A semantic approach to contextual advertising,
      SIGIR 2007
その他広告に関する話題
   ユーザに対して広告を配信する際に1impsにい
    くらまで支払ってよいかを決定して、なるべく
    収益が多くなるようにする
     Real-time bidding algorithms for performance-based
     display ad allocation, KDD 2011
   複数のアドネットワークおよび検索連動型広告
    などに対して広告を配信した時に、各媒体がコ
    ンバージョンにどの程度寄与したかをデータか
    ら分析する
     Data-driven multi-touch attribution models, KDD 2011

Tokyowebmining2012

  • 1.
  • 2.
    発表内容  今年のWSDMで発表された最新の広告コン バージョン最適化の手法について発表しま す
  • 3.
    Background : Growth ofonline ad market
  • 4.
    検索連動型広告  検索単語に連動して広告を表示する  広告主は検索キーワードに対して、クリッ クされたらいくら払うかを入札する  広告の表示はbid * eCTRで決定される
  • 5.
    コンテンツ連動型広告  表示しているページのコンテンツに合わせ て広告を表示する
  • 6.
  • 7.
    ディスプレイ広告  一番単純な方法としては既存のメディアと 同様に広告枠を購入して一定のインプレッ ション回数表示するというものがある  しかし、この場合女性向け化粧品の宣伝が 男性にでるなどの問題がある  “Half the money I spend on advertising is wasted; the trouble is I don't know which half” : John Wanamaker
  • 8.
    ターゲティング広告  広告を表示する際に一定の対象のみに広告 を表示する  例えば男性のみに表示、東京に住んでいる 人のみ、車に興味のある人、対象の広告に 興味のある人など  これを行うためにはサイトを訪問したユー ザの属性、興味を推定する必要がある 機械学習などの手法により、ユー ザの行動履歴データに基づいて属 性、興味を推定する
  • 9.
    行動履歴の蓄積とか配信に関して  5/25にこういう本が出るようです
  • 10.
    Background : Computational advertising  Yahoo! Research, Microsoft Researchなど を中心にオンライン広告に機械学習、情報 検索などの技術を適用するという研究が行 われている  http://www.stanford.edu/class/msande239/  Yahoo! Researchに関しては主要な研究者が今年 に入って大分Microsoft, Googleに移動している
  • 11.
    興味の推定  ゲームなどカテゴリベースで推定する方法  Large-scale behavioral targeting, KDD 2009 www.google.com/ads/preferences/ より
  • 12.
    興味の推定  その広告キャンペーンに対してコンバー ジョンしたユーザをもとに近いユーザを ターゲットとする
  • 13.
    従来研究  クリックを最大化するもの  Large-scale behavioral targeting, KDD 2009  How much can behavioral targeting help online advertising, WWW 2009  Learning relevance from a heterogeneous social network and its application in online targeting, SIGIR 2011  コンバージョンを最大化するもの  Large-scale customized models for advertisers, ICDM 2010  Learning to Target: What Works for Behavioral Targeting, CIKM 2011
  • 14.
    紹介論文  Finding the right consumer : Optimizing for conversion in display advertising campaigns  Yandong Liu(Carnegie Mellon), Sandeep Pandey, Deepak Agarwal, Vanja Josifovski(Yahoo! Research)  ユーザの過去の行動履歴からコンバージョ ンを起こしそうなユーザを発見する  コンバージョンを起こしそうなユーザを発 見することにより、適切なユーザに対して 広告を届けることができる
  • 15.
    従来研究の課題  従来の研究ではカテゴリごと、広告キャン ペーンごとなど独立にモデルを作成してい た  多くの場合はコンバージョンしたユーザと しなかったユーザの二値分類の問題に落と す  このため新規の広告キャンペーンに対して はモデルの作成ができないという欠点があ る
  • 16.
    本研究の成果  本研究では広告キャンペーンごとのlocal modelに加えて、他のキャンペーンの情報も 用いたglobal modelを用いることにより、コ ンバージョンの推定精度が向上した
  • 17.
    Notation  𝑥 𝑢∈ 𝑅 𝑚 : ユーザ𝑢を表すベクトル  𝑧 𝑐 ∈ 𝑅 𝑛 : キャンペーン𝑐を表すベクトル  𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐) : ユーザ𝑢がキャンペーン𝑐に関し てコンバージョンする傾向  𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐)を学習するのがこの論文での課題
  • 18.
    User representation  クエリ、ページ閲覧、広告クリックなどを テキストに変換してBOW表現する。  ただし頻度情報は無視して0/1で表す
  • 19.
    Campaign representation  広告キャンペーンは2つの要素から構成され る  広告のランディングページ(メタデータ)  キャンペーンでコンバージョンしたユーザ群
  • 20.
    Modeling approaches  𝑓𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑔 𝑥 𝑢 , 𝑧 𝑐 + 𝑓𝑐 (𝑥 𝑢 )  と分解する  𝑔はキャンペーンのメタデータにしかよらない関 数であり  𝑓はキャンペーン𝑐に固有の値である  𝑓の学習法としては以下の3つが考えられる  Linear SVM  Logistic regression  Naive Bayes
  • 21.
    Local model usingseed sets  𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑓𝑐 (𝑥 𝑢 )の場合を考える  これはキャンペーンのメタ情報を使わずに、 キャンペーン𝑐に対してコンバージョンした ユーザとしなかったユーザを使って学習す ることに相当する  SVM, Logistic regressionの場合は 𝑇  𝑓𝑐 𝑥 𝑢 = 𝑥 𝑢 𝛽となり、この𝛽を学習する
  • 22.
    Global model usingthe campaign metadata  キャンペーンのランディングページなどの メタ情報を使って、最適化を行う  手法としては以下の2つを考える  Merge-based global model  Interaction-based global model
  • 23.
    Merge-based global model 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝛽とモデル化する  キャンペーンごとの差異を無視して、一般 的にコンバージョンしやすいユーザを選択 することになる
  • 24.
    Interaction-based global model 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝐷𝑧 𝑐 + 𝑥 ′𝑢 𝛽とモデル化する  ここで行列𝐷は𝑚 × 𝑛行列でユーザ特徴量と キャンペーン特徴量間の重みを表す  このままでは𝑚が大きすぎるので変数選択する  𝑞 𝑖𝑐 を特徴量𝑖を持ったユーザがキャンペーン𝑐にコン バージョンする確率とする  𝑞 𝑖. を特徴量𝑖を持ったユーザがコンバージョンする確 率とする 𝑞  KLダイバージェンス 𝑐 𝑞 𝑖𝑐 log 𝑖𝑐 の上位を選択する 𝑞 𝑖.
  • 25.
    Global + Localmodel  Interaction-based global modelとLocal modelを 合わせる  学習法としては  𝜆 𝑐 = 𝜆として同時学習を行う  初めにglobal modelを学習して、個別にlocal modelを 学習する  の2つが考えられる
  • 26.
    Experiments  2011年のAdnetworkからランダムに選んだ 10個のキャンペーンを利用  コンバージョンの予測対象となったユーザ は300,000以上  コンバージョンしなかったユーザはした ユーザに比べて非常に多いので、各キャン ペーンにつきランダムに30000ユーザを選択 して負例とする
  • 27.
    キャンペーンのサイズ  キャンペーン中のコンバージョンの数は数 十個から数千個とキャンペーンごとに大き く異なる
  • 28.
    学習アルゴリズムによる違い  Local modelに関して3つの学習アルゴリズムの比較を 行った  SVMとLogisticはほぼ同じ性能、Naive-Bayesはあまりよ くない  この後の実験ではSVMを利用する
  • 29.
    学習器のSensibility  SVM, Logisticは正則化定数によって精度が 大きく変わる  Naive Bayesの方はそれに比べてRobust
  • 30.
    データサイズと精度の関係  同一サイズのキャンペーンにおいてはデータを 増やすほど精度が高くなる  Smallキャンペーンの方がLargeキャンペーンより精 度が高いのはSmallの方がコンバージョンの定義が商 品を注文するなど厳格でありLargeに比べてノイズが 少ないため
  • 31.
    Global model  Medium, Largeサイズのキャンペーンにおいては データが少ないときにはmergeモデルの方が高い精 度となった  smallに関してはデータが少ない時もLocalの方が精度が高 い  ただ既存のキャンペーンのコンバージョンデータをデー タがないときに利用することによって初期のcold-start問 題を防げる
  • 32.
  • 33.
    Interaction-based global model ユーザの特徴量は特徴選択により3000に絞っ た  キャンペーンの方はキャンペーンごとに50個し かないので特に特徴選択は行わなかった  いずれのサイズにおいてもInteraction-based modelの方が高い精度になった
  • 34.
    Global + Localモデル  Small,LargeのキャンペーンにおいてGlobal + Localモデルの方がGlobalモデルよりも高 い精度となった
  • 35.
    まとめ  本研究では広告キャンペーンのランディン グページなどのメタ情報を使うことにより、 広告キャンペーンのコンバージョンデータ がないときにも有効なモデルを提案した  今回の研究は広告に注力したが、この手法 はコンテント推薦、検索のパーソナライズ などに利用できると考えられる
  • 36.
    その他広告に関する話題 (検索連動型広告)  検索単語に対して、入札され た広告を表示する  検索エンジン側の期待収益と しては(期待CTR) * (bid価格)と なる  収益を高めるためCTRの予測 を高い精度で行う必要がある  広告の表示位置や同時に表示され ている物同士の関係を考慮したク リックモデルの構築が必要  Relational click prediction for sponsored search, WSDM 2012  Web-scale bayesian click-through rate prediction for sponsored search, ICML 2011
  • 37.
    その他広告に関する話題 (コンテンツ連動型広告)  広告が表示されている面と関連している広 告を表示する  面と類似性が高い広告を高速かつ高い精度 で取得できる必要がある  Fast top-k retrieval for model based recommendation, WSDM 2012  A hidden class page-ad probability model for contextual advertising, WWW 2008 (Workshop)  A semantic approach to contextual advertising, SIGIR 2007
  • 38.
    その他広告に関する話題  ユーザに対して広告を配信する際に1impsにい くらまで支払ってよいかを決定して、なるべく 収益が多くなるようにする  Real-time bidding algorithms for performance-based display ad allocation, KDD 2011  複数のアドネットワークおよび検索連動型広告 などに対して広告を配信した時に、各媒体がコ ンバージョンにどの程度寄与したかをデータか ら分析する  Data-driven multi-touch attribution models, KDD 2011