web広告輪講 #5

1,150 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,150
On SlideShare
0
From Embeds
0
Number of Embeds
196
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

web広告輪講 #5

  1. 1. web広告輪講#5@suzu_v2013/05/31
  2. 2. Audience Selection for On-lineBrand Advertising:Privacy-friendly Social NetworkTargetinghttp://dl.acm.org/citation.cfm?id=1557098KDD 2009今日の論文
  3. 3. 要約• UGC(User generated-Contents)をつくるサイト上でのユーザの行動から、プライバシーフレンドリーな手法によって擬似的なソーシャルネットワークを抽出する。– データマイニングによって優良なオーディエンスを見つける– ブランドのオーディエンスを評価するため、予測モデルを利用した評価の枠組みを導入する• ブラウザの識別情報や、ページ内コンテンツから見つけられるであろう個人の識別情報は利用しない。• ネットワークにおけるブランドとの距離の近さを測定する手法を紹介し、ブランドとの関連性の高いユーザを見つけられることを示す。
  4. 4. 1. 導入• プライバシーフレンドリーな手法はweb広告にとって魅力的– かつ、流行っている• 本論文では”あるブランドへの関心”を抽出することにフォーカスした• ポイント– 1. どのようにオンラインでのブランドのお客さんを見極めるか– 2. ブランドにとって優良なお客さんを識別する方法• 対象– いくつかのソーシャルネットワークサイトに訪れたユーザの行動データ• 全インターネットユーザの75%程度にリーチできる規模• 社会的関係性は似たような特性を当事者間に持たせる傾向がある[21]– これはターゲティングにうまく利用できそう• 最後に、今回構築する“擬似的な”ソーシャルネットワークが本物のソーシャルネットワークに埋まっているということを示す
  5. 5. 2. Network Neighbors in Micro-content Affinity Networks• 仮定1:– Micro-content Affinity(ユーザの作ったコンテンツを複数のユーザが見ることから推測される類似性) は、ブランドへの類似性を招く• 仮定2:– Micro-content Affinityは、UGCをベースとして個人間の関係性を示す重要な役割を果たす。• ソーシャルネットワーク上の同じページを見ているユーザ2人は友達である可能性が高まる• 分析の上ではその2人が実際に友達である必要はない。ブランド広告を出す上では、同じページを見ているという事実が大事。
  6. 6. 2.1 Brand audiences via networkneighbors• まずあるUGCへの訪問者を匿名ユーザとする– このユーザはいくつかのwebページを見る– cookieでtrackする• 別のユーザが同じページ見る– この2つのブラウザにリンクを描ける– 訪問頻度が増えるとより強いリンクだと見做す• ネットワークは基本的に二者間の関係性によって描かれていくものだと考える• こうして描かれるネットワークを“quasi-socialnetwork”と呼ぶことにする。– 「擬似的なソーシャルネットワーク」
  7. 7. ネットワークの使い方• 分析のためのseedを決める– ブランドに興味がありそうなユーザを選ぶ• そのためにbrand actorsを定義しておく。– 特定のブランドに関連したページ、ログインLP、購入完了ページ、などに訪れたユーザブラウザseedのブラウザseedではないブラウザ (candidate nodes)
  8. 8. 2.3 ブランドの近接性∈ ユーザのブランドへの興味をもっているオーディエンスこれを求めたいブランドとの近接性(距離)は、seedノードとの距離で測るものとするネットワークは行列で表せるあるブラウザi=1についてのベクトルr_ijはリンクの重みを示すr_ijを0か1とするのが最もシンプル。そうじゃない方法ももちろんできるc_iをコンテンツとする
  9. 9. ネットワークの隣のオーディエンス(Neighborhood)を示す。ネットワークのbi値が0ではないユーザをseedの隣から選ぶ。その集合を対象オーディエンスとする。(単純に0を無視 -> A全体からだとsparse行列で計算が大変なので、計算しやすくしてる、とも言える。)に関するブランドの近接性を以下のベクトルで示すとするは に関する異なる近接性をしめす要素であるとするは (ブランドのオーディエンス)を選択するために使う。fi: Iqについて近接度を返す関数とりあえずβ0の中でscoreが最大になるブラウザをオーディエンスとして選択するseed
  10. 10. ブランドの近接度をはじき出すために利用した関数 その11. ユニークなコンテンツを踏んだ数で比較2. ユニークなコンテンツを踏んだ最大数で比較3. コサイン類似度で比較
  11. 11. ブランドの近接度をはじき出すために利用した関数 その24. ユークリッド距離が最小になるもの5. seedノードの隣のオーディエンス数の比で比較(Action taker odds)
  12. 12. 3. Evaluation Frameworkβ: 全体β+: (seed nodes)t1にブランド関連行動あったβ+_1t1
  13. 13. 3. Evaluation Frameworkβ: 全体β+: (seed nodes)t1にブランド関連行動あったβ+_1t2β0: (候補ノード)t2でブランド関連行動あったβ+_2
  14. 14. 3. Evaluation Frameworkβ: 全体β+: (seed nodes)t1にブランド関連行動あったβ+_1β0: (候補ノード)t2でブランド関連行動あったβ+_2オーディエンス全体Aについて未来を予測しつつ評価する
  15. 15. 特定のcampaignについてどのように近接性が異なるか• 予算やその他の状況により上位ランクの一部に偏るのではないかと予想した• 受信者操作特性 – Wikipedia– ROC curve– http://ja.wikipedia.org/wiki/%E5%8F%97%E4%BF%A1%E8%80%85%E6%93%8D%E4%BD%9C%E7%89%B9%E6%80%A7• マン・ホイットニーのU検定 - Wikipedia– http://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%B3%E3%83%BB%E3%83%9B%E3%82%A4%E3%83%83%E3%83%88%E3%83%8B%E3%83%BC%E3%81%AEU%E6%A4%9C%E5%AE%9A• スコアリングのシステムがどの程度ランクをできているかどうかを測定することができる• AUC(area under the curve)が高いと選択したオーディエンスがbrand actorsをたくさん密度濃くしていたということを示す– 平たく言うと、分類の性能が良かったということを示す– http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
  16. 16. 4. 結果• 使ったデータ– ソーシャルネットワークのブラウジングデータ– 閲覧の行列は90日のデータを利用– サンプルとして1000万UBをランダムに抽出– 1ブラウザ平均25ページ訪れていた– 行列は10^7 * 10^8の規模になり、rが0ではないエントリは25億個あった• ブランドを2つのグループに– まだ広告を見せてないブランド4つ• Hotel A, Modeling Agency, Credit Report, Auto Insurance– もう広告見せたブランド10つ• Apparel Hiphop, Apparel Athletic, Apparel Women’s, Voip A, Voip B, Airline, HotelB, Electronics A, Electronics B, Cell Phone• 既に広告を見せた影響を受けており、かつ複数のブランドの影響を受けている。また見せた時の反応の違いも含まれている。• 1ブランドにつき平均約100,000シードをもっている(ただし、5,000 –1,000,000までばらつきがある。)seedに割り当てられたユーザは平均で20-40のネットワーク上での隣人がおり、結果として多くて20-40倍のseedを生む。
  17. 17. • group2の方が全体的に高い。Cell Phoneは目立って高い。• group2の結果は広告見た影響が含まれてると予想される。maxCos(N)をみると、広告をみたグループを参考にseedをとっても、良いターゲティングができていることがわかる。なので、この時点で、今回のターゲティングがうまくいっていることが予想できる。
  18. 18. 多変量によるブランド近接性分析候補ブラウザiに関するrankを算出するロジスティック関数。w_pはブランドごとの重みを示している。重みは最尤法によるロジスティック回帰で求められる。トレーニングセットとして、t2でのnon-brand-actorsも取り入れる。MV: トレーニングセットを使ってクロスバリデーションした結果、単一変数と多変数のモデルから見積もったAUCに基づく値
  19. 19. • 多変量にしたほうがやはり一定して結果良い• とはいえmaxUNIと比較すると、最大値よりもさらに改善したわけではない• つまり、top 10%以外のブラウザについても再スコアリングしたのがMVの利点• しかし、ロジスティック回帰がランキングトップのものにフォーカスするような仕組みでは無いので、MVの良いパフォーマンスを引き出したとは言えない• と言いつつも、よりロバストなモデル使えばMVやっぱりもっと良くなると言っている
  20. 20. 4.4 PSA Test• public service announcement (PSA)– ひらたくいうとad exchangeとかから取得できる情報• PSAをもとにユーザのbrand affinityを類推して、それを今回のサンプルブラウザたちをつかって比較してみて効果検証してみましょうというテスト• 結論: ちゃんと効果出てるっぽい
  21. 21. non seed neighborseedではないユーザだとF-AUC高い。neighborの場合、未知のブラウザと比べて80%もfriendが高いランクになる可能性がある。http://ja.wikipedia.org/wiki/受信者操作特性良い感じに検査ができていることがわかる
  22. 22. まとめ• 今回のような手法でブランドのためのオーディエンスを選ぶことはできる• そして実際のソーシャルネットワークの中に存在している関係であるということを示せそう• それはそれとして、プライバシーフレンドリーにやることで解決される問題とかされない問題がある• そもそも倫理観の問題とか• SNSのプロフィールデータ使うのとどのように違うのか、とか

×