Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

WSDM 2016勉強会 Geographic Segmentation via latent factor model

1,935 views

Published on

WSDM 2016勉強会の発表資料
Geographic Segmentation via latent factor model

Published in: Technology
  • Be the first to comment

WSDM 2016勉強会 Geographic Segmentation via latent factor model

  1. 1. WSDM2016勉強会 Geographic segmentation via latent poisson factor model リクルートテクノロジーズ 坪坂 正志 2016/3/17
  2. 2. 背景 • GPS機能を備えた携帯端末の普及により位置情報の数が増えてい る • データはプライバシーの観点から個人レベルではなく、地域レベル での集計になることも多い • 地域AではアプリXが10回, アプリYが30回開かれた, 地域BではアプリXが8回, アプリYが10回開かれたなどの情報 • 本論文ではGeographic segmentationという観測を異なる地理的な領 域にわけ、その観測の潜在構造を同定するタスクを扱う
  3. 3. 課題 • セグメントでの観測と地理的な近さの関係が薄い • Yelpアプリが開かられるのはレストランの近くで地理的な位置は関係ない • 観測数が地域によって異なる • サンフランシスコ市内とサニーベールではアプリが開かれる個数は異なる • 観測数は異なるユーザのものが混じっている • 集計値を利用しているため、異なるユーザのログがまじっているためデータ にノイズが入る これらの問題を解決するため Labeled Poisson model (LPM)を提案
  4. 4. 利用するデータについて • App Usage Data • Yahoo AvitateというAndroid用のランチャーソフトのアプリのログ • Yahoo News Data • Yahoo Homepageのニュースのクリックログ
  5. 5. データの定式化 • 観測データ {𝑋𝑖𝑗} , アイテムiが地域jで何回開かれたか • ラベルデータ : 𝑌𝑧, 𝑌𝑠 , 各アイテムi, 地域jについているカテゴリ • 例えばアプリログであれば • アイテムのカテゴリはNews, Restaurantsなど • 地域のカテゴリはNightlife spot, Restaurantなど
  6. 6. Labeled poisson factor model • アイテムごとに事前トピック確率の計算を行う • 𝛼𝑖 = 𝑆𝐻𝑅𝐼𝑁𝐾 𝛼, 𝑌𝑧𝑖 • 𝜃𝑖~𝐷𝑖𝑟(𝛼𝑖) • 位置ごとに事前トピック確率の計算を行う • 𝛽𝑗 = 𝑆𝐻𝑅𝐼𝑁𝐾 𝛽, 𝑌𝑠𝑗 • 𝜋𝑗~𝐷𝑖𝑟(𝛽𝑗) • 各観測ごとに • 𝑍𝑖𝑗~𝑀𝑢𝑙𝑡𝑖 𝜃𝑖 , 𝑆𝑖𝑗~𝑀𝑢𝑙𝑡𝑖(𝛽𝑗) • 𝑋𝑖𝑗~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 Λ 𝑍 𝑖𝑗,𝑆 𝑖𝑗 ここでSHRINKはラベルがついてるものだけを1,そ うでないものを0にする処理 Labeled LDA(Ramge+, ACL 2009)と同じ処理 Λ 𝑖𝑗~𝐺𝑎𝑚𝑚𝑎(𝑎, 𝑏) この部分については既存ではベクトルの内積で表現 することが多いが本論文では個別に計算する
  7. 7. 実験設定 • ラベルづけについて • アプリ • アイテム : “Productivity”, “News”など24のラベルが存在 • ロケーション : FourSquareで引っ張ってくる, “Restaurant”, “College or University”など10 のラベルが存在 • ニュース • アイテム : 記事のカテゴリを利用、21のラベルが存在 • ロケーション : 郵便番号情報から収入、年齢、世帯数、人口をそれぞれ10段階に離散 かしたものを利用、40のラベルが存在
  8. 8. RMSEによる評価(アプリログ) • アプリを利用頻度の高い100個に限定、地域もサンフランシスコBay areaを100に分割 • 100*100の行列のうち20%を除外して、訓練したモデルで欠損値を予 測する
  9. 9. セグメントの例 • 茶色がschool, 黄色がshopping area, オレンジがhotelを示している
  10. 10. 学習されたパラメータ(Λ 𝑖𝑗)
  11. 11. ニュース記事の場合
  12. 12. まとめ • 地域ごとに集計されたデータをカテゴライズするためのLPFというモ デルを提案した • モデルは従来の座標情報ではなく、その地域に何があるかにもとづ ており、ニュース記事やモバイルアプリの分析にとってはより有用な 情報を得ることができた

×