Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Improving ip geolocation using query logs

896 views

Published on

March 19 ., 2016

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Improving ip geolocation using query logs

  1. 1. WSDM論論⽂文輪輪講 Improving  IP  Geolocation  using  Query  Logs
  2. 2. 研究概要 1.  IPによる地域推定の⼿手法紹介 2.  間違った地域推定によるCTR等の低下効果の調査 3.  IPデータベース3社のGRPデータによる精度度評価 4.  サーチクエリを⽤用いたIP地域推定精度度の向上 –  IPに位置情報を特定できそうな検索索クエリの解析結果を付与 –  クエリ解析結果をスコアリングし、IPに戻す –  プライバシー特定情報については排除 5.  メキシコで170万のUU、7⽇日間で320万の検索索クエリを使って実験 –  CTR等のKPIにどれだけポジティブな効果を与えたか検証 City  LevelのIP地域推定の精度度を検索索クエリを使って向上させる。
  3. 3. 背景:位置情報の⽤用途 •  コンテンツの最適化 –  サイトの最適化 •  クレジットカードの騙し/詐欺防⽌止 –  クレジットカードの詐欺予測アルゴリズムへの活⽤用 •  広告のターゲティング –  アドネットワーク、DSP等 •  法規制/執⾏行行 –  サイバー犯罪における捜査地域の特定 •  地域別版権 –  NetflixやSpotify等、地域によって持っている版権が違う企業 •  ECサイト –  商品/倉庫の最適化 •  地域の営業所活⽤用 –  クルマでいう、メーカーからの販社⽀支援等 Geolocationの⽤用途は、ターゲティングから異異常検出までさまざま。
  4. 4. 背景:位置情報取得の整理理 IPアドレスによる位置情報は、数は多いが、精度が低いものとして位置づけられている。 出典:Mobile  Marke-ng  Assosia-on
  5. 5. 先⾏行行研究での実績 主要⼿手法はNetwork  Delayを⽤用いたものとTopologyを⽤用いたもの また、WEBの来訪データ、ソーシャルグラフを⽤用いたものがある。 Network   Delay   &   Topology Web  Mining →精度はサイトやログによっては1km以内になることも   →位置特定に必要な情報が希少でスケーラビリティがない →どれだけ精緻にしても100km~30kmずれる。   →通信局の密度に精度が依存してしまう。 通信局A 通信局B 通信機 電波の位相差や   到達時間の差によって推定
  6. 6. 検証:誤推定によるCTR/CVRなどへの影響 7⽇日間のBing履履歴で、GPSとの突合により誤推定と判明した検索索結果の パフォーマンスは、正解のものに⽐比べ、⼤大きく悪化することが分かった。 特にLocal  Intent(「水道管工事」等、ローカル性の強いクエリ)では、   極めて高いパフォーマンスの悪化が見られる。   自然検索 検索広告
  7. 7. 検証:既存DB(IPと地域のマッピングテーブル)評価 70%を超えるaccuracyを持つベンダーはおらず、10%を切切ることも。 Vendor  Cのパフォーマンスが他2社に⽐比べて⾼高いが、 途上国では、都市レベルの推定はほとんどされていない。
  8. 8. 検証:既存DB(IPと地域のマッピングテーブル)評価 都市単位の精度度を鑑みると、10km程度度の精度度が求められるが、 ⼀一番良良いベンダーCで2/3程度度。 66.2% 55.3% 41.1%
  9. 9. アプローチ:位置を⽰示唆するクエリログを加えて分析 メインクエリログから位置情報に関わるクエリログのみを取り出し、 各ベンダーのDBと突合を⾏行行うことで、都市推定精度度を向上させる。 ④のGPSデータで検証することで、検証制度度を向上。 IP cookie クエリ Aaaaaaa Xxxxxxxx 東京 店 Bbbbbb Yyyyyyyy 浅草 寺 cccccccc zzzzzzzzz 浅草 大学 ①メインクエリログ ②調整用クエリログ IP cookie クエリ Aaaaaaa Xxxxxxxx 東京 店 Bbbbbb Yyyyyyyy 浅草 寺 cccccccc zzzzzzzzz 浅草 大学 ④GPS突合データ IP 都市(正解) Aaaaaaa 東京 Bbbbbb 横浜 cccccccc 博多 ③各ベンダーDB IP 都市 Aaaaaaa 東京 Bbbbbb 大阪 cccccccc 名古屋
  10. 10. データクレンジング クエリとIPを抜き出し、最終的にIPと推定された地域のデータセットにす る。
  11. 11. チャレンジ:都市のクエリバイアス そもそものクエリ数が多い都市が存在するため、そのバイアスを除く必要 がある。
  12. 12. 評価⽅方法:位置を⽰示唆するクエリログを加えて分析 下記Mentions  Normが0.3以上且つIPInstPercentageが5%以上 のものに限って、クエリログから導き出される地域へと推定結果を変更更。 Local  Men-onsは推定中の地域を示唆するクエリが該当IPで検索された回数   Global  Men-onsは推定中の地域を示唆するクエリが全IPで検索された回数   IP  Instは推定中の地域だとされているIP範囲の中でクエリが紐づいたIPの数。   xとyはパラメータで0~3までを0.1刻みで調整。→バイアス除去 IP範囲の中で、クエリが紐づいたIPの数がどの程度の割合かを検証。
  13. 13. 結果:推定精度度の向上 全てのベンダー、多くの国において精度度が向上。 特に⼀一番推定精度度の低いベンダーBにおいては、倍近くの改善が出来た。 36.1%→58.7%
  14. 14. 結果:API化及び検索索結果への反映 メキシコにおいて、従来のターゲティング⼿手法とABテストを⾏行行った。 5%⽔水準で有意にポジティブな影響が確認できた。
  15. 15. まとめ・展望 •  推定精度が低いものに対し、ある一定水準の精度へ向上させることにつ いては、効果が認められた。   •  通信局の密度が少なくなくなりがちなアジア圏などで、活用が期待される。   •  また、クエリデータだけでなく、ソーシャルやその他のWebデータを用いる ことで、更にIPのマッピング精度を向上させることが出来る。
  16. 16. Appendix
  17. 17. 出典:国土交通省

×