位置情報解析のためのプライバシ保護手法    川本 淳平(筑波大学) 佐久間 淳(筑波大学・科学技術振興機構)1                  CSIS DAYS 2012   2012/11/3
動機       ビッグデータ           企業や自治体が大量のデータを保持               GPS情報,購買履歴,メディカルレコード,etc.           これらのデータを解析するメリット         ...
今回注目したトピック       位置情報データ           いつ誰がどこを訪問したのかというデータ           モバイル端末のGPSなどから取得可能       頻出訪問地点セットの抽出問題           よく...
頻出訪問地点セットの抽出におけるプライバシ       解析に用いた位置情報から個人が特定されないこと           訪問地点の組から個人が特定される攻撃を問題とする             訪問履歴(10月31日, 14-15時) ...
頻出訪問地点セットの抽出におけるプライバシ       集合データに対する匿名性           He らの主張†によると どの組合せも最低 k 個存在すべき           組合せの k-匿名性が必要           「渋...
既存手法の問題点       エリアのまとめ方の問題           渋谷と原宿を渋谷区にまとめるなど近いエリアで併合           少数が離れたエリアを訪問した場合どうすべきか?                 訪問履歴(10...
提案手法       問題点のまとめ            一点でも離れた                             その点を含んだ組合せが             点があると                         「...
評価実験            実験に用いたデータ                人の流れデータ†                人々の動きが活発な通勤時間 (6am-8am)                首都圏南西部から 1 万人を...
評価実験の結果           頻出地点の発見には宇野らの LCM† を利用   未匿名化                                                                    2 匿名を保...
まとめと今後の展開    頻出訪問地点の発見におけるプライバシ問題        抑制を用いた既存手法の改良        マイナーなエリアは頻出訪問地点には含まれない        マイナーエリアを予め取り除いても結果には影響しない ...
Upcoming SlideShare
Loading in …5
×

位置情報解析のためのプライバシ保護手法

1,305 views

Published on

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,305
On SlideShare
0
From Embeds
0
Number of Embeds
19
Actions
Shares
0
Downloads
0
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

位置情報解析のためのプライバシ保護手法

  1. 1. 位置情報解析のためのプライバシ保護手法 川本 淳平(筑波大学) 佐久間 淳(筑波大学・科学技術振興機構)1 CSIS DAYS 2012 2012/11/3
  2. 2. 動機 ビッグデータ  企業や自治体が大量のデータを保持  GPS情報,購買履歴,メディカルレコード,etc.  これらのデータを解析するメリット  道路事情(渋滞や事故が多い通りはどこか?) などが効率的に取得  市民の経済活動 可能と期待されている プライバシ問題  個々人のプライバシに関わるデータを含んでいる  誰がいつどこを訪問したのか?  何を買ったのか? etc. 個々人のプライバシに配慮しつつ 社会にとって有益な情報を取得することが求められている 2 CSIS DAYS 2012 2012/11/3
  3. 3. 今回注目したトピック 位置情報データ  いつ誰がどこを訪問したのかというデータ  モバイル端末のGPSなどから取得可能 頻出訪問地点セットの抽出問題  よく訪問されている点の集合を探す  ○○というエリアに行ったことがある人は △△というエリアにも訪れやすい 3 CSIS DAYS 2012 2012/11/3
  4. 4. 頻出訪問地点セットの抽出におけるプライバシ 解析に用いた位置情報から個人が特定されないこと  訪問地点の組から個人が特定される攻撃を問題とする 訪問履歴(10月31日, 14-15時) T1: {東京, 渋谷} T2: {東京, 渋谷, 原宿} T3: {品川, 渋谷} アリスの訪問地点と一致 T4: {品川, 渋谷, 原宿}  攻撃者が 「10月31日にアリスが {東京, 渋谷, 原宿} を訪問」 と知っていると T2 がアリスと特定できてしまう 4 CSIS DAYS 2012 2012/11/3
  5. 5. 頻出訪問地点セットの抽出におけるプライバシ  集合データに対する匿名性  He らの主張†によると どの組合せも最低 k 個存在すべき  組合せの k-匿名性が必要  「渋谷」や「原宿」を「渋谷区」にまとめる 訪問履歴(10月31日, 14-15時) T1: {東京, 渋谷区} アリスの訪問地点と一致 T2: {東京, 渋谷区} T3: {品川, 渋谷区} T4: {品川, 渋谷区} k=2 の例  アリスが T1, T2 のどちらか特定不可能†Yeye He, Jeffrey F. Naughton: Anonymization of Set-Valued Data via Top-Down, LocalGeneralization. PVLDB 2(1): 934-945 (2009) 5 CSIS DAYS 2012 2012/11/3
  6. 6. 既存手法の問題点 エリアのまとめ方の問題  渋谷と原宿を渋谷区にまとめるなど近いエリアで併合  少数が離れたエリアを訪問した場合どうすべきか? 訪問履歴(10月31日, 14-15時) T1: {東京, 渋谷} T2: {東京, 渋谷, 横浜} T3: {品川, 渋谷} T4: {品川, 渋谷, 原宿}  渋谷と横浜を併せる場合  頻出訪問地点を調べた結果が不明瞭になる  東京と渋谷を同時に訪問する人が多いのか?  それとも東京と横浜を同時に訪問する人が多いのか? 6 CSIS DAYS 2012 2012/11/3
  7. 7. 提案手法 問題点のまとめ 一点でも離れた その点を含んだ組合せが 点があると 「k個以上存在すること」を満足させる ために他の密な集団が犠牲になる 基本アイデア  最終的に得たいのは頻出訪問地点の組  少人数が訪れた離れたエリアは予め取り除く  l-抑制: l人未満しか訪れない点を取り除く 7 CSIS DAYS 2012 2012/11/3
  8. 8. 評価実験  実験に用いたデータ  人の流れデータ†  人々の動きが活発な通勤時間 (6am-8am)  首都圏南西部から 1 万人をランダムに抽出  データの形式と事前処理  元データは(日時,緯度,経度)の三つ組み  プライバシ保護のためユーザ識別子は取り除いた  緯度・経度は 2km×2km のグリッドに変換†http://pflow.csis.u-tokyo.ac.jp/index-j.html 8 CSIS DAYS 2012 2012/11/3
  9. 9. 評価実験の結果  頻出地点の発見には宇野らの LCM† を利用 未匿名化 2 匿名を保証 1抑制2匿名 10抑制10匿名 を保証 を保証 msup = 300 同色 = 同じアイテムセット†http://research.nii.ac.jp/~uno/codes-j.htm 9 CSIS DAYS 2012 2012/11/3
  10. 10. まとめと今後の展開 頻出訪問地点の発見におけるプライバシ問題  抑制を用いた既存手法の改良  マイナーなエリアは頻出訪問地点には含まれない  マイナーエリアを予め取り除いても結果には影響しない  人の流れデータを用いた実験によって効果を検証 他の問題への応用を考えている  プライバシを考慮した主導線の発見  プライバシを考慮した渋滞・事故発生地点の発見 10 CSIS DAYS 2012 2012/11/3

×