位置情報解析のためのプライバシ保護手法

位置情報解析のためのプライバシ保護手法

川本淳平(筑波大学) 佐久間淳(筑波大学・科学技術振興機構)

1 CSIS DAYS 2012 2012/11/３

動機
 ビッグデータ
 企業や自治体が大量のデータを保持
 GPS情報，購買履歴，メディカルレコード，etc.
 これらのデータを解析するメリット
 道路事情（渋滞や事故が多い通りはどこか？）
などが効率的に取得
 市民の経済活動可能と期待されている
 プライバシ問題
 個々人のプライバシに関わるデータを含んでいる
 誰がいつどこを訪問したのか？
 何を買ったのか？ etc.

個々人のプライバシに配慮しつつ
社会にとって有益な情報を取得することが求められている

2 CSIS DAYS 2012 2012/11/３

今回注目したトピック
 位置情報データ
 いつ誰がどこを訪問したのかというデータ
 モバイル端末のGPSなどから取得可能

 頻出訪問地点セットの抽出問題
 よく訪問されている点の集合を探す
 ○○というエリアに行ったことがある人は
△△というエリアにも訪れやすい

3 CSIS DAYS 2012 2012/11/３

頻出訪問地点セットの抽出におけるプライバシ
 解析に用いた位置情報から個人が特定されないこと
 訪問地点の組から個人が特定される攻撃を問題とする
訪問履歴（10月31日, 14-15時）
T1: {東京, 渋谷}
T2: {東京, 渋谷, 原宿}
T3: {品川, 渋谷} アリスの訪問地点と一致
T4: {品川, 渋谷, 原宿}

 攻撃者が
「10月31日にアリスが {東京, 渋谷, 原宿} を訪問」
と知っていると T2 がアリスと特定できてしまう

4 CSIS DAYS 2012 2012/11/３

頻出訪問地点セットの抽出におけるプライバシ
 集合データに対する匿名性
 He らの主張†によるとどの組合せも最低 k 個存在すべき
 組合せの k-匿名性が必要
 「渋谷」や「原宿」を「渋谷区」にまとめる

訪問履歴（10月31日, 14-15時）
T1: {東京, 渋谷区}
アリスの訪問地点と一致
T2: {東京, 渋谷区}
T3: {品川, 渋谷区}
T4: {品川, 渋谷区} k=2 の例

 アリスが T1, T2 のどちらか特定不可能
†Yeye He, Jeffrey F. Naughton: Anonymization of Set-Valued Data via Top-Down, Local
Generalization. PVLDB 2(1): 934-945 (2009)
5 CSIS DAYS 2012 2012/11/３

既存手法の問題点
 エリアのまとめ方の問題
 渋谷と原宿を渋谷区にまとめるなど近いエリアで併合
 少数が離れたエリアを訪問した場合どうすべきか？
訪問履歴（10月31日, 14-15時）
T1: {東京, 渋谷}
T2: {東京, 渋谷, 横浜}
T3: {品川, 渋谷}
T4: {品川, 渋谷, 原宿}

 渋谷と横浜を併せる場合
 頻出訪問地点を調べた結果が不明瞭になる
 東京と渋谷を同時に訪問する人が多いのか？
 それとも東京と横浜を同時に訪問する人が多いのか？

6 CSIS DAYS 2012 2012/11/３

提案手法
 問題点のまとめ

一点でも離れた
その点を含んだ組合せが
点があると
「k個以上存在すること」を満足させる
ために他の密な集団が犠牲になる

 基本アイデア
 最終的に得たいのは頻出訪問地点の組
 少人数が訪れた離れたエリアは予め取り除く
 l-抑制: l人未満しか訪れない点を取り除く

7 CSIS DAYS 2012 2012/11/３

評価実験
 実験に用いたデータ
 人の流れデータ†
 人々の動きが活発な通勤時間 (6am-8am)
 首都圏南西部から 1 万人をランダムに抽出

 データの形式と事前処理
 元データは（日時，緯度，経度）の三つ組み
 プライバシ保護のためユーザ識別子は取り除いた
 緯度・経度は 2km×2km のグリッドに変換

†http://pflow.csis.u-tokyo.ac.jp/index-j.html
8 CSIS DAYS 2012 2012/11/３

評価実験の結果
 頻出地点の発見には宇野らの LCM† を利用

未匿名化 2 匿名を保証

1抑制2匿名 10抑制10匿名
を保証を保証

msup = 300
同色 = 同じアイテムセット
†http://research.nii.ac.jp/~uno/codes-j.htm
9 CSIS DAYS 2012 2012/11/３

まとめと今後の展開
 頻出訪問地点の発見におけるプライバシ問題
 抑制を用いた既存手法の改良
 マイナーなエリアは頻出訪問地点には含まれない
 マイナーエリアを予め取り除いても結果には影響しない

 人の流れデータを用いた実験によって効果を検証

 他の問題への応用を考えている
 プライバシを考慮した主導線の発見
 プライバシを考慮した渋滞・事故発生地点の発見

10 CSIS DAYS 2012 2012/11/３

位置情報解析のためのプライバシ保護手法

More Related Content

Similar to 位置情報解析のためのプライバシ保護手法

More from Junpei Kawamoto

位置情報解析のためのプライバシ保護手法