位置情報解析のためのプライバシ保護手法


    川本 淳平(筑波大学) 佐久間 淳(筑波大学・科学技術振興機構)



1                  CSIS DAYS 2012   2012/11/3
動機
       ビッグデータ
           企業や自治体が大量のデータを保持
               GPS情報,購買履歴,メディカルレコード,etc.
           これらのデータを解析するメリット
               道路事情(渋滞や事故が多い通りはどこか?)
                                      などが効率的に取得
               市民の経済活動               可能と期待されている
       プライバシ問題
           個々人のプライバシに関わるデータを含んでいる
               誰がいつどこを訪問したのか?
               何を買ったのか? etc.

                 個々人のプライバシに配慮しつつ
                 社会にとって有益な情報を取得することが求められている

    2                          CSIS DAYS 2012   2012/11/3
今回注目したトピック
       位置情報データ
           いつ誰がどこを訪問したのかというデータ
           モバイル端末のGPSなどから取得可能

       頻出訪問地点セットの抽出問題
           よく訪問されている点の集合を探す
           ○○というエリアに行ったことがある人は
            △△というエリアにも訪れやすい




    3                   CSIS DAYS 2012   2012/11/3
頻出訪問地点セットの抽出におけるプライバシ
       解析に用いた位置情報から個人が特定されないこと
           訪問地点の組から個人が特定される攻撃を問題とする
             訪問履歴(10月31日, 14-15時)
            T1: {東京, 渋谷}
            T2: {東京, 渋谷, 原宿}
            T3: {品川, 渋谷}             アリスの訪問地点と一致
            T4: {品川, 渋谷, 原宿}


           攻撃者が
            「10月31日にアリスが {東京, 渋谷, 原宿} を訪問」
            と知っていると T2 がアリスと特定できてしまう


    4                          CSIS DAYS 2012   2012/11/3
頻出訪問地点セットの抽出におけるプライバシ
       集合データに対する匿名性
           He らの主張†によると どの組合せも最低 k 個存在すべき
           組合せの k-匿名性が必要
           「渋谷」や「原宿」を「渋谷区」にまとめる

              訪問履歴(10月31日, 14-15時)
            T1: {東京, 渋谷区}
                                                         アリスの訪問地点と一致
            T2: {東京, 渋谷区}
            T3: {品川, 渋谷区}
            T4: {品川, 渋谷区}                                                       k=2 の例

           アリスが T1, T2 のどちらか特定不可能
†Yeye He, Jeffrey F. Naughton: Anonymization of Set-Valued Data via Top-Down, Local
Generalization. PVLDB 2(1): 934-945 (2009)
      5                                            CSIS DAYS 2012 2012/11/3
既存手法の問題点
       エリアのまとめ方の問題
           渋谷と原宿を渋谷区にまとめるなど近いエリアで併合
           少数が離れたエリアを訪問した場合どうすべきか?
                 訪問履歴(10月31日, 14-15時)
                T1: {東京, 渋谷}
                T2: {東京, 渋谷, 横浜}
                T3: {品川, 渋谷}
                T4: {品川, 渋谷, 原宿}

           渋谷と横浜を併せる場合
               頻出訪問地点を調べた結果が不明瞭になる
               東京と渋谷を同時に訪問する人が多いのか?
               それとも東京と横浜を同時に訪問する人が多いのか?

    6                              CSIS DAYS 2012   2012/11/3
提案手法
       問題点のまとめ



            一点でも離れた
                             その点を含んだ組合せが
             点があると
                         「k個以上存在すること」を満足させる
                          ために他の密な集団が犠牲になる


       基本アイデア
           最終的に得たいのは頻出訪問地点の組
           少人数が訪れた離れたエリアは予め取り除く
           l-抑制: l人未満しか訪れない点を取り除く


    7                    CSIS DAYS 2012   2012/11/3
評価実験
            実験に用いたデータ
                人の流れデータ†
                人々の動きが活発な通勤時間 (6am-8am)
                首都圏南西部から 1 万人をランダムに抽出

            データの形式と事前処理
                元データは(日時,緯度,経度)の三つ組み
                    プライバシ保護のためユーザ識別子は取り除いた
                緯度・経度は 2km×2km のグリッドに変換



†http://pflow.csis.u-tokyo.ac.jp/index-j.html
         8                                      CSIS DAYS 2012   2012/11/3
評価実験の結果
           頻出地点の発見には宇野らの LCM† を利用


   未匿名化                                                                    2 匿名を保証




  1抑制2匿名                                                                   10抑制10匿名
   を保証                                                                       を保証


                                                                           msup = 300
                                                    同色 = 同じアイテムセット
†http://research.nii.ac.jp/~uno/codes-j.htm
        9                                     CSIS DAYS 2012   2012/11/3
まとめと今後の展開
    頻出訪問地点の発見におけるプライバシ問題
        抑制を用いた既存手法の改良
        マイナーなエリアは頻出訪問地点には含まれない
        マイナーエリアを予め取り除いても結果には影響しない

        人の流れデータを用いた実験によって効果を検証


    他の問題への応用を考えている
        プライバシを考慮した主導線の発見
        プライバシを考慮した渋滞・事故発生地点の発見


    10               CSIS DAYS 2012   2012/11/3

位置情報解析のためのプライバシ保護手法

  • 1.
    位置情報解析のためのプライバシ保護手法 川本 淳平(筑波大学) 佐久間 淳(筑波大学・科学技術振興機構) 1 CSIS DAYS 2012 2012/11/3
  • 2.
    動機  ビッグデータ  企業や自治体が大量のデータを保持  GPS情報,購買履歴,メディカルレコード,etc.  これらのデータを解析するメリット  道路事情(渋滞や事故が多い通りはどこか?) などが効率的に取得  市民の経済活動 可能と期待されている  プライバシ問題  個々人のプライバシに関わるデータを含んでいる  誰がいつどこを訪問したのか?  何を買ったのか? etc. 個々人のプライバシに配慮しつつ 社会にとって有益な情報を取得することが求められている 2 CSIS DAYS 2012 2012/11/3
  • 3.
    今回注目したトピック  位置情報データ  いつ誰がどこを訪問したのかというデータ  モバイル端末のGPSなどから取得可能  頻出訪問地点セットの抽出問題  よく訪問されている点の集合を探す  ○○というエリアに行ったことがある人は △△というエリアにも訪れやすい 3 CSIS DAYS 2012 2012/11/3
  • 4.
    頻出訪問地点セットの抽出におけるプライバシ  解析に用いた位置情報から個人が特定されないこと  訪問地点の組から個人が特定される攻撃を問題とする 訪問履歴(10月31日, 14-15時) T1: {東京, 渋谷} T2: {東京, 渋谷, 原宿} T3: {品川, 渋谷} アリスの訪問地点と一致 T4: {品川, 渋谷, 原宿}  攻撃者が 「10月31日にアリスが {東京, 渋谷, 原宿} を訪問」 と知っていると T2 がアリスと特定できてしまう 4 CSIS DAYS 2012 2012/11/3
  • 5.
    頻出訪問地点セットの抽出におけるプライバシ  集合データに対する匿名性  He らの主張†によると どの組合せも最低 k 個存在すべき  組合せの k-匿名性が必要  「渋谷」や「原宿」を「渋谷区」にまとめる 訪問履歴(10月31日, 14-15時) T1: {東京, 渋谷区} アリスの訪問地点と一致 T2: {東京, 渋谷区} T3: {品川, 渋谷区} T4: {品川, 渋谷区} k=2 の例  アリスが T1, T2 のどちらか特定不可能 †Yeye He, Jeffrey F. Naughton: Anonymization of Set-Valued Data via Top-Down, Local Generalization. PVLDB 2(1): 934-945 (2009) 5 CSIS DAYS 2012 2012/11/3
  • 6.
    既存手法の問題点  エリアのまとめ方の問題  渋谷と原宿を渋谷区にまとめるなど近いエリアで併合  少数が離れたエリアを訪問した場合どうすべきか? 訪問履歴(10月31日, 14-15時) T1: {東京, 渋谷} T2: {東京, 渋谷, 横浜} T3: {品川, 渋谷} T4: {品川, 渋谷, 原宿}  渋谷と横浜を併せる場合  頻出訪問地点を調べた結果が不明瞭になる  東京と渋谷を同時に訪問する人が多いのか?  それとも東京と横浜を同時に訪問する人が多いのか? 6 CSIS DAYS 2012 2012/11/3
  • 7.
    提案手法  問題点のまとめ 一点でも離れた その点を含んだ組合せが 点があると 「k個以上存在すること」を満足させる ために他の密な集団が犠牲になる  基本アイデア  最終的に得たいのは頻出訪問地点の組  少人数が訪れた離れたエリアは予め取り除く  l-抑制: l人未満しか訪れない点を取り除く 7 CSIS DAYS 2012 2012/11/3
  • 8.
    評価実験  実験に用いたデータ  人の流れデータ†  人々の動きが活発な通勤時間 (6am-8am)  首都圏南西部から 1 万人をランダムに抽出  データの形式と事前処理  元データは(日時,緯度,経度)の三つ組み  プライバシ保護のためユーザ識別子は取り除いた  緯度・経度は 2km×2km のグリッドに変換 †http://pflow.csis.u-tokyo.ac.jp/index-j.html 8 CSIS DAYS 2012 2012/11/3
  • 9.
    評価実験の結果  頻出地点の発見には宇野らの LCM† を利用 未匿名化 2 匿名を保証 1抑制2匿名 10抑制10匿名 を保証 を保証 msup = 300 同色 = 同じアイテムセット †http://research.nii.ac.jp/~uno/codes-j.htm 9 CSIS DAYS 2012 2012/11/3
  • 10.
    まとめと今後の展開  頻出訪問地点の発見におけるプライバシ問題  抑制を用いた既存手法の改良  マイナーなエリアは頻出訪問地点には含まれない  マイナーエリアを予め取り除いても結果には影響しない  人の流れデータを用いた実験によって効果を検証  他の問題への応用を考えている  プライバシを考慮した主導線の発見  プライバシを考慮した渋滞・事故発生地点の発見 10 CSIS DAYS 2012 2012/11/3