Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

K匿名と濡れ衣

6,975 views

Published on

個人情報保護のキーになる技術として注目されているk-匿名化が、実は困った事柄に関係ない人に疑いをかけてしまう濡れ衣を誘発します。その背景と仕組みを探ってみました。

Published in: Data & Analytics

K匿名と濡れ衣

  1. 1. k-匿名化と濡れ衣 中川裕志 (東京大学)
  2. 2. 「世界最先端IT 国家創造宣言について」 平成25 年6 月14 日閣議決定(抜粋) • 個人情報やプライバシー保護に配慮したパーソナルデータの利 活用のルールを明確化した上で、個人情報保護ガイドラインの 見直し、同意取得手続の標準化等の取組を年内できるだけ早 期に着手 ところが、ショーンベルガー&クキエ等の「ビッグデータの正体」8,9 章によれば、将来サービスの予見は無理である以上、同意取得 じゃダメ。サービス提供側に責任を持たせる法体系を提案 • さらに、2014 年以降に、制度見直し方針に示されたロードマップ に従って、国際的な連携にも配慮しつつ、順次パーソナルデー タ利活用環境を整備し、利活用を推進する。
  3. 3. ところがSuica騒動 • SuicaデータをJR東日本が日立を通して販売し ようとして非難ごうごう • 日立のレポートによれば、 – 個人名の匿名化は当然、 – K-匿名性を使ったり、 – 長距離移動データは出さない、 – 仮名を定期的に変更 • などの対策を立てているというが、それが問 題の本質的解決か?
  4. 4. 匿名化の弱点:link attack • Sweeney [S02a] によれば、Massachussetts州知事の医 療記録が公開情報から特定可能 – MA では、収集した医療データを匿名化して公開している (下図) 左円内 – 一方、選挙の投票者名簿は公開 右円内 • 両者をつきあわせると • 6 人が知事と同じ生年月日 うち3 人が男 うち1 人が同じzipcode 民族 来院日 郵便番号 診断 生年月日 処方 性別 支払額 病院記録 • 1990年の the US 1990 census dataによれば 選挙人名簿 名前 登録日 政党 前回投票履歴 [S02a]より – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
  5. 5. プライバシ保護データマイニング(PPDM) • 閣議決定「個人情報やプライバシー保護に配慮した, 個人情報保護ガイドラインの見直し」の方策として匿 名化がまず考えられる • Link attackの例でも分るように、個人名の匿名化だけ ではsenstiveな情報の保護には不十分。 •  k-匿名化(k人以上が同じ疑似ID:誕生日、性別、 ZIP) 2-匿名化 誕生日 性別 Zipcode 誕生日 性別 Zipcode 21/1/79 男 53715 */1/79 人 5**** 10/1/79 女 55410 */1/79 人 5**** 1/10/44 女 90210 女 90210 21/2/83 男 02274 */*/8* 男 022** 19/4/82 男 02237 */*/8* 男 022** group 1 suppressed 1/10/44 group 2
  6. 6. ところが事態はそう簡単ではない 名前 年齢 性別 住所 N月M日P時の所在 一郎 35 男 文京区本郷XX K消費者金融店舗 次郎 30 男 文京区湯島YY T大学 三子 33 男 文京区弥生ZZ T大学 四郎 39 男 文京区千駄木WW 4-匿名化 Y病院 名前(匿名化) 年齢 性別 住所 N月M日P時の所在 一郎 30代 男 文京区 K消費者金融店舗 次郎 30代 男 文京区 T大学 三子 30代 男 文京区 T大学 四郎 30代 男 文京区 Y病院 次郎、三子、四郎も一郎と区別出来なくなった 結果、4人ともK消費者金融店舗に居たことを 疑われるK-匿名化が誘発する濡れ衣現象
  7. 7. L-多様性を導入するともっと面倒なことになる 名前(匿名化) 年齢 性別 住所 N月M日P時の所在 一郎 30代 男 文京区 K消費者金融店舗 次郎 30代 男 文京区 K消費者金融店舗 三子 30代 男 文京区 K消費者金融店舗 四郎 30代 男 文京区 K消費者金融店舗 個人を入れ替えて2-多様化 これでは4人とも消費者金融に居たことが 露呈 名前(匿名化) 年齢 性別 住所 N月M日P時の所在 一郎 30代 男 文京区 K消費者金融店舗 研次郎 30代 男 文京区 K消費者金融店舗 研三子 30代 男 文京区 K消費者金融店舗 研四郎 30代 男 文京区 T大学 研四郎もK消費者金融に居たのではないかと疑われる L-多様化が誘発する濡れ衣現象
  8. 8. 滞在場所のk-匿名化が濡れ衣 の被害を誘発してしまう K-匿名化の領域: 内部にK人いる 消費者 金融 ショップ
  9. 9. 滞在場所のk-匿名化が濡れ衣 の被害を誘発してしまう K-匿名化の領域: 内部にK人いる この就活中の学生さんは K-匿名化領域内にいるの で、消費者金融に出入り したことを疑われ、不利な ことに。。。 濡れ衣 消費者 金融 ショップ
  10. 10. 濡れ衣とは心理現象 その1 • 以上の問題的を数理モデル化するためには濡 れ衣を数理モデル化する必要あり – ドラッグ、病院、犯罪、浮気などの対象の問題によっ て濡れ衣の酷さの度合いは異なるだろう。 – さらに濡れ衣被害は就活中、婚活中、などにも依存。 – これらは個々に数値化できないので、個人iが対象の 問題Sで疑われた場合の被害額を抽象的にB 𝑖, 𝑆 と 書く。 • ただし、芸能人や政治家など高い個別性がある個人である ことを意識しなくてよい一般人の場合は𝐵 𝑆 とする。
  11. 11. 濡れ衣とは心理現象 その2 • 匿名化されて同一グループに入った k人中、 濡れ衣の対象になる怪しいこと(例えば、消 費者金融ショップに居た)Sに実際当てはまっ た人数をs(>0)とする。このようなグループの 状況を情報文脈 C とする。 • 濡れ衣にあう確率:p(s,k)=1-s/k • ただし、この匿名化されたデータを見た人が Sに疑いを持つ主観確率をp 𝑠𝑢𝑏
  12. 12. 濡れ衣とは心理現象 その3 –ドラッグ売買横行エリアに1000人おり、 そのうち2名が実際ドラッグ売買をして いると、そのエリアに居ただけでは残り 998人のあまり深刻には疑わないだろう –100人中30人がドラッグ売買をしていた ら、残り70人は相当疑われるだろう
  13. 13. 𝑝 𝑠𝑢𝑏 想定被害 第3者がSを疑う 1 主観確率 第3者から見た想 定被害の期待値 第3者からみた予 防の費用の期待値 0 この部分になれば濡れ衣 を被る確率は小さい 𝑝 𝑆, 𝑘 1 この部分になると濡れ衣を 被る確率は大きい
  14. 14. 第3者から見た 想定被害/予防費用の期待値の例 就職活動における採用企業の場合 想定被害=素行の良くない人を採用したときの 会社がうける被害 予防費用=実際は良い人材を採用し損なう損失 インフルエンザにかかる可能性のある人 想定被害=高熱が出たりして、数日、会社を休む 予防費用=2,3時間使って医者に行き、3000円く らいで予防接種を受ける
  15. 15. 𝑝 𝑠𝑢𝑏 想定被害 第3者がSを疑う 主観確率1 第3者から見た想 定被害の期待値 第3者から見た予 防の費用の期待値 0 この部分になれば濡れ衣 を被る確率は小さい 𝑝 𝑆, 𝑘 1 この部分になると濡れ衣を 被る確率は大きい
  16. 16. 問題建物のm-分割が濡れ衣の被害を軽減 K-匿名化の領域を 4分割 消費者 金融 ショップ
  17. 17. 𝑝 𝑠𝑢𝑏 想定被害 1 Sを疑う 主観的確率 想定被害の期待値 予防の費用の期待 値 𝑝 𝑆, 𝑘 0 1  問題事象Sの建物などをm分割した場合  Sの人数が 𝑠 → 𝑠 𝑚 と置き換える。  事象Sを疑う主観的確率 𝑝 𝑠𝑢𝑏 が  𝑠→ 𝑠 𝑚 により、非常に小さくなり、濡れ衣が生じにくくなる。
  18. 18. 今後の課題:全領域における位置情 報を用いる場合の対処方法 • ここまでの最適化問題はk人のグループを同等 に扱っている • 隣接する領域を考慮して最適化する必要 問題自体は全データに対してトップダウンに解くと計 算量は莫大 大規模データに対しては、問題になる建物を分割し て、それぞれの領域を広げていくボトムアップなkー 匿名化領域の形成手法がよさそう。 これらの領域の構造を変化させて解く最適化問題の 近似解法アルゴリズムの開発は今後の課題
  19. 19. 伝えたかったことはこれでおしまい もう少しややこしい数理モデルは このURLの論文 を参照していただけるとありがたいです。

×