2014人工知能学会大会および情報処理学会EIP研究会発表資料

1,459 views
1,345 views

Published on

2014人工知能学会大会および情報処理学会EIP研究会で発表した内容を統合してちょい足ししたもの。
実は「匿名化したデータ消してもらえるの?」の改訂版です。
重要な改訂ポイントは、パーソナルデータのデータベースの特定の個人データが格納されているかどうかが知られているかどうかというこれまで見過ごされてきた感がある部分の分析です。とくに、格納の有無が(1)完全に知られない場合、(2)確率的に知られる場合、(3)確定的に知られる場合、の場合分けとそれらの場合の分析です。

Published in: Engineering
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,459
On SlideShare
0
From Embeds
0
Number of Embeds
145
Actions
Shares
0
Downloads
30
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

2014人工知能学会大会および情報処理学会EIP研究会発表資料

  1. 1. 匿名化の実社会での利用に 向けての技術課題 人工知能学会大会 および 情報処理学会EIP研究会 で発表した内容を統合してちょい足ししたもの。 実は「匿名化したデータ消してもらえるの?」の改訂版です。 中川裕志
  2. 2. 発表の骨子  匿名化を現実社会で使うにあたっての技術課題,制 度設計について検討してみるために、海外事情を眺 めると – EU Data Protection Directive 2014/3/12 – REPORT TO THE PRESIDENT BIG DATA AND PRIVACY, USA, 2014/5  最近の上記の動向において、匿名化に加えて、自己 情報コントロール(忘れられる権利、あるいは開示、訂 正、消去の要求できる権利)が明記されてきている。 OPT-OUT との関係について後で述べます。 パーソナルデータに関連する法制度に関しては、日本は不十分 であるとして、EUからはゲノム情報などの有用な情報の輸入を禁 止されている
  3. 3. FTC3要件 1. データ事業者はそのデータの非識別化を確保するた めに合理的な措置を講ずるべき 2. データ事業者は、そのデータを非識別化された形態 で保有及び利用し、そのデータの再識別化を試みな いことを、公に約束すべき 3. データ事業者が非識別化されたデータを他の事業者 に提供する場合には、それがサービス提供事業者で あろうとその他の第三者であろうと、その事業者が データの再識別化を試みることを契約で禁止 • ※個人を識別可能なデータと、ここで説明した非識別 化のための措置を講じたデータの双方を保有及び利 用する場合には、これらのデータは別々に保管すべき 第3者への提供が前提になっています。
  4. 4. ◆匿名化が有効な場合は? ◆匿名化された個人データは消 去してもらえますか? 国内では、個人情報保護法の改正に向けて、 パーソナルデータの匿名化による利活用の 方向性で検討が進んでいます。 そうなると、考えるべきことは以下の2つです。
  5. 5. ◆匿名化が有力なケースの分析 • a.疑似ID(住所、年齢、性別などの典型的な もの)の有無 • b.III.の「それ以外の情報」がデータベース への登録されていることが外部者に確定的に 知られているかどうか?(可知/不可知) III.それ以外の情報 疑似ID無 疑似ID有 外部不可知 不可知 & 疑IDなし 不可知 & 疑IDあり 外部可知 可知 & 疑IDなし 可知 & 疑IDあり この視点が今まで軽視されていたようです。
  6. 6. 不可知ー確率的可知ー確定的可知 • 外部から当該情報の収集を観察可能   データベースに格納されていることが知られる = 可知 例えばSuicaデータや購買履歴はその人の挙動を観察できます。 確定的な可知=観察可能な全データからなるデータベー ス OPT-OUTできると、確率的可知ですが、OPT-OUT時点が不明 なら OPT-OUT以前のデータを消去しない場合は確定的可知 確率的な可知=サンプリングなどによって作れられた データベース:ある個人データがデータベースに入ってい るかどうかは確率的にしか分からない
  7. 7. k-匿名化されたデータベース 確定的/確率的可知 サンプリングとk-匿名化 • データ処理業者が収集した個人データを保護するには – 全データからランダムサンプリングしたデータベースを使ってマ イニング処理、あるいは第3者に渡す – 全データから、疑似IDの情報を粗くすることでk-匿名化した データベースを使ってマイニング処理、あるいは第3者に渡す という方法があります。 全員のデータベース サンプリング された データベース ある割合で少数 をランダムサン プル =確率的可知 疑似IDの精度を粗 くして、同じ疑似ID の人がk-人以上い るように変換 =確定的可知
  8. 8. 匿名化が有力なケースの詳細分析 III.それ以外の情報 疑似ID無 疑似ID有 外部不可知 不可知 & 疑IDなし 個人データではない 不可知 & 疑IDあり k-匿名化が有効 外部確率的可知 確率的可知 & 疑IDなし その他データが疑似ID 化する場合は問題。サン プリング率などに依存:D Pによる評価が必要(課 題) 確率的可知 & 疑IDあり サンプリング率に加えて疑 似IDの詳細さ(データ収集時 刻の精度)等に依存。k-匿名 化もある程度有効:DPでの 評価(課題) 外部確定的可知 確定的可知 & 疑IDなし 同上。行動履歴など疑 似IDとみなせる場合、k- 匿名化でデータ価値大 幅減非現実的 確定的可知 & 疑IDあり 同左
  9. 9. 以上をまとめると 外部からデータ収集していることを観察でき る場合は、k-匿名化はデータの価値をさげる ため、有力な匿名化手法ではない。 外部からデータ収集していることを観察でき ない場合は、疑似IDがなければk-匿名化は 不要、疑似IDがあれば疑似ID を対象にしたk- 匿名化が有力となる。
  10. 10. ◆匿名化された個人データの 開示、訂正、消去に関する疑問 • Webサービスやアプリソフトを申し込むとき、 • 「あなたの個人データは匿名化しているので安 全です。また、あなたからのご希望があれば、あ なたのデータの開示、訂正、消去に応じます。」 • と契約文書に書いてあったので「同意します」を クリックしたんだ。 • でも、匿名化されたら自分のデータだっていうこ とがもう分からないわけだから、開示、訂正、消 去ができるってなんだかおかしくない?
  11. 11. 個人データを収集したデータ事業者は、仮名化し、対応表を持って いるので、匿名化された個人データの開示、訂正、消去はできます。 匿名化の安全性を高めるには、個人1人に多数の仮名をつけます。(1時間毎に異 なる仮名に更新など). この場合も面倒くさいけど、 これらの対応を使えばできます 個人ID(氏名など) その他の個人データ 個人ID (氏名など) 仮名 (A123B など) 仮名 (A123B など) その他の個人データ この(個人ID、仮 名)の対応表は 厳重に管理 データ利活用(マイニン グ)はこっちのレコードだけ で行うので安全 個人からの要請による 開示、訂正、消去は仮名 で対応付けすればできる 個人ID (氏名など) 仮名:A123B4 仮名:C1263B 仮名:X91234 仮名:Z12345 仮名:A123B4 その他の個人データ:1 仮名:C1263B その他の個人データ:2 仮名:X91234 その他の個人データ:3 仮名:Z12345 その他の個人データ:4 2個のレコードに分解
  12. 12. その他の個人データが事態を複雑化します その他の個人データに個人を示唆するものが含 まれていないデータなら、今までの議論でめでた しめでたしですが その他の個人データは、個人の識別や特定がで きる疑似IDというものになり得るので、事態が複 雑になります。 以下の2種類の捉え方があります。 古典的な捉え方:疑似ID+外部から観察できな い個人データ 新しい捉え方:外部から観察できる個人の行動 データ
  13. 13. 古典的な捉え方: 疑似ID+外部から観察できない個人データ 個人ID 疑似ID 機微情報 その他情報 氏名 住所、年齢、性別 病名、など 趣味、など 個人ID 仮名 氏名 a123x 仮名 疑似ID 機微情報 その他情報 a123x 住所、年齢、性別 病名、など 趣味、など 分離 他のデータベース 疑似IDと個人IDを含む 疑似IDと他のデータベースを突き 合わせると個人IDが知られてしま う危険性があります。  疑似IDの記述を粗くしてデー タベース中に同じ疑似IDを持 つ人がk人以上いるようにした のがk-匿名化です。
  14. 14. 古典的な捉え方の場合の自己情報コントロール: 開示 (仮名、疑似ID,機微情報)が別の業者に 渡っている場合は厄介です。 別の業者が何らかの外部情報や他のデータ ベースと疑似IDを突き合わせると個人の特定 もできそうです。
  15. 15. データ 収集 した会社 データ収集した事業者が個人データを第3者の転売、再配布するときは、 当然、(仮名、その他の個人データ)のレコードだけしか渡さないですよね。 なるほど。でもこれだけの仮名をまとめて別会社に開示を要求したら、個人データ 1から4が全部同じ人のデータだと分かってしまい、まずくないですか? この(個人ID、仮名)の対応表 は厳重に管理し他者に渡さない ので別の業者は開示、訂正、消 去すべきデータが分からない! 個人ID (氏名など) 仮名:A123B4 仮名:C1263B 仮名:X91234 仮名:Z12345 仮名:A123B4 その他の個人データ:1 仮名:C1263B その他の個人データ:2 仮名:X91234 その他の個人データ:3 仮名:Z12345 その他の個人データ:4 別の会社 この会社に渡されたのは これだけ 仮名:A123B4 仮名:C1263B 仮名:X91234 仮名:Z12345 その他の個人データ:1 その他の個人データ:2 その他の個人データ:3 その他の個人データ:4 そういう危険性はたしかにありま すね。対策としては、別の人の仮 名も適当に混ぜて、別の会社に 質問すれば、危険性は緩和でき ます。
  16. 16. 古典的な捉え方の場合の自己情報コントロール: 開示の危険回避 (他人のデータを混ぜる方法は使えます。 仮名を頻繁に更新し、さらに複数の人の仮名 も混ぜて開示要求を別業者に出せば、個人を 識別されにくくなります。
  17. 17. 訂正に関しては、訂正すべき個人の(仮名、個人 データ)のペアを別業者に渡して訂正依頼すれ ばよい。 つまり同一個人の全データを見ないのは良いことで すが、 部分的にせよ訂正要求が1個人のものだと分かるの はうれしくない。 かといって、別人の訂正要求を混ぜるわけにはいか ない 別人は訂正要求しているわけではないですから 一方、訂正要求には速やかに応える必要があるので、別人 の訂正要求が来るまで待ってから、それらを混ぜて要求を 出すのも、ちょっとやりくい。 古典的な捉え方の場合の自己情報コントロール: 訂正、消去
  18. 18. 消去の場合も別の業者に消去すべき個人の (仮名、個人データ)を全て渡します。 消去の場合も、データベースの変更が起こる ので、他人のデータを混ぜて消去要求はでき ないので、1人のデータであることを知られる 危険性は高くなります。 本当に消去したかどうかをチェックすることは困難 です。契約か法律によって保証するしかないで しょう。 古典的な捉え方の場合の自己情報コントロール: 訂正、消去
  19. 19.  第3者に渡った場合、第3者のデータの現状を知りたいですよね。  k-匿名でもデータ源の個人からの開示要求には対応可能です。  つまり、データ収集業者がデータを渡した第3者にk-匿名化で同 じ疑似IDの人のデータを全員分を返送させ、自分の対応表で 開示要求した人のデータだけ取り出して回答すればよい。  (下図は3-匿名の例:疑似IDの値は3人とも同じ xxx) 古典的な捉え方の場合の自己情報コントロール: k-匿名化は使えるか? 開示要求の場合 個人ID 仮名 山田 a12 山川 b23 山下 c34 仮名 疑似ID 機微情報など a12 xxx インフル b23 xxx 高血圧 c34 xxx 盲腸 データ収集業者 A データ収集業者Aから3-匿名化データをも らった業者B 山田 ① 開 示 要 求 ②この3人 (A12,B23, C34)の データを質 問 ④3人分の病名のうち、山田(= A12)のデータを山田君に開示 ③3人のデータ を返す
  20. 20. 古典的な捉え方の場合の自己情報コントロール: k-匿名化は使えるか? 消去要求の場合 個人ID 仮名 山川 b23 山下 c34 仮名 疑似ID 機微情報など b23 xxx 高血圧 c34 xxx 盲腸 データ収集業者 A: 2-匿名化 ①消去要求 山下です が、消去し てください 2-匿名化が崩れてしまいます。  1-匿名化?匿名化ではない! k-匿名化も再計算? Oh ,NO! OPT-OUTによって、個人データが収集されなくなる場合と似ています。 ただし、OPT-OUT以前のデータが残るなら、消去とはなりません。 もし、OPTーOUT以前のデータも消去するなら、ここでの議論と同じ状況になります。
  21. 21. k-匿名化のもっと深刻な問題 • ある人のデータを消去するとk-匿名化が崩れてしまい ますね! • 2-匿名化だと、1人のデータが消去されたら、残った1 名は1-匿名化、つまり一意的になります危険  対策1:k-匿名化を全データに対してやり直して再配 布。手間が大変すぎます。  対策2:k-匿名化が崩れたk-人のグループはまとめて 削除 データマイニングの精度への影響は検討課題  対策3:k+α-匿名化のデータにしておけば、α人消去さ れてもk-匿名化は崩れません。 ただし、αが大きくなると、データに質が劣化します。
  22. 22. 新しい捉え方: 外部から観察できる個人の行動データ • 移動履歴(駅での乗降履歴や自動車の移動情報など)、購買履歴(売店、時刻、購 買物) などは、他人から観測できる行動であるので、長期間のデータが集積すると個人を特 定できる可能性がある。  2,3日でも十分に長期間の場合もあります。  疑似IDと見なせるので、大変です。  移動履歴は個人IDとして自己情報コントロールの対象にする考え方がEUでは出て きました。 • Opinion 13/2011 on Geolocation services on smart mobile WP 185 (16.05.2011) http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion- recommendation/files/2011/wp185_en.pdf 個人ID 疑似ID 疑似IDと見なせる情報 その他情報 氏名 住所、年齢 移動履歴、購買履歴など 趣味、など 個人ID 仮名 氏名 a123x 仮名 疑似ID 疑似IDと見なせる情報 その他情報 a123x 住所、年齢 移動履歴、購買履歴など 趣味、など
  23. 23. しかし、個人データが連続的な行動履歴 は従来の考え方でよいでしょうか? • 移動履歴や行動履歴のような長い時間にわ たる連続的ないし断続的な個人データは一 意性が非常に高いので、そもそもk-匿名性な どの従来の方法が有効か疑問です。 • 仮名化を頻繁に行うことが推奨されるかもし れませんが、もっと根本的なところを考え直し てみたい気がします。
  24. 24. 移動履歴の2つの見方 場所(駅名 など) A B C D E F G 個 人 I D ( 氏 名 な ど ) 伊藤 1 1 1 1 加藤 1 1 1 田中 1 1 1 山下 1 1 1 渡辺 1 1 1 列和 3 3 2 2 2 1 3 移動経路 A-B A-C B-D C-D B-E D-G E-G C-F 個 人 I D ( 氏 名 な ど ) 伊藤 1 1 1 加藤 1 1 田中 1 1 山下 1 1 渡辺 1 1 列和 2 1 1 1 2 2 1 1 A B C D G F E 伊藤さんの経路
  25. 25. 公開あるいは再配布、転売しても安 全なのは列和という統計データです • 移動履歴の2つの見方、どちらでも列和だけを 公開、転売してもかなり安全です。 • 列和の成分で1の成分があると危険 – 滞在地や移動経路単位が一意的なので外部観察さ れると個人特定ができる可能性があります。 列和成分の最小値がk以上になるようなグルー プ化をしたデータで、列和を公開、再配布すれば、 最悪でもk-匿名性以上の効果あります。 – 前のページの例で調べると次のページのようになる
  26. 26. 移動履歴の2つの見方 場所(駅名 など) A B C D E F G 個 人 I D ( 氏 名 な ど ) 伊藤 1 1 1 1 加藤 1 1 1 田中 1 1 1 山下 1 1 1 渡辺 1 1 1 列和 3 3 2 2 2 1 3 移動経路 A-B A-C B-D C-D B-E D-G E-G C-F 個 人 I D ( 氏 名 な ど ) 伊藤 1 1 1 加藤 1 1 田中 1 1 山下 1 1 渡辺 1 1 列和 2 1 1 1 2 2 1 1 A B C D G F E 田中を追い出せば、 列和 ≥ 2 誰を追い出しても 列和 ≥ 2 にならない。む しろ、グループの人数を増 やすべきでしょう。 列和 ≥ k という条件を満たすには、場所データのほうが 移動経路データより少ない人数のグループでよさそうなの で、データ精度も高いようです。
  27. 27. k-匿名化データの訂正と消去の困難さ • この場合は、行動履歴データ自体が疑似IDとなので、 訂正でも消去でもk-匿名化が崩れる可能性がありま す。 – 作り直しは大変すぎ。 – 1人消去したら残りのk-1人も使えないので、まとめて削除 しかないです。しかし、残りのk-1人の中の人から開示要 求があると「データなし」と回答しなくてはならず、やや問 題かもしれないです。 – 行動履歴の場合は1人行動履歴を訂正すると、 k-匿名化 が崩れる可能性があります。 – 仮名を頻繁に更新し、個々の仮名に対してk-匿名化して あるなら、削除したときの被害は小さくなります。 – k+α-匿名化 ですが、k人にα人追加によるデータの質の 劣化はもっと深刻でしょう。
  28. 28. 公開あるいは再配布、転売しても 安全なのは統計データ+雑音だが • 移動履歴の2つの見方、どちらでも列和だけを公開、転売してもか なり安全です。 • さらに、列和に雑音を加算する方法があります。これは差分プライ バシーとして質問への答えに雑音加算する方法に似ています。 • ただし、ここでは元のデータに雑音を加えるので、処理結果にバイ アスがあることが問題です。 • また、第3者に渡したのが雑音入りのデータですから開示、訂正の 要求をしにくくなります。 • むしろ、第3者へ渡すのはランダムサンプリングされた一部のデー タとする方法が有力かもしれません。 – サンプルデータとk-匿名化の関係は2012年にACMで論文が発表され ました。 • http://dl.acm.org/citation.cfm?id=2414474
  29. 29. 以上述べたように行動履歴データを再配布、転売 する場合は、困難なので信頼できるところを探す • Cavoukianが提案した BigPrivacyのTrsut Frameworkように契約によって再識別、再特定 (re-idenfication)しないという解しかないのでしょ うか? – だが、信頼できる強力なデータ集積センター (Personal Cloud)が必要なのです。 • 第三者機関との関係 – 公的な第三者機関なら、お上を信じる日本人がお墨 付きを信じるかもしれません。でも事件が起きたら第 三者機関も安全性の説明責任を問われますよね え。。。
  30. 30. 一応のまとめ ◆匿名化された個人データは消去してもらえます か?  仮名を使えば、第3者に提供された場合でも開 示、訂正、消去は可能です。  ただし、識別の危険性があります。  k-匿名化の場合はk-匿名化の崩壊、再計算など の困難さが伴います。  アンチk-匿名な雰囲気があります。
  31. 31. その他の研究 ここで述べたことは、匿名性とデータ公開(主に 第三者提供)の関係を開示、訂正、消去の観点 からの話です。 行動履歴に関しては、データベースへの外部者 から質問へ答えるという利用もあり、その場合は 差分プライバシーを利用する研究が数多く提案 されています。 暗号化のアプローチもありますが、鍵の管理の 問題などがあり、データ公開とは違う局面の技 術なので、ここでは触れませんでした。

×