Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

匿名加工情報を使えないものか?(改訂版)

4,091 views

Published on

改正された個人情報保護法で導入された匿名加工情報は、個人データの利活用を狙っている仕組みです。しかし、いろいろ制約が多く使いにくいという評判です。せっかくできた概念だし、次の改正までの5年間くらいはお付き合いしなければならないものなので、使える方法をなんとか工夫できないものだろうかと考えてみました。(情報ネットワーク法学会研究大会の議論を経て改訂しました)

Published in: Internet
  • Be the first to comment

匿名加工情報を使えないものか?(改訂版)

  1. 1. 匿名加工情報の 利活用へむけての議論 中川裕志 (東京大学) 2015年11月28,29日の情報ネットワーク 法学会研究大会の議論を経ての改訂版
  2. 2. 個人情報保護改正案で導入された 匿名加工情報とは • 簡単に言えば – 提供元の事業者が個人情報に適当な匿名化加工を施した情 報 – 個人の同意なく第3者に提供できる 事業者にとっては超便 利  個人にとっては超心配 • 提供先(受け取った側)は、個人の再識別を行なってはいけない • 提供先では、個人再識別を目的として – 作成者が削除した記述等や加工方法の取得 – 他の情報と照合 を行なってはいけない。 この部分を読み 落として、過剰 に自己規制す るまじめな業者 が多いのでは ないか。。
  3. 3. 個人情報保護改正案で導入された 匿名加工情報とは  個人にとっては超心配  闇名簿業者にわたるに違 いない!  むしろ、闇をホワイト化したほうがよいのではないか  たとえば アクシオム (公知の優良大企業)  開示要求、訂正要求にすら応じる  ただし、SSNと引き換えだが。。。  むしろ、ID認証の問題か
  4. 4. 巷では評判が悪いが… • 仮名化じゃ匿名加工情報じゃないそうだが、それをだめだ と言われると使えないよ • K-匿名化なら匿名加工情報になるという噂だけど、K=2な ら半分の確率で特定個人の識別できるから、危ないんじゃ ない? • 本人識別のために他の情報と突き合わせちゃいけないそ うだが、本人識別の意図がなくても他の情報と突き合わせ たら本人識別できちゃうかも。 – 怖いから、他の情報と突き合わせられないけど、 – 単独で何ができるというの?平均値の計算くらいかね。
  5. 5. 巷で流れる内容の解釈と意見: 仮名化 • 解釈1:仮名化は匿名加工情報ではない – 仮名化とは、個人ID(氏名など)を乱数で置き換えること – 仮名化ならそれなりに使えると思っていたのにだめな の? – 注:仮名生成は個人IDをハッシュ関数(パラメタ付き)に食 わせて生成。このときハッシュ関数に与えるパラメタを消 去すると、同じ仮名は生成できなくなる •  連結不可能匿名化になる – EUのデータ保護規則(改正案)では、仮名化した個人情 報は重要との認識の下、パーソナルデータの仮名化に関 する自主ルール作成を推奨
  6. 6. EUのデータ保護規則修正案 • 現在、審議中のEUのデータ保護規則の議会 修正案では、仮名データが追加され – 追加情報の利用が伴わなければ特定のデータ主 体に帰属させることができない個人データ – 追加情報は別管理され、不帰属を確実にするた めの技術的及び組織的措置が講じられる場合に 限る – (石井先生の「個人情報保護の現在と未来」より)
  7. 7. 仮名化は一種類ではない: 更新頻度により、個人識別性が変化 仮名 体重 A123 60.0 A123 65.5 A123 70.8 A123 68.5 A123 69.0 仮名 体重 A123 60.0 A123 65.5 B432 70.8 B432 68.5 C789 69.0 仮名 体重 A123 60.0 B234 65.5 C567 70.8 X321 68.5 Y654 69.0 体重 60.0 65.5 70.8 68.5 69.0 同じ • 仮名変更なし • 個人識別性大 • 健康、医療な ど継続的観察 が必要な場合 は仮名変更は しない 仮名 更新 更新 頻度 大 • 仮名変更あり • 更新頻度が高く なると個人識別 性が下がるが、 データの価値減 少 • データごと 仮名変更 • 同一人のデー タであると分 からない。個 人識別性 低 い 無名化 全部、同一の個人のデータですが
  8. 8. • 仮名更新なし仮名化は – 擬似ID以外の部分の個人データが長期に集積して、個人 の一意的絞り込みが容易であるうえに – 特定個人識別も可能性が高いので、同意なし第3者提供 がいかがなものかというのは理解できる。 – 条文からみると個人IDを乱数に変更しても個人識別性は 残るので匿名加工情報には該当しないと読める。 – 実質的な話: • 擬似ID以外の個人データが擬似ID化しなければ 仮名と個人IDの対応表が揃わなければ個人識別できない • 一方、無名化は個人IDを削除しているので、条文の解 釈上も匿名加工情報になるのではないか。 仮名化は更新頻度が高くなると一律に 匿名加工情報でないと割り切っていいのだろうか?
  9. 9. 1レコードの長さに関する留意点 仮名 場所1 場所2 場所3 … A123 港区 渋谷 麻布 … A123 お台場 豊洲 新橋 … A123 … … …. …. A123 xy yz zw … A123 • 仮名変更なし • 個人識別性大 • 長期の滞在場 所が分かると 容易照合性あ り • 仮名消去しても長 期の滞在場所が分 かると容易照合性 あり 無名化 場所1 場所2 場所3 … 港区 渋谷 麻布 … お台場 豊洲 新橋 … … … …. …. xy yz zw … 1行(1レコード)の情報も容易照合性が失われる程度に 短く切断する必要あり。
  10. 10. 無名化 個人ID削除なので 匿名加工情報 更新なし 1データ毎 仮名の更新頻度 仮名化(更新なし) 匿名加工情報ではない 疑似IDなどから個人識 別、同定だからか 匿名加工情報匿名加工情報でない どこかに匿名加工情報 の可否を決める分岐点 があるのではないか?
  11. 11. • すると、仮名更新なし仮名化と無名化の中間にある仮名更新あり仮 名化は、どっちになるのだろうかという疑問が湧きます。 • 無名化以外の仮名化を全てを匿名加工情報でないとすると、データ として有益かつ個人到達性の非常に低い状態なのに、第3者提でき ず、有効利用できないということになってしまい。。。  では、仮に更新頻度での頻繁さで線引きしようとするとどう なるか? – 実際、線引きは難しい問題です。 仮名化は更新頻度が高くなると一律に 匿名加工情報でないと割り切っていいのだろうか?
  12. 12. • では、仮に更新頻度での頻繁さで線引きしようとするとどうなるか? • 更新間隔を時間の長さで決める方法 – 1日単位の仮名更新なら個人到達性が十分低いかどうかはデータの性質 に依存 – データ有用性と更新時間長さが高いかどうかは分野依存 • 更新間隔をデータ個数で決める方法 – たとえば10個のデータごとに仮名更新。 – 有用性との関連は分野次第 • このような点の分野ごとの分析してガイドラインに反映させることは個人 情報保護委員会あるいは認定個人情報保護団体の任務なんでしょう か。。。。 – 仮名化を重視しているEUでこういう議論をしているかどうかを調査する必要 – もちろん、無名化以外は全て匿名加工情報ではないとするのが一番簡単 仮名化は更新頻度が高くなると一律に 匿名加工情報でないと割り切っていいのだろうか?
  13. 13. 医療では継続性の価値が高い • 頻繁な仮名変更は匿名化の強化に役立ちます • が、データ主体である個人の継続的な個人デー タが重要である場合には、データの価値を損な います。 – 例えば、医療データにおいては、特定の個人の医療 データあるいは健康データを継続的に収集し、分析 することによって病気を特定したり、処方薬を選定し たりすることが効果的あるいは必要です。 – とはいえ、医療関係者も仮名の変更を全く拒否して いるわけではないらしい。 – 疾病毎など変更しても役立つケースあり
  14. 14. 仮名更新頻度とデータ利用可値の関係 • 仮名の更新頻度とデータ利用可値は下の図のよう な関係があります。 • ただし、応用分野によって更新頻度が高くてもそこ そこの価値がある場合もあります。 • 次のスライドに簡単に思いつくケーススタディをまと めてみました。 利用価値 更新頻度 更新なし 低い 高い 1データ毎更新 大雑把ですが、各色の例は 交通 購買 医療
  15. 15. 情報カテゴリー 仮名の更新頻度 利用価値 医療情報 更新なし 患者個人の長期病歴や生活習慣とかか る病気の関係を分析できる 更新あり 個人の追跡調査できず。ただし、短期間 の流行把握は可能 運転履歴 更新なし 個人ID収集も同意あり個人の車の状態 を把握して修理アドバイスや運転癖の指 摘できる 個人ID収集も同意なし車と運転癖との 関連のデータ分析
  16. 16. 情報カテゴリー 仮名の更新頻度 利用価値 運転履歴 低頻度 交通流の長期的傾向把握(都市設計など に使える) 1ヶ月単位くらいだと、曜日毎の交通流把 握が可能で、交通規制などに役立つかも しれない 高頻度 短い時間の間の交通流の把握のみ 購買履歴 更新なし 個人ID収集も同意あり行動ターゲッティ ング広告 個人ID収集も同意なし不明 低頻度 個人の長期間にわたる購買傾向。例えば 春にXを買った人は夏にYを買う傾向があ るというようなデータマイニング 高頻度 個人の短期的な購買傾向把握 1データ毎に更新 特定の品物の売れ行き調査
  17. 17. 仮名化でできることは? • 前のスライドの例にあるように、仮名化データでできる ことはおおよそ統計処理 • 当然、個人のプロファイリングにも使えない – プロファイルの類型をデータマイニングして統計データと みなし、別のところから得た個人情報と照合してターゲッ ト広告は可能か? • 一度、統計情報化はされているわけだが – 個人情報保護委員会が決めるのかな – プロファイリングそのものをしたいときには、やっぱり同意 を得て、個人情報そのものを使うしか。 – 仮名化されたデータのトレーサビリティはかなり難しい。ト レーサビリティは名簿屋対策だが、名簿屋以外への負担 が大きい。その負担を立法者は意識していただろうか。。。
  18. 18. IoT パーソナルデータ考察 • IoT: – 自動車運転履歴、移動履歴 – 自宅の家電の状況 – 健康データ • 長期間にわたって継続的にデータが収集される – しかし、大体は数値列なので、意味の理解は困難 – 意味が理解できると危ない – データ主体の行動が知られる場合、 – データ主体の自宅の状況が知られる場合
  19. 19. IoT パーソナルデータ考察 • 収集されているIoTデータの意味を見破られ ると怖い – 頻繁に更新される仮名化は有効な対策か? – IoTデータでは名寄せが怖い – 名寄せを防ぐ能力に高さが匿名加工情報かど うかの基準 – 今後の課題
  20. 20. • 一方、無名化は個人IDを削除しているの – K=2やK=3のK-匿名化より安全 • 更新頻度が頻繁だとむしろ、K=2やK=3のK-匿名化 よりは安全  K-匿名化が匿名加工情報で、仮名化が一律に匿名加工 情報でない  個人到達可能性の観点からは矛盾  仮名化更新頻度とK-匿名化の比較をする数理モデルをま だ見たことがないのがちょっと困るところ  このような分析ができる人材が欲しいところです 仮名化は更新頻度が高くなると一律に 匿名加工情報でないと割り切っていいのだろうか?
  21. 21. • 参考記事にこんなものもあります。 • 「匿名加工情報」でビッグデータビジネスは活性 化するか? ――課題は仮名化データの活用 • http://enterprisezine.jp/iti/detail/7015 仮名化は更新頻度が高くなると一律に 匿名加工情報でないと割り切っていいのだろうか?
  22. 22. K-匿名化データは匿名加工情報か? • 氏名、マイナンバーなどの個人ID以外の(生年 月日、性別、住所)つまり疑似個人IDの精度を粗 くしてK-匿名化すると匿名加工情報という噂があ るが….. – しかし、個人ID,疑似個人ID、以外の滞在場所履歴や 購買履歴、健康状態履歴、などは疑似個人IDになり うる。 • 毎日夜滞在している場所が知られると、正確な住所が露 見 – そこで、滞在場所などの履歴を疑似匿名IDと合わせ てK-匿名化しないと、提供元基準での個人識別不可 能性が達成できない
  23. 23. K-匿名化データは匿名加工情報か? • 氏名、マイナンバーなどの個人ID以外の(生 年月日、性別、住所)つまり疑似個人IDの精 度を粗くしてK-匿名化する – そこで、滞在場所履歴と疑似ID合わせてK-匿名 化したいが、同じ生活をしている人はいないので、 情報の精度を劇的に落とす、ないし抽象化しない とK-匿名化できず – ところが、情報精度が劇的に落ちるとデータの価 値自体が大きく低下
  24. 24. K-匿名化データは匿名加工情報 か??? • 繰り返し書いているが、K=2や3では、形式的 に一意絞込みができない – 提供元基準で個人識別できない(でも1/2, 1/3の 確率では絞り込めている) – これに他の情報との突合せを禁止する条文とす れば匿名加工情報ですよ、という主張 – 提供元がK=10程度にすれば法文上ではなく、実 質的にだいぶ安全になる • だが、情報の精度がさらにガタ落ちになり利用価値も ガタ落ち
  25. 25. 匿名加工情報利用への期待 • 使えないんじゃないの?と評判がいまいちよくな い匿名加工情報ですが、こういった考察と技術 の導入を行うと – 法律運用(ガイドラインかな?)の柔軟性と – 数理モデルの開発や新技術の導入で • ひょっとするとけっこう使えるかもしれません。 • なにしろ、次回の個人情報保護法の改正までは 5年以上はかかりそうなので、少しでも使えるよ うに工夫しておきたいところではないでしょう か?
  26. 26. 加法準同型性公開鍵暗号 • 個人情報は暗号化しても個人情報のまま – 復号鍵(公開鍵暗号の場合は秘密鍵)が存在し ている限りはいつでも元に戻せる – ただし、復号鍵を廃棄したとたんに無意味なビッ ト列になるので、捨てるのが簡単 – したがって、暗号化はあくまでも安全管理措置 • 加法準同型性公開鍵暗号は全く異なる技術 です
  27. 27. 準同型性=暗号化したまま計算できる • 生の個人情報:a,b,…. • 暗号分野では平文という • 暗号化すると E(a),E(b),…. • 加法準同型性公開鍵暗号では次の性質が成り 立ちます。 – E(a)×E(b)=E(a+b)  加法準同型性。これを使うと – E(a)b=E(a×b) – つまり暗号化したままで加算、乗算ができます。
  28. 28. 暗号化したままで平均や分散を計算できます 金額 回数 a1 b1 : : an bn データ提供元 データ提供先 金額 回数 E(a1) E(b1) : : E(an) E(bn) 暗号化 乱数Rを作る N=E(b1) R×・ ・ ・×E(bn)R =E((b1+ ・ ・ ・+bn)×R) M=E(a1)E(b1)R×・ ・ ・×E(an)E(bn)R =E((a1×b1+ ・ ・ ・+an×bn)×R) M2=E(a1) E(a1)E(b1)R×・ ・ ・×E(an) E(an)E(bn)R =E(((a1) 2×b1+ ・ ・ ・+(an) 2×bn)R) 個人1,..,nが買っ た金額と回数 N,M,M2を秘密鍵を持って いるデータ提供元に返送 秘密鍵は持っていない 秘密鍵は保持 D(M), D(M2),D(N) を秘密鍵で復号して 結果を提供先に返送 D(M)/D(N)=(a1×b1+…+an×bn)/(b1+…+bn) =平均値 D(M2)/D(N)= (a1)2×b1+…+(an)2×bn)/(b1+…+bn)  D(M2)/D(N)ー平均値2= 分散
  29. 29. 暗号化したままで平均や分散を計算できます 金額 回数 a1 b1 : : an bn データ提供元 データ提供先 金額 回数 E(a1) E(b1) : : E(an) E(bn) 暗号化 提供されたデータは秘密鍵がな いので、復号できないため只の ビット列=提供元基準で個人識 別不可能なデータ 個人情報を復元できないので、 匿名加工情報とみなすことも可 能ではないか? 個人1,..,nが買っ た金額と回数 秘密鍵は持っていない 秘密鍵は保持 復号結果を提供先に返送 平均や分散が入手できるので、 統計的な推定、検定などもできま す。
  30. 30. 暗号化したままで平均や分散を計算できます データ提供元 データ提供先 金額 回数 E(a1) E(b1) : : E(an) E(bn) 暗号化 乱数Rを作る N=E(b1) R×・ ・ ・×E(bn)R =E((b1+ ・ ・ ・+bn)×R) M=E(a1)E(b1)R×・ ・ ・×E(an)E(bn)R =E((a1×b1+ ・ ・ ・+an×bn)×R) M2=E(a1) E(a1)E(b1)R×・ ・ ・×E(an) E(an)E(bn)R =E(((a1) 2×b1+ ・ ・ ・+(an) 2×bn)R) N,M,M2を秘密鍵を持っているデータ提供元に返送 個人1,..,nが買っ た金額と回数 秘密鍵は持っていない 秘密鍵は保持 D(M), D(M2),D(N) を秘密鍵で復号して 結果を提供先に返送 D(M), D(M2),D(N)には乱数Rがかかっている ので、何を計算しているのか提供元にはわか りません。もっと複雑な計算をしているかもし れませんし。。。 D(M)/D(N)=(a1×b1+…+an×bn)/(b1+…+bn) =平均値 D(M2)/D(N)= (a1)2×b1+…+(an)2×bn)/(b1+…+bn) D(M2)/D(N)ー平均値2=分散
  31. 31. まとめると • 加法準同型公開鍵暗号で暗号化した個人情報 を提供先に渡すが、秘密鍵は渡さないという方 法を使うと – 提供先では、個人IDなどの復元はできないので、個 人識別される心配はない – 提供先で何を計算しているかは、この例のような暗 号化と復号のやりとり(暗号プロトコル)を使うと、提 供元にはわからない • 提供先にとっては企業秘密が守れる安心感あり • 暗号化する個人情報において、個人IDだけは 削除あるいは仮名化しておけば、さらにプライ バシーは堅牢
  32. 32. まとめると • 暗号化する個人情報から個人IDだけは削除あるいは 仮名化しておけば、さらにプライバシーは堅牢 • ただし、公開鍵暗号ですが、公開鍵Kを提供先に教え なければ、他の情報を公開鍵Kで暗号化できないので、 理論的に「提供元データと提供先で保持する他の データとの突合せ」はできません。 • 公開鍵を提供先にも提供する場合 – 個人識別情報を復元してはいけないという38条の法律 的制限が必要でしょう。 – でも、それを守ればかなりいろいろな計算が安全に行え ますね。
  33. 33. まとめると • 暗号化は重たいという批判が付きまとっています • プライバシー保護データマイニングで準同型公開鍵暗 号を使う場合は、機械学習における繰り返し計算のた びに暗号化、復号化などが必要で、非常に遅いのは 事実です。 – 我々の研究ではEMアルゴリズムで1000個くらいのデー タで数時間かかりました。 • が、同一のデータに対する暗号化と復号は1回、多く ても数回に確定しているので、速度もかなり早くなると 期待できます。
  34. 34. 参考:匿名加工情報関連の条文 • 直接全文読むのはしんどいので、ポイントだけ赤字にしてあります。 • (定義)第二条1~8(略) • 9 この法律において「匿名加工情報」とは、次の各号に掲げる個人情報の区分に応じ て当該各号に定める措置を講じて特定の個人を識別することができないように個人情 報を加工して得られる個人に関する情報であって、当該個人情報を復元することがで きないようにしたものをいう。 • 一第一項第一号に該当する個人情報当該個人情報に含まれる記述等の一部を削除 すること(当該一部の記述等を復元することのできる規則性を有しない方法により他の 記述等に置き換えることを含む。)。 • 二第一項第二号に該当する個人情報当該個人情報に含まれる個人識別符号の全部 を削除すること(当該個人識別符号を復元することのできる規則性を有しない方法に より他の記述等に置き換えることを含む。)。 • 10この法律において「匿名加工情報取扱事業者」とは、匿名加工情報を含む情報の集合物であって、特定の匿名加工情報を電 子計算機を用いて検索することができるように体系的に構成したものその他特定の匿名加工情報を容易に検索することができる ように体系的に構成したものとして政令で定めるもの(第三十六条第一項において「匿名加工情報データベース等」という。)を事 業の用に供している者をいう。ただし、第五項各号に掲げる者を除く。
  35. 35. • 第四章個人情報取扱事業者の義務等 • 第二節匿名加工情報取扱事業者等の義務 • (匿名加工情報の作成等) • 第三十六条個人情報取扱事業者は、匿名加工情報(匿名加工情報データ ベース等を構成するものに限る。以下同じ。)を作成するときは、特定の個 人を識別すること及びその作成に用いる個人情報を復元することができな いようにするために必要なものとして個人情報保護委員会規則で定める 基準に従い、当該個人情報を加工しなければならない。 • 2個人情報取扱事業者は、匿名加工情報を作成したときは、その作成に 用いた個人情報から削除した記述等及び個人識別符号並びに前項の規 定により行った加工の方法に関する情報の漏えいを防止するために必要 なものとして個人情報保護委員会規則で定める基準に従い、これらの情 報の安全管理のための措置を講じなければならない。 • (識別行為の禁止) • 第三十八条匿名加工情報取扱事業者は、匿名加工情報を取り扱うに当 たっては、当該匿名加工情報の作成に用いられた個人情報に係る本人を 識別するために、当該個人情報から削除された記述等若しくは個人識別 符号若しくは第三十六条第一項の規定により行われた加工の方法に関す る情報を取得し、又は当該匿名加工情報を他の情報と照合してはならな い。
  36. 36. • (個人情報保護指針) • 第五十三条認定個人情報保護団体は、対象事業者の個人情報等の適 正な取扱いの確保のために、個人情報に係る利用目的の特定、安全管 理のための措置、開示等の請求等に応じる手続その他の事項又は匿名 加工情報に係る作成の方法、その情報の安全管理のための措置その他 の事項に関し、消費者の意見を代表する者その他の関係者の意見を聴 いて、この法律の規定の趣旨に沿った指針(以下「個人情報保護指針」と いう。)を作成するよう努めなければならない。 • 2認定個人情報保護団体は、前項の規定により個人情報保護指針を作 成したときは、個人情報保護委員会規則で定めるところにより、遅滞なく、 当該個人情報保護指針を個人情報保護委員会に届け出なければならな い。これを変更したときも、同様とする。 • 3個人情報保護委員会は、前項の規定による個人情報保護指針の届出 があったときは、個人情報保護委員会規則で定めるところにより、当該個 人情報保護指針を公表しなければならない。 • (命令) • 第五十七条個人情報保護委員会は、この節の規定の施行に必要な限度 において、認定個人情報保護団体に対し、認定業務の実施の方法の改 善、個人情報保護指針の変更その他の必要な措置をとるべき旨を命ず ることができる。

×