SlideShare a Scribd company logo
1 of 25
Download to read offline
匿名化された個人データは消去
してもらえますか?
中川裕志
(東京大学)
匿名化された個人データの
開示、訂正、消去に関する疑問
• Webサービスやアプリソフトを申し込むとき、
• 「あなたの個人データは匿名化しているので安全です。また、
あなたからのご希望があれば、あなたのデータの開示、訂正、
消去に応じます。」
• と契約文書に書いてあったので「同意します」をクリックした
んだ。
• でも、匿名化されたら自分のデータだっていうことがもう分か
らないわけだから、開示、訂正、消去ができるってなんだか
おかしくない?
個人データを収集したデータ事業者は、仮名化し、対応表を持って
いるので、匿名化された個人データの開示、訂正、消去はできます。
匿名化の安全性を高めるには、個人1人に多数の仮名をつけます。(1時間毎に異
なる仮名に更新など). この場合も面倒くさいけど、 これらの対応を使えばできます
個人ID(氏名など) その他の個人データ
個人ID
(氏名など)
仮名
(A123B など)
仮名
(A123B など)
その他の個人データ
この(個人ID、仮
名)の対応表は
厳重に管理
データ利活用(マイニン
グ)はこっちのレコードだけ
で行うので安全
個人からの要請による
開示、訂正、消去は仮名
で対応付けすればできる
個人ID
(氏名など)
仮名:A123B4
仮名:C1263B
仮名:X91234
仮名:Z12345
仮名:A123B4 その他の個人データ:1
仮名:C1263B その他の個人データ:2
仮名:X91234 その他の個人データ:3
仮名:Z12345 その他の個人データ:4
2個のレコードに分解
捨ててしまう場合
• データ収集業者が個人から収集したデータを期間限定で保
持した後は、廃棄するという契約もある。
– 廃棄したことを確認する方法が問題(説明責任の一種)
• 契約を信用するしかない。法律で担保か?
• 第3者に転売、再配布した場合も同様の問題がある。
データ
収集
した会社
データ収集した事業者が個人データを第3者の転売、再配布するときは、
当然、(仮名、その他の個人データ)のレコードだけしか渡さないですよね。
なるほど。でもこれだけの仮名をまとめて別会社に開示を要求したら、個人データ1から4が
全部同じ人のデータだと分かってしまい(つまり識別でき)、まずくないですか?
この(個人ID、仮名)の対応表
は厳重に管理し他者に渡さない
ので別の業者は開示、訂正、消
去すべきデータが分からない!
個人ID
(氏名など)
仮名:A123B4
仮名:C1263B
仮名:X91234
仮名:Z12345
仮名:A123B4 その他の個人データ:1
仮名:C1263B その他の個人データ:2
仮名:X91234 その他の個人データ:3
仮名:Z12345 その他の個人データ:4
別の会社
この会社に渡されたのは
これだけ
仮名:A123B4
仮名:C1263B
仮名:X91234
仮名:Z12345
その他の個人データ:1
その他の個人データ:2
その他の個人データ:3
その他の個人データ:4
そういう危険性はたしかにありま
すね。対策としては、別の人の仮
名も適当に混ぜて、別の会社に
質問すれば、危険性は緩和でき
ます。
その他の個人データが事態を複雑化します
 その他の個人データに個人を示唆するものが含まれていな
いデータなら、今までの議論でめでたしめでたしですが
 その他の個人データは、個人の識別や特定ができる疑似ID
というものになり得るので、事態が複雑になります。
以下の2種類の捉え方があります。
古典的な捉え方:疑似ID+外部から観察できない個人データ
新しい捉え方:外部から観察できる個人の行動データ
古典的な捉え方:
疑似ID+外部から観察できない個人データ
個人ID 疑似ID 機微情報 その他情報
氏名 住所、年齢、性別 病名、など 趣味、など
個人ID 仮名
氏名 a123x
仮名 疑似ID 機微情報 その他情報
a123x 住所、年齢、性別 病名、など 趣味、など
分離
他のデータベース
疑似IDと個人IDを含む
疑似IDと他のデータベースを突き
合わせると個人IDが知られてしま
う危険性があります。
 疑似IDの記述を粗くしてデー
タベース中に同じ疑似IDを持
つ人がk人以上いるようにした
のがk-匿名化です。
古典的な捉え方の場合の自己情報コントロール:
開示
(仮名、疑似ID,機微情報)が別の業者に渡っている場合に
ついて考えます。
 別の業者が何らかの外部情報や他のデータベースと疑似ID
を突き合わせると個人の特定もできそうです。
 開示要求に対しては、開示要求した個人の仮名を全部別業
者に教えるので、それらが同一の個人IDから作られたと分か
り、識別ができます。
開示要求に他人の仮名データも混ぜれば、ある程度防げ
ます。
 訂正に関しては、訂正すべき個人の(仮名、個人データ)のペ
アを別業者に渡して訂正依頼すればよい。
つまり同一個人の全データを見ないのは良いことですが、
部分的にせよ訂正要求が1個人のものだと分かるのはう
れしくない。
かといって、別人の訂正要求を混ぜるわけにはいかない
別人は訂正要求しているわけではないですから
一方、訂正要求には速やかに応える必要があるので、
別人の訂正要求が来るまで待ってから、それらを混ぜ
て要求を出すのも、ちょっとやりくい。
古典的な捉え方の場合の自己情報コントロール:
訂正
 消去の場合も別の業者に消去すべき個人の(仮名、個人
データ)を全て渡します。きちんと消去してくれれば問題は起
きませんが、と、個人の特定をされる可能性があります。
消去の場合も、データベースの変更が起こるので、他人
のデータを混ぜて消去要求はできないので、1人のデータ
であることを知られる危険性は高くなります。
本当に消去したかどうかをチェックすることは困難です。
契約か法律によって保証するしかないでしょう。
古典的な捉え方の場合の自己情報コントロール:
消去
 第3者に渡った場合、第3者のデータの現状を知りたいですよね。
 k-匿名でもデータ源の個人からの開示要求には対応可能です。
 つまり、データ収集業者がデータを渡した第3者にk-匿名化で同
じ疑似IDの人のデータを全員分を返送させ、自分の対応表で
開示要求した人のデータだけ取り出して回答すればよい。
 (下図は3-匿名の例:疑似IDの値は3人とも同じ xxx)
古典的な捉え方の場合の自己情報コントロール:
k-匿名化は使えるか? 開示要求の場合
個人ID 仮名
山田 a12
山川 b23
山下 c34
仮名 疑似ID 機微情報など
a12 xxx インフル
b23 xxx 高血圧
c34 xxx 盲腸
データ収集業者 A
データ収集業者Aから3-匿名化データをも
らった業者B
山田
①
開
示
要
求 ②この3人
(A12,B23,
C34)の
データを質
問
④3人分の病名のうち、山田(=
A12)のデータを山田君に開示
③3人のデータ
を返す
 訂正、消去は1人の個人データ全部を処理しないとならない
のです。
もちろん、第3のデータ業者Bへは仮名で訂正、消去要求
が行くので、個人IDは流出しないです。しかし、訂正の来
た人の疑似IDはk人中での同一人物だということは分かっ
てしまいます。
 第3のデータ業者に仮名が渡されていないと疑似IDを知らせ
て訂正、消去依頼をするので、
最悪の場合、 K人のデータをまとめて訂正ないし消去する
ことになってしまうので、データベースが不正確な状態に
なり、対応できません。
古典的な捉え方の場合の自己情報コントロール:
k-匿名化は使えるか? 訂正、消去要求の場合
K-匿名化のもっと深刻な問題
• ある人のデータを消去するとk-匿名化が崩れてしまいますね!
• 2-匿名化だと、1人のデータが消去されたら、残った1名は1-匿名化、
つまり一意的になります危険
 対策1:k-匿名化を全データに対してやり直して再配布。手間が大
変すぎます。
 対策2:k-匿名化が崩れたk-1人のグループはまとめて削除
 すると、余分に消されたk-1人はデータが削除されているので
開示要求がきたとき困ります。
 対策3:k+α-匿名化のデータにしておけば、α人消去されてもk-匿
名化は崩れません。
 ただし、αが大きくなると、データに質が劣化します。
新しい捉え方:
外部から観察できる個人の行動データ
• 移動履歴(駅での乗降履歴や自動車の移動情報など)、購買履歴(売店、時刻、購
買物)
などは、他人から観測できる行動であるので、長期間のデータが集積すると個人を特
定できる可能性がある。
 2,3日でも十分に長期間の場合もあります。
 疑似IDと見なせるので、大変です。
 移動履歴は個人IDとして自己情報コントロールの対象にする考え方がEUでは出て
きました。
• Opinion 13/2011 on Geolocation services on smart mobile WP 185 (16.05.2011)
http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-
recommendation/files/2011/wp185_en.pdf
個人ID 疑似ID 疑似IDと見なせる情報 その他情報
氏名 住所、年齢 移動履歴、購買履歴など 趣味、など
個人ID 仮名
氏名 a123x
仮名 疑似ID 疑似IDと見なせる情報 その他情報
a123x 住所、年齢 移動履歴、購買履歴など 趣味、など
新しい捉え方の場合の自己情報コントロール:
開示
 移動履歴と個人IDが紐付いた外部データがあると危険です。
例えば、移動履歴や購買履歴と個人の行動を観察して対
応付けると個人の特定もできそうです。
 しかし、前にスライドに書いたように、開示要求に対しては、
開示要求した個人の(仮名、疑似IDと見なせる情報)を全部、
別業者に渡すので、
 多数の仮名は同一の個人IDから作られたと分かり、識別が
容易にできます。したがって、個人の特定もされかねません。
他人のデータを混ぜて別業者に質問すれば、個人識
別は防げそうです。
 訂正に関しては、訂正すべき個人の(仮名、個人データ)のペ
アを別業者に渡して訂正依頼すればよいです。
つまり同一個人の全データを見ないので、危険性はやや低いです。
 消去の場合も別の業者に消去すべき個人の(仮名、個人
データ)を全部渡します。きちんと消去してくれれば問題は起
きませんが、悪意の業者だと、個人の特定をされる可能性が
あります。
新しい捉え方の場合の自己情報コントロール:
訂正、消去
K-匿名化されたデータベースに対する
開示、訂正、消去
 移動履歴のような個人データが大量にあるとk-匿名化は
データの質を大きく劣化させます。
 仮名を頻繁に更新してしまえば、同じ仮名に対する(仮名、
個人データ)は少ないので、仮名を単位としてk-匿名化す
れば、安全性はあがり、データ精度劣化も抑えられます。
 したがって、悪意のある第3者に渡しても危険性は抑えられます。
 同一仮名を使う時間が短い(1時間、あるいは半日程度)
のであれば、その同一仮名の時間内だけでk-匿名化する
ので、類似の行動の人が同一の行動履歴になりやすく、k-
匿名化は効果的です。
 開示、訂正、消去
 K-匿名化した仮名のデータが第3者に渡った場合は、古典的な
場合と同じです。
しかし、個人データが連続的な行動履歴
は従来の考え方でよいでしょうか?
• 移動履歴や行動履歴のような長い時間にわたる連続的ない
し断続的な個人データは一意性が非常に高いので、
• そもそもk-匿名性などの従来の方法が有効か疑問です。
• 仮名化を頻繁に行うことが推奨されるかもしれませんが、
もっと根本的なところを考え直してみたい気がします。
移動履歴の2つの見方
場所(駅名
など)
A B C D E F G
個
人
I
D
(
氏
名
な
ど
)
伊藤 1 1 1 1
加藤 1 1 1
田中 1 1 1
山下 1 1 1
渡辺 1 1 1
列和 3 3 2 2 2 1 3
移動経路 A-B A-C B-D C-D B-E D-G E-G C-F
個
人
I
D
(
氏
名
な
ど
)
伊藤 1 1 1
加藤 1 1
田中 1 1
山下 1 1
渡辺 1 1
列和 2 1 1 1 2 2 1 1
A
B
C
D
G
F
E
伊藤さんの経路
公開あるいは再配布、転売しても安
全なのは列和という統計データです
• 移動履歴の2つの見方、どちらでも列和だけを公開、転売し
てもかなり安全です。
 列和の成分で1の成分があると危険
– 滞在地や移動経路単位が一意的なので外部観察される
と個人特定ができる可能性があります。
 列和成分の最小値がk以上になるようなグループ化をした
データで、列和を公開、再配布すれば、最悪でもk-匿名性以
上の効果あります。
– 前のページの例で調べると次のページのようになる
移動履歴の2つの見方
場所(駅名
など)
A B C D E F G
個
人
I
D
(
氏
名
な
ど
)
伊藤 1 1 1 1
加藤 1 1 1
田中 1 1 1
山下 1 1 1
渡辺 1 1 1
列和 3 3 2 2 2 1 3
移動経路 A-B A-C B-D C-D B-E D-G E-G C-F
個
人
I
D
(
氏
名
な
ど
)
伊藤 1 1 1
加藤 1 1
田中 1 1
山下 1 1
渡辺 1 1
列和 2 1 1 1 2 2 1 1
A
B
C
D
G
F
E
田中を追い出せば、
列和 ≥ 2
誰を追い出しても
列和 ≥ 2 にならない。む
しろ、グループの人数を増
やすべきでしょう。
列和 ≥ k という条件を満たすには、場所データのほうが
移動経路データより少ない人数のグループでよさそうなの
で、データ精度も高いようです。
k-匿名化データの訂正と消去の困難さ
• この場合は、行動履歴データ自体が疑似IDとなので、訂正でも消去でも
k-匿名化が崩れる可能性があります。
– 全体のk-匿名化の作り直しは大変すぎ。
– 1人消去したら残りのk-1人も使えないので、まとめて削除しかないで
す。しかし、残りのk-1人の中の人から開示要求があると「データなし」
と回答しなくてはならず、やや問題かもしれないです。
– 行動履歴の場合は1人行動履歴を訂正すると、 k-匿名化が崩れる可
能性があります。
– 仮名を頻繁に更新し、個々の仮名に対してk-匿名化してあるなら、削
除したときの被害は小さくなります。
– kに余裕αを持たせて、k+α-匿名化 しておく方法があります。
• ですが、k人にα人追加によるデータの質の劣化はもっと深刻でしょう。
公開あるいは再配布、転売しても
安全なのは統計データ+雑音だが
• 移動履歴の2つの見方、どちらでも列和だけを公開、転売してもか
なり安全です。
• さらに、列和に雑音を加算する方法があります。これは差分プライ
バシーとして質問への答えに雑音加算する方法に似ています。
• ただし、ここでは元のデータに雑音を加えるので、処理結果にバイ
アスがあることが問題です。
• また、第3者に渡したのが雑音入りのデータですから開示、訂正の
要求をしにくくなります。
• むしろ、第3者へ渡すのはランダムサンプリングされた一部のデー
タとする方法が有力かもしれません。
– サンプルデータとk-匿名化の関係は2012年にACMで論文が発表され
ました。
• http://dl.acm.org/citation.cfm?id=2414474
以上述べたように行動履歴データを再配布、転売
する場合は、困難なので信頼できるところを探す
• Cavoukianが提案した BigPrivacyのTrsut Frameworkように契
約によって再識別、再特定(re-idenfication)しないという解し
かないのでしょうか?
– だが、信頼できる強力なデータ集積センター(Personal
Cloud)が必要なのです。
• 第三者機関との関係
– 公的な第三者機関なら、お上を信じる日本人がお墨付き
を信じるかもしれません。でも事件が起きたら第三者機関
も安全性の説明責任を問われますよねえ。。。
その他の研究
 ここで述べたことは、匿名性とデータ公開(主に第三者提供)
の関係を開示、訂正、消去の観点からの話です。
 行動履歴に関しては、データベースへの外部者から質問へ
答えるという利用もあり、その場合はデータベース検索結果
に雑音を加算して質問への回答とする差分プライバシーを
利用する研究が数多く提案されています。
 まだまだ技術課題は山積みです。

More Related Content

More from Hiroshi Nakagawa

人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンス人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンスHiroshi Nakagawa
 
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例Hiroshi Nakagawa
 
情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会Hiroshi Nakagawa
 
最近のAI倫理指針からの考察
最近のAI倫理指針からの考察最近のAI倫理指針からの考察
最近のAI倫理指針からの考察Hiroshi Nakagawa
 
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会Hiroshi Nakagawa
 
自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラ自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラHiroshi Nakagawa
 
暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護Hiroshi Nakagawa
 
Defamation Caused by Anonymization
Defamation Caused by AnonymizationDefamation Caused by Anonymization
Defamation Caused by AnonymizationHiroshi Nakagawa
 
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演Hiroshi Nakagawa
 
情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料Hiroshi Nakagawa
 
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」Hiroshi Nakagawa
 
Social Effects by the Singularity -Pre-Singularity Era-
Social Effects by the Singularity  -Pre-Singularity Era-Social Effects by the Singularity  -Pre-Singularity Era-
Social Effects by the Singularity -Pre-Singularity Era-Hiroshi Nakagawa
 

More from Hiroshi Nakagawa (20)

人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンス人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンス
 
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
 
NICT-nakagawa2019Feb12
NICT-nakagawa2019Feb12NICT-nakagawa2019Feb12
NICT-nakagawa2019Feb12
 
情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会
 
最近のAI倫理指針からの考察
最近のAI倫理指針からの考察最近のAI倫理指針からの考察
最近のAI倫理指針からの考察
 
AI and Accountability
AI and AccountabilityAI and Accountability
AI and Accountability
 
AI Forum-2019_Nakagawa
AI Forum-2019_NakagawaAI Forum-2019_Nakagawa
AI Forum-2019_Nakagawa
 
2019 3-9-nakagawa
2019 3-9-nakagawa2019 3-9-nakagawa
2019 3-9-nakagawa
 
CPDP2019 summary-report
CPDP2019 summary-reportCPDP2019 summary-report
CPDP2019 summary-report
 
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
 
Ai e-accountability
Ai e-accountabilityAi e-accountability
Ai e-accountability
 
自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラ自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラ
 
暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護
 
Defamation Caused by Anonymization
Defamation Caused by AnonymizationDefamation Caused by Anonymization
Defamation Caused by Anonymization
 
人工知能と社会
人工知能と社会人工知能と社会
人工知能と社会
 
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
 
情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料
 
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
 
AI社会論研究会
AI社会論研究会AI社会論研究会
AI社会論研究会
 
Social Effects by the Singularity -Pre-Singularity Era-
Social Effects by the Singularity  -Pre-Singularity Era-Social Effects by the Singularity  -Pre-Singularity Era-
Social Effects by the Singularity -Pre-Singularity Era-
 

匿名化したデータ、消してもらえるの?