Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
パーソナルデータ活用における
プライバシー保護データマイニング
(PPDM)の適用
於
人工知能学会
ビジネス・インフォマティクス研究会
2014年11月20日
筑波大学大学院 ビジネス科学研究科
経営システム科学専攻
泉 晃
s144...
2
【目次】
1.発表要旨
2.パーソナルデータの概況
3.プライバシー保護データマイニングの概況
4.研究構想
参考文献
3
1.発表要旨
1.発表要旨
4
パーソナルデータについては、2015年に予想されて
いる個人情報保護法の改正などにより、活用広がる
事が期待されている。しかしながら個人情報やプラ
イバシーの問題が常に絡むため、活用のためには保
護の仕組みが必要と考えられている。
その...
5
2.パーソナルデータの概況
2.パーソナルデータの概況
「personal data will be the new “oil”
– a valuable resource of the 21st century」
※世界経済フォーラム(ダボス会議)2011年 [1]より
6
2.パーソナルデー...
7
■パーソナルデータとは
パーソナルデータは個人情報そのものでは無く、個人の識別可能性のある周
辺情報である。その為範囲を含め様々な定義があるが、本稿に置いてパーソ
ナルデータを以下と定義する。
2.パーソナルデータの概況
パ...
■パーソナルデータの活用について
ビッグデータの活用は官民ともに積極的な取り組みが見られるが、
その中でもパーソナルデータについては前述のダボス会議や総務省
の情報通信白書でも昨年に続いて一節が割り当てて扱われるなど、
利用価値が高...
■パーソナルデータの利活用に関する制度改正大綱の要旨
2014年6月19日 政府 IT総合戦略本部に設置されたパーソナ
ルデータに関する検討会より「パーソナルデータの利活用に関
する制度改正大綱」が発表され、下記が述べられている
・...
10
■識別性と特定性
日本の個人情報保護法については諸外国と異なり、「他の情
報と容易に照合することができ、それにより特定の個人を識
別できることとなるもの」は個人情報と看做すとの条項(個
人情報保護法第二条)が存在する。
そのため、個人情報...
11
■識別性と特定性
個人情報
?
グレーゾー
ン
個人情報で
は無い
(パーソナ
ルデータで
はある)
識別非特定情報とされる。例えば「あるIDの人物が、何月何日に XX に泊まり、XX
の観光地に行き、XX を買った」と いう人がいるこ...
12
■問題となった事例
2008年に米国のオンラインDVDレンタルサービス(Netflix)
のレコメンドアルゴリズムコンテスト(Netflix Prize)で起き
た事例としては、データが匿名化されていたにも関わらず、
当該サービスで...
13
■問題意識
パーソナルデータの利活用にあたっては、
そのプラバシー保護のための技術が重要!
・・・それが無いと活用自体が出来ないハメに
2.パーソナルデータの概況
14
3.プライバシー保護データ
マイニング(PPDM)の概況
3.PDDMの概況
■PPDMの大枠
15
PPDMについては狭義には1の事を指すが、広義にはプライバ
シーを保護しながらデータ分析・活用を行う技術の事を言う。
大きくは下記の3つに分類される(他にも、信頼できる第三者
にデータを全て預けるTrusted Th...
16
■秘密計算方式
秘密計算方式はパーソナルデータを持つAとBが互いにデータ
を開示せずに、分析・データ処理のみをAとBデータに対して
行う方式。
3.PPDMの概況
A社
秘密データ
B社
秘密データ
分析・処理
データの開示...
17
■秘密計算方式
秘密計算の具体的手法としては、代表的に下記の方式がある。
・秘密分散方式􏰚:データを N 個に分散し、それぞれを異なる
パーティーに渡すことで秘密にする方式。
K個(≦ N)集めると復元可能。
・準同型暗号方式:暗号...
18
■摂動方式
摂動方式はパーソナルデータの分析結果にノイズを不可する
方式。データを持つ場所で処理も行い結果のみ分析者に返す。
3.PPDMの概況
A社
秘密データ
結果データ
分析
処理
摂動済み
結果データ
ノイズ
付加
ノイズ付...
19
■摂動方式
摂動方式の具体的手法としては、代表的に下記の方式がある。
・差分プライバシー方式:データベースへの問い合わせに
対してその出力結果に下記の確率密度関数である
ラブラス分布のノイズを加算して結果を返す。
この方式についてはア...
20
■匿名化方式
匿名化方式はパーソナルデータについて、個人を識別・特定
出来ない様にデータを一般化(抽象化)と抑圧(削除)等
を行い匿名化する方式。
3.PPDMの概況
匿名化
個
人
情
報
詳
細
属
性
生の
行
動
履
歴
赤...
21
■匿名化方式
匿名化方式の具体的手法としては、代表的に下記の方式がある。
・k-匿名化方式􏰚:データから一個人の識別がで出来ない様に
同じデータの組みあわせが少なくともk個存在する様にする
方式。名前・IDなどの識別子となる情報は削除...
22
■匿名化方式
k-匿名化の流れ
3.PPDMの概況
生徒ID 氏名 住所 申込内容
1001 A山 A男 東京都文京区茗荷谷 9/1に英語クラスに申込
1002 B川 B助 神奈川県港北区日吉 9/1に英語クラスに申込
1003 C田 C...
単一のセンシティブ属性しかないため、
このグループに属する事が分かると
センシティブ情報は保護されない
カテゴリに複数のセンシティブ属性が
存在する為、l-多様性は確保されている
23
■匿名化方式
・l-多様性:k-匿名化されたデータであ...
24
4.研究構想
4.研究構想
■課題感
パーソナルデータを実際に活用していく為には、大綱にも示さ
れている様に実データに対する具体的な匿名化技術をはじめと
するプライバシーの保護手法が必要となる。
理論的には多数の手法が唱えられているものの、実際のデータ
やサービス...
■研究の構想
今後は具体的な「個人の特定性の低減」のための技術的手法の確立
が求められると予想する。
しかしながら、例えば遺伝子情報やカルテ情報を扱う医療の分野と、
購買履歴や WEB 上での行動履歴を扱う電子商取引の分野では、扱
うパーソ...
■留意点
Netflixの事例でもあったように、新たなデータソースの出現や
技術の発展によってもプライバシー保護手法の有効性は日々変
わり得る。
その前提に基づき、
・研究に利用したデータの開示
・匿名化のアルゴリズムの開示
・制約条件・課...
28
参考文献
参考文献
[1] World Economic Forum: Personal Data:The Emergence of a New Asset Class,
World Eco- nomic Forum, pp.5 (2011)
[2] パーソナル...
Upcoming SlideShare
Loading in …5
×

パーソナルデータ活用におけるプライバシー保護データマイニング(PPDM)の適用

1,998 views

Published on

個人情報およびパーソナルデータの現状とそのプライバシー保護をする為の技術であるPPDM (privacy-preserving data mining)について諸手法を概観する。
その上で今後の構想として、 パーソナルデータの活用という観点で必要となる手法および担保基準の考察する。

Published in: Data & Analytics

パーソナルデータ活用におけるプライバシー保護データマイニング(PPDM)の適用

  1. 1. パーソナルデータ活用における プライバシー保護データマイニング (PPDM)の適用 於 人工知能学会 ビジネス・インフォマティクス研究会 2014年11月20日 筑波大学大学院 ビジネス科学研究科 経営システム科学専攻 泉 晃 s1440102@u.tsukuba.ac.jp
  2. 2. 2 【目次】 1.発表要旨 2.パーソナルデータの概況 3.プライバシー保護データマイニングの概況 4.研究構想 参考文献
  3. 3. 3 1.発表要旨 1.発表要旨
  4. 4. 4 パーソナルデータについては、2015年に予想されて いる個人情報保護法の改正などにより、活用広がる 事が期待されている。しかしながら個人情報やプラ イバシーの問題が常に絡むため、活用のためには保 護の仕組みが必要と考えられている。 そのプライバシー保護技術である、PPDM (Privacy-reserving Data Mining)については、未 だ具体的なデータへの適用であったり、行動履歴を はじめとするビッグデータへの対応には現時点で多 数の課題があると考えている。 本発表では上記に関しての研究構想を提示したい。 1.発表要旨
  5. 5. 5 2.パーソナルデータの概況 2.パーソナルデータの概況
  6. 6. 「personal data will be the new “oil” – a valuable resource of the 21st century」 ※世界経済フォーラム(ダボス会議)2011年 [1]より 6 2.パーソナルデータの概況
  7. 7. 7 ■パーソナルデータとは パーソナルデータは個人情報そのものでは無く、個人の識別可能性のある周 辺情報である。その為範囲を含め様々な定義があるが、本稿に置いてパーソ ナルデータを以下と定義する。 2.パーソナルデータの概況 パーソナル データ プライバ シー性のあ る情報 グレーゾー ン (個人情報 保護法の定 義する) 個人情報 「個人情報保護法に規定する個人情報および個人のプライバシーに関する 情報を含む、属性情報・機微情報・生体(認識)情報・位置情報・行動履歴 など、広く個人に関する多種多様な情報」 氏名、住所、電話番 号、メールアドレス etc.. 位置、DNAや顔認識 等の生体情報 etc.. 趣味、志向、身体情 報、給与等 etc.. 行動履歴(cookie)、検 索ワード etc..
  8. 8. ■パーソナルデータの活用について ビッグデータの活用は官民ともに積極的な取り組みが見られるが、 その中でもパーソナルデータについては前述のダボス会議や総務省 の情報通信白書でも昨年に続いて一節が割り当てて扱われるなど、 利用価値が高いとされている。 また、2014年には政府IT総合戦略本部に設置されたパーソナルデー タに関する検討会より「パーソナルデータの利活用に関する制度改 正大綱」が発表された。 2015年にはパーソナルデータの活用/流通によるイノベーションや ビジネスの活性化を目的とした、個人情報保護法の改正が予定され ているなど、今後の活用が期待される。 学会での議論も盛んになってきており、2013年人工知能学会誌11月 号や2014年情報処理学会誌11月号でも特集が組まれている。 しかしながら、駅乗降履歴の販売停止事件やビデオレンタル業者の 個人情報の第三者提供による炎上事件などに代表されるように、個 人のプライバシーを保護した中でどの様に利活用するかについては 課題となっている。 8 2.パーソナルデータの概況
  9. 9. ■パーソナルデータの利活用に関する制度改正大綱の要旨 2014年6月19日 政府 IT総合戦略本部に設置されたパーソナ ルデータに関する検討会より「パーソナルデータの利活用に関 する制度改正大綱」が発表され、下記が述べられている ・パーソナルデータの活用/流通によるイノベーションやビジ ネスの活性化 ・個人の行動・状態等のパーソナルデータに関する「グレー ゾーン」の保護範囲とルールの明確化 ・第三者機関の設置 ・本人の同意が無くてもデータを流通出来る枠組みの導入、 そのための「個人の特定性を低減したデータ」への加工技術 の具体化(匿名化技術) 9 2.パーソナルデータの概況
  10. 10. 10 ■識別性と特定性 日本の個人情報保護法については諸外国と異なり、「他の情 報と容易に照合することができ、それにより特定の個人を識 別できることとなるもの」は個人情報と看做すとの条項(個 人情報保護法第二条)が存在する。 そのため、個人情報とパーソナルデータを考える上では特定 の個人を識別性出来るかどうかが問題となる。 現在のところ、氏名、住所、メールアドレス、電話番号等の 識別特定情報が個人情報として扱われることが多く、位置情 報や行動履歴などの識別非特定情報は個人情報とするかどう かは議論があるところである(グレーゾーン) 識別特定情報 識別非特定情報 非識別非特定情報 2.パーソナルデータの概況
  11. 11. 11 ■識別性と特定性 個人情報 ? グレーゾー ン 個人情報で は無い (パーソナ ルデータで はある) 識別非特定情報とされる。例えば「あるIDの人物が、何月何日に XX に泊まり、XX の観光地に行き、XX を買った」と いう人がいることは、分析データから識別可能と いうことになる。この情報と SNS(ソーシャルネットワー キングサービス)などの他 の情報と結びつけることで、 具体的個人が特定できる可能性がある。 2.パーソナルデータの概況
  12. 12. 12 ■問題となった事例 2008年に米国のオンラインDVDレンタルサービス(Netflix) のレコメンドアルゴリズムコンテスト(Netflix Prize)で起き た事例としては、データが匿名化されていたにも関わらず、 当該サービスである作品を借りた人が、同じ時期に別サービ ス(Internet Movie Database)で同タイトルについてのレ ビューを書いていたため、個人の特定に結びき、それが機微 情報にあたる内容であったためプライバシー訴訟にまで発展 している(後に和解、当コンテストはFTCの指摘を受け2009 年で終わっている)。 2.パーソナルデータの概況 Netflix (オンライ ンDVDレン タル) Internet Movie Database ユーザーコンテスト参加者 匿名化データ 突合
  13. 13. 13 ■問題意識 パーソナルデータの利活用にあたっては、 そのプラバシー保護のための技術が重要! ・・・それが無いと活用自体が出来ないハメに 2.パーソナルデータの概況
  14. 14. 14 3.プライバシー保護データ マイニング(PPDM)の概況 3.PDDMの概況
  15. 15. ■PPDMの大枠 15 PPDMについては狭義には1の事を指すが、広義にはプライバ シーを保護しながらデータ分析・活用を行う技術の事を言う。 大きくは下記の3つに分類される(他にも、信頼できる第三者 にデータを全て預けるTrusted Third Party方式等もある)。 1.秘密計算方式(狭義のPPDM) ⇒データそのものを秘匿・暗号化し分散させた上で演算を行 う ⇒(加法/乗法/完全)準同型暗号方式 etc.. 2.摂動方式(出力プライバシー) ⇒出力されたデータに対してノイズを加える ⇒差分プライバシー etc.. 3.匿名化方式(入力プライバシー) ※本研究ではこの方式を対象としたい ⇒元のデータに対して、一般化・抑圧(削除)を行う ⇒k-匿名性、l-多様性 etc.. 3.PPDMの概況
  16. 16. 16 ■秘密計算方式 秘密計算方式はパーソナルデータを持つAとBが互いにデータ を開示せずに、分析・データ処理のみをAとBデータに対して 行う方式。 3.PPDMの概況 A社 秘密データ B社 秘密データ 分析・処理 データの開示はお互い行わず、データの分析・処理 のみお互いのデータに対して行い結果のみ知りたい データ連携・開示
  17. 17. 17 ■秘密計算方式 秘密計算の具体的手法としては、代表的に下記の方式がある。 ・秘密分散方式􏰚:データを N 個に分散し、それぞれを異なる パーティーに渡すことで秘密にする方式。 K個(≦ N)集めると復元可能。 ・準同型暗号方式:暗号化したままデータ分析が可能。 暗号化データが順同型性(RSAやAES暗号など)を持つ 時に暗号化のままで演算が可能。加法、乗法、完全の 3つの方式がある。 3.PPDMの概況 データ データ 暗号化 暗号化 暗号化 データ 暗号化 データ 暗号化され たデータ同 士を演算
  18. 18. 18 ■摂動方式 摂動方式はパーソナルデータの分析結果にノイズを不可する 方式。データを持つ場所で処理も行い結果のみ分析者に返す。 3.PPDMの概況 A社 秘密データ 結果データ 分析 処理 摂動済み 結果データ ノイズ 付加 ノイズ付加済みの 分析結果のみ渡す
  19. 19. 19 ■摂動方式 摂動方式の具体的手法としては、代表的に下記の方式がある。 ・差分プライバシー方式:データベースへの問い合わせに 対してその出力結果に下記の確率密度関数である ラブラス分布のノイズを加算して結果を返す。 この方式についてはアメリカ合衆国国勢調査(センサス)局 の通勤経路調査の開示に使われた実績がある。 3.PPDMの概況
  20. 20. 20 ■匿名化方式 匿名化方式はパーソナルデータについて、個人を識別・特定 出来ない様にデータを一般化(抽象化)と抑圧(削除)等 を行い匿名化する方式。 3.PPDMの概況 匿名化 個 人 情 報 詳 細 属 性 生の 行 動 履 歴 赤字の部分を対象に… 個人情報を削除 属性情報を抽象化 行動履歴を抽象化 抽 象 化 属 性 一部 行 動 履 歴 (仮 ID ) 元パーソナルデータ 匿名化データ
  21. 21. 21 ■匿名化方式 匿名化方式の具体的手法としては、代表的に下記の方式がある。 ・k-匿名化方式􏰚:データから一個人の識別がで出来ない様に 同じデータの組みあわせが少なくともk個存在する様にする 方式。名前・IDなどの識別子となる情報は削除し、組み合 わせると個人の識別が可能となる年齢・住所・行動履歴な どの疑似識別子を抽象化する。 小栗、曽根原(2014)の研究ではニフティのサービスにおい て実データでサービス区分数とk値の関係性を研究。 3.PPDMの概況 生徒ID 氏名 住所 申込内容 1001 A山 A男 東京都文京区茗荷谷 9/1に英語クラスに申込 1002 B川 B助 神奈川県港北区日吉 9/1に英語クラスに申込 1003 C田 C子 東京都荒川区南千住 9/1に数学クラスに申込 1004 D辺 D世 神奈川県港北区大倉山 9/2に英語クラスに申込 1005 E上 E太 東京都文京区茗荷谷 9/2数学クラスに申込 住所 申込内容 東京都 英語クラスに申込 神奈川県 英語クラスに申込 東京都 数学クラスに申込 神奈川県 英語クラスに申込 東京都 数学クラスに申込 k-匿 名化 識別子 疑似識別子 同じ組み合わせのデータが 二つ以上存在
  22. 22. 22 ■匿名化方式 k-匿名化の流れ 3.PPDMの概況 生徒ID 氏名 住所 申込内容 1001 A山 A男 東京都文京区茗荷谷 9/1に英語クラスに申込 1002 B川 B助 神奈川県港北区日吉 9/1に英語クラスに申込 1003 C田 C子 東京都荒川区南千住 9/1に数学クラスに申込 1004 D辺 D世 神奈川県港北区大倉山 9/2に英語クラスに申込 1005 E上 E太 東京都文京区茗荷谷 9/2数学クラスに申込 一般化 住所 申込内容 東京都 英語クラスに申込 神奈川県 英語クラスに申込 東京都 数学クラスに申込 神奈川県 英語クラスに申込 東京都 数学クラスに申込 抑圧 住所 申込内容 東京都文京区茗荷谷 9/1に英語クラスに申込 神奈川県港北区日吉 9/1に英語クラスに申込 東京都荒川区南千住 9/1に数学クラスに申込 神奈川県港北区大倉山 9/2に英語クラスに申込 東京都文京区茗荷谷 9/2数学クラスに申込 元パーソナルデータ k-匿名化後データ k-匿名化をすることで、Netflixの例で見たような外部の データソースと突合したLinked Attackによる個人特定を防ぐ
  23. 23. 単一のセンシティブ属性しかないため、 このグループに属する事が分かると センシティブ情報は保護されない カテゴリに複数のセンシティブ属性が 存在する為、l-多様性は確保されている 23 ■匿名化方式 ・l-多様性:k-匿名化されたデータであっても、センシティブ なデータ(例えば離婚歴等)の場合、単一の種類のカテゴリ に属する事が分かってしまうと、センシティブ情報の保護に ならないため、複数の属性を持つカテゴリにする方式。 3.PPDMの概況 住所 離婚歴 東京都 有り 神奈川県 無し 神奈川県 無し 東京都 有り 東京都 有り グループ 住所 離婚歴 A 東京都 有り A 神奈川県 無し A 神奈川県 無し グループ 住所 離婚歴 B 東京都 有り B 東京都 有り クラスタ リングを して、グ ループに 分割した とすると …
  24. 24. 24 4.研究構想 4.研究構想
  25. 25. ■課題感 パーソナルデータを実際に活用していく為には、大綱にも示さ れている様に実データに対する具体的な匿名化技術をはじめと するプライバシーの保護手法が必要となる。 理論的には多数の手法が唱えられているものの、実際のデータ やサービスに適用した研究や事例は少なく、今後の実用面では 早急な基準手法の提案や個別の要件に応じたベストプラクティ スの確立が社会的な要請となると思われる。 特に「個人の特定性の低減」に最も近いと思われる、k-匿名性 の議論の中心となっているのは、属性情報などの表データとし て表されるものを如何に匿名化するかと言う議論であり、位置 情報・行動履歴などを含むパーソナルデータ全体の匿名化をど うするべきかという議論は、特定性・識別性を含め不十分と いうのが現状であろう。 25 4.研究構想
  26. 26. ■研究の構想 今後は具体的な「個人の特定性の低減」のための技術的手法の確立 が求められると予想する。 しかしながら、例えば遺伝子情報やカルテ情報を扱う医療の分野と、 購買履歴や WEB 上での行動履歴を扱う電子商取引の分野では、扱 うパーソナルデータの種類や質が異なり、それらを一つの手法で匿 名化を担保するのは困難である。そのため業界ごとや利用目的の特 性に応じた手法の検討が必要と考える。 そのため今後の研究の構想として、下記を行いたいと考えている。 (1)既存手法の実データへの適用方法の研究 ⇒k-匿名性などの既存手法を実データに対して適用し、プライ バシー保護技術としての評価と課題抽出を行う。その際には 利用目的な応じた適用の方針も合わせて検討する。 (2)既存手法の拡張および新手法の提案 ⇒実用面から既存手法の課題の解決するための拡張、適用ルー ルもしくは新手法の研究を行う。 26 4.研究構想
  27. 27. ■留意点 Netflixの事例でもあったように、新たなデータソースの出現や 技術の発展によってもプライバシー保護手法の有効性は日々変 わり得る。 その前提に基づき、 ・研究に利用したデータの開示 ・匿名化のアルゴリズムの開示 ・制約条件・課題の明確化 を行いたい。 また本研究の対象外ではあるが、匿名化技術適用後も、デー タに対してプライバシーハッキングコンベといった他者によ る技術的な検証を行う事も、有効と思われる。 27 4.研究構想
  28. 28. 28 参考文献 参考文献
  29. 29. [1] World Economic Forum: Personal Data:The Emergence of a New Asset Class, World Eco- nomic Forum, pp.5 (2011) [2] パーソナルデータに関する検討会: パーソナルデー タの利活用に関する制度改正大綱, 高 度情報通信 ネットワーク社会推進戦略本部(IT総合戦略本 部), (2014) [3] 佐久間 淳, 小林 重信ー: プライバシ保護データマ イニング人工知能学会誌, Vol24 No2, (2009) [4] J. ヴァイダヤ, Y.M. ズー, C.W. クリフトン, 嶋田 茂 (翻訳), 清水 將吾 (翻訳): プライバシ保 護デー タマイニング丸善出版, pp.23–24 (2012) [5] 中川 裕志: プライバシ保護データマイニング人工 知能学会誌, Vol24 No6, (2012) [6] Latanya Sweeney: k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY, Interna- tional Journal on Uncertainty, Fuzziness and Knowledge-based Systems, (2002) [7] 五十嵐 大, 千田 浩司, 高橋 克巳: k-匿名性の確 率的指標へ の拡張とその適用例, コンビ ュータセ キュリティシンポジウム, (2009) [8] 菊池亮,五十嵐大,濱田浩気,千田浩司: データ を逐次公開する際のプライバシー保護, 2012 年度 人工知能学会全国大会(第 26 回), (2012) [9] 小栗 秀暢, 曽根原 登: 実サービスのデータを用い た k-匿名状態の推移調査と, 合理的な匿 名状態評 価指標の検討, 情報処理学会研究報告, コンピュー タセキュリティ (CSEC-2014), (2014) [10] 木村 映善: k 一匿名性を利用した医療保健情報の 利用可能性につ いての考察, 電子情報 通信学会技 術研究報告, pp.223–228(2012) [11] 喜連川 優: 「パーソナルデータの利活用に関する 制度改正大綱」に対する意見, 情報処理 学会, inter- net,https://www.ipsj.or.jp/release/teigen20140724.html, (2014) 29 参考文献

×