Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
匿名化の可能性とセンシティブ情報
から自己情報コントロールへ
中川裕志
はじめに
パーソナルデータに関する検討会の下に設置さ
れた技術検討ワーキングWG報告[佐藤2013]
(以下では「報告書」と略記する.)が2103年12月
10日に公表
パーソナルデータに関連する法制度に関しては、
日本は不十分であるとして...
匿名化における基本概念
個人データのレコード構造
– 個人ID(氏名)
– 疑似ID(性別、住所、年齢、国籍、外部観測可能な行
動履歴など)
– その他のデータ
• プライバシー情報:その他の情報のうち、病名、収入など他
人に知られたくない情...
完全な匿名化の不可能性
• データ業者Aのデータベースは疑似IDがk-匿名化され
ているが、個人の購買履歴も含まれていたとしよう。
• 一方別のデータ業者Bは購買履歴と、行動履歴(通勤
などの乗降駅)からなるデータベースを持っていたと
する。
...
FTC3要件
1. データ事業者はそのデータの非識別化を確保するた
めに合理的な措置を講ずるべき
2. データ事業者は、そのデータを非識別化された形態
で保有及び利用し、そのデータの再識別化を試みな
いことを、公に約束すべき
3. データ事業者...
• データ受領者=データ事業者が使う外部データ
ベースを予見することがますます難しくなってくる。
かくして、どのような危険性が存在するかを事前
に把握しきれない.
この状況においては、データ源の個人から同意をと
ることは難しくなってくる
統...
• この条文中の「識別ができないように加工」に
関して「匿名データの作成・提供に係るガイド
ライン」において、
•
– 1) 識別情報の削除、2) 匿名データの再ソート(配
列順の並べ替え)、3) 識別情報のトップ(ボトム)・
コーディング、4...
• 調査票情報の特性は統計調査ごとに異なる
ことから、各統計調査について一律に匿名化
の基準を設定することは困難である。このた
め、提供機関は、匿名化する統計調査ごとに
その特性を勘案し、一橋大学における匿名標
本データの試行的提供の事例及び諸...
匿名化が有力なケースの分析
• a.疑似ID(住所、年齢、性別などの典型的なもの)の有無
• b.III.の「それ以外の情報」がデータベースへの登録されて
いることが外部に知られているかどうか?(外部可知/不可
知)
• 行動履歴などは外部可知...
• 外部から当該情報の収集を観察可能
•  データベースに格納されていることが知られ
る = 可知
– 例えば、Suicaデータの個人名だけを匿名化したデー
タ(住所などの疑似IDは残して)
• 疑似IDでなく外部不可知なデータって何?
– ...
不可知 & 疑IDなし
データ収集の有無も知られず、かつ疑似IDも
ないとなると、仮にデータが公開されても本人
特定は困難である。
k-匿名化はしていなくても特定はできない。
ただし、その他情報から識別できる唯一の可能
性は、本人のデータ...
不可知 & 擬IDあり
データ収集の有無は知られていないので、識別
さらには特定の手がかりは疑似IDだけ
この場合は、疑似IDから識別特定されなければ
よい
同じ疑似IDの人がk人以上いるように疑似ID
の精度を落とすk-匿名化が効果的...
可知 & 疑IDなし
データ収集事象を外部から観察でき、さらに
データベースに格納されていることが知られ
ると、それは疑似IDと見なせるので、この場
合は原理的に存在しない。
可知 & 疑IDあり
データ収集事象を外部から観察でき、さらに
データベースの格納されていることが知られ
ると、 疑似ID化される。
つまり疑似ID自体が 個人データ
 収集されたデータが入手できれば、他の
疑似IDの有無にかかわらず、...
可知 & 疑IDあり
データ自体をk-匿名化すればよいのではないか
というとそれも難しい。
なぜなら、長期にわたって収集されたデータが
大きくなると、データ自体の個別性が高まりk-匿
名化が困難になる。
つまり、k-匿名化によってデータの...
以上をまとめると
外部からデータ収集していることを観察でき、か
つデータベースに格納されていることが知られて
いる場合
k-匿名化はデータの価値をさげるため、有力な匿名
化手法ではない。
個人データの収集していることを観察できない場
合な...
プライバシー情報
 コアなプライバシー情報:
誰にとっても他人に知られたくない情報をコアなプライバ
シー情報とする。その一部はセンシティブ情報とされる。
ゲノム情報、病気などの生体情報ないし健康情報、財産、債務、
学業成績、親族などがあげ...
状況依存プライバシー情報を超えて情報
上記の滞在場所や移動履歴がプライバシー情報
を超えて情報かどうかは個人ごとに異なる。
例えば、ストーカー行為を受けている人にとっては、相
手に知られたくない情報なので、プライバシー情報で
あろう。しか...
ここまでのまとめと
自己情報コントロール
 個人IDを消去ないし仮名化すること。
 さらに仮名の変更を頻繁に行うこと。
 この基礎的方策により、簡単には識別や特定ができなくなるので、必須であ
る。
 疑似IDは同一のデータベース内に含ま...
自己情報コントロール
自己情報コントロール:
上記の方策でも、外部可知によって疑似ID化した個
人データが集積すると完全な匿名化は難しい。
その場合にはデータ源である個人が
自己の情報の利用され方を開示要求して閲覧できる
こと、
訂正...
自己情報の開示と消去の権利は2013年12月
に欧州議会で可決されたEUのData
Protection DirectiveのProposal for a directive
Recital 16の改正案に記載されている
日本の法制度をEU...
自己情報コントロールへのEUと米国の対応
• EUと米国における最近の自己情報コント
ロールにおける対応の方針を示しているのが
• EUのData Protection 改正案 と 米国の
Privacy Bill of Rights to P...
EUのData Protection 改正案
• 2014年3月12日 EU議会で276対30で可決
• 正式に発行するにはEU理事会の可決も必要だが日程が不透明
• 自己情報コントロールは以下のように記載
1. 忘れられる権利:
• 個人がデ...
米国のPrivacy Bill of Rights
to Protect Consumers(個人) Online
• 2012年2月にホワイトハウスが発表
• 以下のような自己情報コントロールが記載
1. 透明性:
• 個人がプライバシーとセ...
 データ源の個人に安心して同意してもらうためには、個人
IDの消去や仮名化に加え、上記の自己情報コントロール
(開示と消去)がどのように寄与するかに関する調査結果
がIPAから出された。(2014/3/18)
 IPAテクニカルウォッチ「パ...
 以上の結果を踏まえると
1. 有効性に寄与する公の第3者のお墨付きは、技術課題では
なく、精度課題
2. 業者の評判は、個人データ流出や悪用など実質的被害があ
れば大きく損なわれる
よって、データ源の個人に安心して同意してもらうための技
術...
Upcoming SlideShare
Loading in …5
×

匿名化と自己情報コントロール

1,609 views

Published on

パーソナルデータに関する検討会の下に設置された技術検討ワーキングWG報告書が2103年12月10日に公表された。そこでは一般的な匿名化が不可能であることが示された一方、ケースバイケースな対応は可能と書かれているが、その詳細は書かれていない。ここでは、k-匿名化が有効なのは極めて限定されたケースであることを示す。また、もう一つの重要な要素であるセンシティブ情報が、実は非常に定義しにくいことも示した。最期に、パーソナルデータの利活用にあたってはk-匿名化に頼るより、自己情報コントロール権の実効性のある実装と「同意」を組み合わせるほうが有望ではないかという論点を提示する。

Published in: Data & Analytics
  • Be the first to comment

匿名化と自己情報コントロール

  1. 1. 匿名化の可能性とセンシティブ情報 から自己情報コントロールへ 中川裕志
  2. 2. はじめに パーソナルデータに関する検討会の下に設置さ れた技術検討ワーキングWG報告[佐藤2013] (以下では「報告書」と略記する.)が2103年12月 10日に公表 パーソナルデータに関連する法制度に関しては、 日本は不十分であるとして、EUからはゲノム情 報などの有用な情報の輸入を禁止されている 匿名化を現実社会で使うにあたっての技術課題, 制度設計について検討してみた
  3. 3. 匿名化における基本概念 個人データのレコード構造 – 個人ID(氏名) – 疑似ID(性別、住所、年齢、国籍、外部観測可能な行 動履歴など) – その他のデータ • プライバシー情報:その他の情報のうち、病名、収入など他 人に知られたくない情報をプライバシー情報という。 「特定」=「ある情報が誰の情報であるかが分か ること」 「識別」=「ある情報が誰か一人の情報であるこ とが分かること」
  4. 4. 完全な匿名化の不可能性 • データ業者Aのデータベースは疑似IDがk-匿名化され ているが、個人の購買履歴も含まれていたとしよう。 • 一方別のデータ業者Bは購買履歴と、行動履歴(通勤 などの乗降駅)からなるデータベースを持っていたと する。 • すると、データ業者Aのデータベースをデータ業者B が入手すれば、購買履歴によって個人を一意に識別 でき、その個人の行動履歴を知ることができる。  突き合わせに使う外部データベースを予見しきれない 以上、データ業者は疑似ID以外の全情報も合わせて k-匿名化しなければならない。しかし、これによって データベースの精度は劣悪化
  5. 5. FTC3要件 1. データ事業者はそのデータの非識別化を確保するた めに合理的な措置を講ずるべき 2. データ事業者は、そのデータを非識別化された形態 で保有及び利用し、そのデータの再識別化を試みな いことを、公に約束すべき 3. データ事業者が非識別化されたデータを他の事業者 に提供する場合には、それがサービス提供事業者で あろうとその他の第三者であろうと、その事業者が データの再識別化を試みることを契約で禁止 • ※個人を識別可能なデータと、ここで説明した非識別 化のための措置を講じたデータの双方を保有及び利 用する場合には、これらのデータは別々に保管すべき
  6. 6. • データ受領者=データ事業者が使う外部データ ベースを予見することがますます難しくなってくる。 かくして、どのような危険性が存在するかを事前 に把握しきれない. この状況においては、データ源の個人から同意をと ることは難しくなってくる 統計データだったらどうか? • 統計法第2条12項 この法律において「匿名デー タ」とは、一般の利用に供することを目的として 調査票情報を特定の個人又は法人その他の団 体の識別(他の情報との照合による識別を含 む。)ができないように加工したものをいう。
  7. 7. • この条文中の「識別ができないように加工」に 関して「匿名データの作成・提供に係るガイド ライン」において、 • – 1) 識別情報の削除、2) 匿名データの再ソート(配 列順の並べ替え)、3) 識別情報のトップ(ボトム)・ コーディング、4) 識別情報のグルーピング(リ コーディング)、5) リサンプリング、6) スワッピン グ 、7) 誤差の導入 • のような処理が列挙されているが、匿名化の 基準については、次のページのような記述
  8. 8. • 調査票情報の特性は統計調査ごとに異なる ことから、各統計調査について一律に匿名化 の基準を設定することは困難である。このた め、提供機関は、匿名化する統計調査ごとに その特性を勘案し、一橋大学における匿名標 本データの試行的提供の事例及び諸外国の 統計機関における同様の提供の事例等を参 考に匿名化の基準となる値、例えば、最小値 が2件以下とならない等を定める。 • 技術的なことは何も言ってくれていない
  9. 9. 匿名化が有力なケースの分析 • a.疑似ID(住所、年齢、性別などの典型的なもの)の有無 • b.III.の「それ以外の情報」がデータベースへの登録されて いることが外部に知られているかどうか?(外部可知/不可 知) • 行動履歴などは外部可知だとすると疑似IDとみなせる。 • 長時間観測すると個人の一意特定が可能である。 III.それ以外の情報 疑似ID無 疑似ID有 外部不可知 不可知 & 疑IDなし 不可知 & 疑IDあり 外部可知 可知 & 疑IDなし 可知 & 疑IDあり
  10. 10. • 外部から当該情報の収集を観察可能 •  データベースに格納されていることが知られ る = 可知 – 例えば、Suicaデータの個人名だけを匿名化したデー タ(住所などの疑似IDは残して) • 疑似IDでなく外部不可知なデータって何? – 医療データ、金融資産、成績、非公開な資格、Web のクリックログ – いすれも、データ収集事業者は他に漏らさないという 義務や契約があるもの。
  11. 11. 不可知 & 疑IDなし データ収集の有無も知られず、かつ疑似IDも ないとなると、仮にデータが公開されても本人 特定は困難である。 k-匿名化はしていなくても特定はできない。 ただし、その他情報から識別できる唯一の可能 性は、本人のデータ自体が一意的である場合、 例えば10億円の宝石を購入したなど。この場合 は、トップコーディングのような既存の手法が有 効である。
  12. 12. 不可知 & 擬IDあり データ収集の有無は知られていないので、識別 さらには特定の手がかりは疑似IDだけ この場合は、疑似IDから識別特定されなければ よい 同じ疑似IDの人がk人以上いるように疑似ID の精度を落とすk-匿名化が効果的 行動履歴が疑似IDだと見なせるとk-匿名化が必要だ が、データの価値が下がる可能性大。
  13. 13. 可知 & 疑IDなし データ収集事象を外部から観察でき、さらに データベースに格納されていることが知られ ると、それは疑似IDと見なせるので、この場 合は原理的に存在しない。
  14. 14. 可知 & 疑IDあり データ収集事象を外部から観察でき、さらに データベースの格納されていることが知られ ると、 疑似ID化される。 つまり疑似ID自体が 個人データ  収集されたデータが入手できれば、他の 疑似IDの有無にかかわらず、データと観察日 時などから本人特定が可能 例:Suicaデータを匿名化しただけで他業者に転 売&駅での乗降を誰かが観察していたような場 合
  15. 15. 可知 & 疑IDあり データ自体をk-匿名化すればよいのではないか というとそれも難しい。 なぜなら、長期にわたって収集されたデータが 大きくなると、データ自体の個別性が高まりk-匿 名化が困難になる。 つまり、k-匿名化によってデータの精度を大幅に落と さなければならないが、そうなるとデータの価値自体 が大きく下がってしまう。 個人IDを仮名化し、その仮名化を1日単位など 頻繁に取り替えることは有力 同一の個人の行動履歴ではなくなるため、やはり データの価値は下がってしまう。
  16. 16. 以上をまとめると 外部からデータ収集していることを観察でき、か つデータベースに格納されていることが知られて いる場合 k-匿名化はデータの価値をさげるため、有力な匿名 化手法ではない。 個人データの収集していることを観察できない場 合ないしデータベースへの格納が知られていな い場合 疑似IDがなければk-匿名化は不要、疑似IDがあれ ば疑似ID を対象にしたk-匿名化が有力となる。
  17. 17. プライバシー情報  コアなプライバシー情報: 誰にとっても他人に知られたくない情報をコアなプライバ シー情報とする。その一部はセンシティブ情報とされる。 ゲノム情報、病気などの生体情報ないし健康情報、財産、債務、 学業成績、親族などがあげられ 何を選ぶかは社会常識によるしかない。 逆に言えば、その定義には社会常識程度の安定性はある。 ところで、EUでは滞在場所の情報は氏名と同じレベルの 個人IDと見なすData Protection Directive が昨年の欧州 議会で可決 日本では、滞在場所、移動履歴が個人IDなのかプライバ シー情報なのかまだ確定していない模様。
  18. 18. 状況依存プライバシー情報を超えて情報 上記の滞在場所や移動履歴がプライバシー情報 を超えて情報かどうかは個人ごとに異なる。 例えば、ストーカー行為を受けている人にとっては、相 手に知られたくない情報なので、プライバシー情報で あろう。しかし、他人につきまとわれることのない人で あればプライバシー情報ではない。 議論を簡単にするためにはEUのように個人IDとし てしまうのもひとつの策 ただし、滞在場所や行動履歴はビジネスに役立つ情 報なので、できれば活用したいものである。 購買履歴も個人ないし状況依存 たとえば、薬剤の購入は場合によってはプライバシー 情報になりうる。
  19. 19. ここまでのまとめと 自己情報コントロール  個人IDを消去ないし仮名化すること。  さらに仮名の変更を頻繁に行うこと。  この基礎的方策により、簡単には識別や特定ができなくなるので、必須であ る。  疑似IDは同一のデータベース内に含ませないことをデフォールトとする  外部観測可能でデータベース登録の有無は可知のデータは疑似IDと見なさ れる。  疑似IDが必要な場合は、それだけをデータベースから分離して別のデータ ベースとして、  仮名化されている個人IDとの対応テーブルは暗号化などでさらに管理を厳 重化する。  疑似IDが存在しなければ、個人の特定は難度が高い。  というような方策が考えられるが、外部可知によって疑似ID化された個人データ を考えると完全な匿名化は難しい。  そこで自己情報コントロールの実効性ある実装が浮かび上がってくる
  20. 20. 自己情報コントロール 自己情報コントロール: 上記の方策でも、外部可知によって疑似ID化した個 人データが集積すると完全な匿名化は難しい。 その場合にはデータ源である個人が 自己の情報の利用され方を開示要求して閲覧できる こと、 訂正/消去要求でき実際の訂正/消去を確認でき ること が重要となる。 これは、純粋にソフトウェアおよびデータベース 構築の実装上の問題
  21. 21. 自己情報の開示と消去の権利は2013年12月 に欧州議会で可決されたEUのData Protection DirectiveのProposal for a directive Recital 16の改正案に記載されている 日本の法制度をEUレベルにするなら必要な改革 となる。 データ利用についても同意内容が重要だが [Schörnberger2013](邦訳:ビッグデータの正体) の9章: ビッグデータの利用法は収集の前には予め列挙 できないこと, ゆえに利用法を指定しての同意取得は実効性が ない
  22. 22. 自己情報コントロールへのEUと米国の対応 • EUと米国における最近の自己情報コント ロールにおける対応の方針を示しているのが • EUのData Protection 改正案 と 米国の Privacy Bill of Rights to Protect Consumers Online(消費者権利章典) • である。次のスライドに示すように、自己情報 の開示、訂正、消去にかんする個人の権利を 明確化している
  23. 23. EUのData Protection 改正案 • 2014年3月12日 EU議会で276対30で可決 • 正式に発行するにはEU理事会の可決も必要だが日程が不透明 • 自己情報コントロールは以下のように記載 1. 忘れられる権利: • 個人がデータ消去を希望する、ないし企業側がデータ保持の合理的 根拠がない場合は、個人データは消去されること。 2. 個人データへの容易なアクセス • 個人データを収集した業者以外のサービス提供者にも使わせられる 権利あり。 3. 自身によるコントロール • 個人データの処理は個人から明確な同意が必要. また、収集した データが流出、暴露された場合は速やかのデータ源の個人に連絡す べし。 4. データ保護の事前 • データ保護の仕掛けは、Privacy by designの考えにのっとり、システ ム設計時から組み込むこと
  24. 24. 米国のPrivacy Bill of Rights to Protect Consumers(個人) Online • 2012年2月にホワイトハウスが発表 • 以下のような自己情報コントロールが記載 1. 透明性: • 個人がプライバシーとセキュリティに関して容易に理解可能な情報を持てること 2. 同意した条件の尊重: • 個人 は自身が同意した条件に一致する場合のみ、データ事業者が個人データを処理、公 開できる。 3. セキュリティ: • 個人は自身の個人データが安全であることを保証されること 4. アクセスと正確さ: • 個人は自己の個人データを収集したデータ事業者に対し,個人が扱える様式でアクセスお よび訂正の要求を出す権利を持つ 5. 合理性のあるデータ収集: • 個人は自身の個人データのデータ事業者の収集と保持を合理的な範囲に制限する権利 を持つ 6. 説明責任: • 個人は自身のデータがConsumer Privacy Bill of Rights の沿って扱わせる権利を持つ
  25. 25.  データ源の個人に安心して同意してもらうためには、個人 IDの消去や仮名化に加え、上記の自己情報コントロール (開示と消去)がどのように寄与するかに関する調査結果 がIPAから出された。(2014/3/18)  IPAテクニカルウォッチ「パーソナルデータを活用したオン ラインサービスに有効な個人情報保護対策 」  http://www.ipa.go.jp/files/000037098.pdf によれば、 1. 第3者による保証(たぶん、公の個人情報保護期間のお墨 付きが想定されているのだろう) 2. 当該データ処理業者の評判 3. 自己情報へのアクセス履歴の閲覧(自己情報コントロールの 一部)  がデータ事業者への信頼感向上に有意に作用する。一方 4. 自己情報のコントロールの仕方(誰にどこまでの自己情報の 使用を許すかの管理)  は信頼感向上に有意な寄与はない。  なお、自己情報コントロールの訂正や消去については調 査されていない。
  26. 26.  以上の結果を踏まえると 1. 有効性に寄与する公の第3者のお墨付きは、技術課題では なく、精度課題 2. 業者の評判は、個人データ流出や悪用など実質的被害があ れば大きく損なわれる よって、データ源の個人に安心して同意してもらうための技 術的に可能かつ有効そうな対策は  個人IDの消去や仮名化に加え、上記の自己情報コント ロール(開示と消去)の実施が確実に行えることを保証  EUの動きなどとも整合性が増す。  ただし、業者の負担は増すので、業界からの抵抗があるだろう。  負担の少ない枠組みや技術の開発が急務  データ事業者がデータ公開以前に自己情報コントロール を行使できることが理想だが、実際は公開後になるかもし れない。  このストーリーが動けば、「同意」が実質的意味を持つとい う解決の方向性がほの見えてくる。

×