Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Scis2014 匿名化(最終版)

4,987 views

Published on

SCIS2014 「「完全な匿名化」幻想を超えて Beyond the Fantasy of ”Perfect Anonymity”」 板倉陽一郎・伊藤孝一・菊池浩明・高木浩光・高橋克巳・中川裕志 ・疋田敏朗・廣田啓一・山口利恵・渡辺創

Scis2014 匿名化(最終版)

  1. 1. 「完全な匿名化」幻想を超えて Beyond the Fantasy of ”Perfect Anonymity” 板倉陽一郎・伊藤孝一・菊池浩明・高木浩光・高橋克巳・中川裕志 疋田敏朗・廣田啓一・山口利恵・渡辺創 1
  2. 2. この門をこえると —  ビッグデータから個人情報を外して(匿名化して)自由に 流通できる!バラ色の世界が簡単に手に入るはず! 匿名化データを自由に 活用できるバラ色の 世界が待っている
  3. 3. 匿名化データがほしい —  匿名化データを作成可能な「万能マジカルボックス」 —  匿名化データとは何か ← 個人を識別特定できないデータ 匿名化データ な〜れ〜♪ ボックスをとじて、 魔法使いに渡そう 生データ 完全な匿名化情報 がでてくる? 生データを直接入れると
  4. 4. 個人情報とは? とてもややこしい •  そもそも定義をしているところがたくさん o  o  o  o  •  •  民間事業者:個人情報保護法 国:行政機関個人情報保護法 独立行政法人:独立行政法人等個人情報保護法 地方公共団体:個人情報保護条例 個人情報保護法上は、プライバシーについて言及されていな い 保護すべき情報とは何か? o  o  名刺の束? 氏名、生年月日? →もっと大事なことはあるのでは。
  5. 5. DBデータの属性の区分 生データ 会員番号、氏名、生年月日、住所、年齢、購買品1、購買品2、購買品3、..... 属性として整理すると A属性 B属性 C属性 会員番号、氏名、生年月日、住所、年齢、購買品1、購買品2、購買品3、.... A属性:個人識別用属性…専ら個人を識別するために用いられる属性 B属性:個人属性…個人が備える属性として一般的なもの C属性:その他…どちらでもない属性 5
  6. 6. 個人情報保護法においては —  個人情報保護法における「個人情報」の定義 1.  個人に関する情報であって、その情報から特定の個人を識 別できるもの —  どの属性から特定の個人が識別できるか? —  —  —  A 属性: 個人識別用の情報なので、通常、これにより特定の個人が 識別される B 属性の一部: 住所や生年月日からほとんどの場合個人一人に絞 られる それ以外は? 2.  1.の情報が、他の情報と照合することができるものであり、 その照合によって特定の個人を識別できるようになるもの —  どの属性を他の情報と照合するのか? 6
  7. 7. よくある「匿名化」処理 A属性 B属性 会員番号、氏名、生年月日、住所、年齢、 本人を特定する ための情報なので 削除 C属性 購買品1、購買品2、購買品3、.... 本人の特定に使われ る可能性があるため 曖昧化加工 完全公開OK? k-匿名化の議論では、A属性を削除し、B属性をk-匿名化して、C属性を変更しない 方法で行われてることが多いが、C属性はそのままでよいのか? 購買品の組み合わせを見ると個人特定できませんか? 7
  8. 8. 完全な匿名情報とは 情報が公開されても個人が識別、特定されないデータにする B属性 A属性 C属性 会員番号、生年月日、住所、年齢、 購買品1、購買品2、購買品3、..... 本人が特定される 本人が特定される 可能性があるため 可能性があるため 削除 本人が特定される 可能性があるため 曖昧化加工 結局、C属性も含めてk-匿名化が必要では? 8
  9. 9. 加工方法の例:k 匿名化 —  開示データからの個人識別を防ぐための匿名化モデル —  [Sweeney 02] k-Anonymity: A Model for Protecting Privacy —  準識別情報つまりB属性の情報について、共通の組み合わせを持つレコード が少なくともk個以上存在する時、開示データはk 匿名性をみたすと言う —  k 匿名化 —  属性の一般化や秘匿などにより、k 匿名性をみたすように、共通の準識別情 報( B属性の情報)の組み合わせを持つ複数のレコード集合を構成すること 趣味 1 2 3 4 5 6 7 8 9 1800005 1800012 1800003 1810015 1810015 1810013 1800003 1800021 1800001 1800099 男 男 男 女 女 女 男 男 男 男 39 32 37 40 46 43 50 52 60 66 アニメ アニメ アニメ 映画 アニメ ドラマ 映画 ドラマ ドラマ 時代劇 10 № 3匿名化 郵便番号 性別 年齢 趣味 1 2 3 18000** 18000** 18000** 男 男 男 3* 3* 3* アニメ アニメ アニメ 4 5 6 18100** 18100** 18100** 女 女 女 4* 4* 4* 9 10 18000** 18000** 18000** 18000** 男 男 男 男 ここでは、 郵便番号・性別・年齢 7 に注目 8 3 映画 アニメ ドラマ 3 50以上 映画 50以上 ドラマ 50以上
 ドラマ 50以上 時代劇 4 :) 年齢 :) 性別 :) 郵便番号 :( № 3-匿名性(郵便番号・性別・年齢) 9
  10. 10. 完全な k 匿名化データ以外は公開できない —  少しでも情報を残してよいとすると、別データと組み合わせ が可能な危険性がある ⇒ どの準識別子( B属性の情報)に対しても k 匿名性を満た したデータ以外は公開しない以外に方法はない 3-匿名性(*) 郵便番号 3-匿名性(郵便番号・性別・年齢) 郵便番号 性別 年齢 趣味 18000** 18000** 18000** 男 男 男 3* 3* 3* アニメ アニメ アニメ 18100** 18100** 18100** 女 女 女 4* 4* 4* 映画 アニメ ドラマ 場合によっては、個人特定可能なデータが残る、こ んなにわかりやすければ消すだろうが、1人だとす ると、再識別可能な可能性が残る 性別 年齢 18000** 18000** 18000** 男 男 男 3* 3* 3* 18100** 18100** 18100** 女 女 女 4* 4* 4* 18000** 18000** 18000** 18000** 男 男 男 男 50以上 50以上 50以上
 50以上 10
  11. 11. 情報の有用性の減少 •  k-匿名性を満たした実データ解析 •  人の流れプロジェクトの活用 —  東京都が行ったアンケート調査から人の動きを抽出したプロジェクト、722,000人分の人 —  •  の動きのデータ 個人の居た場所情報をB属性と見なすことにする。 人の流れプロジェクトのデータから、 k-匿名性を満たしたデータを作成 —  同じ場所に同じ時間、 k人以上いた場合にのみ残したデータを作成 ⇒ 単純になりすぎて、役に立たない 「人の流れプロジェクト」のデータ k匿名性を満たしたデータ 匿名化 データとして役に立たない 11
  12. 12. 加えて問題が —  他にどういう問題が残るのか —  誰かに不利な統計情報というものは残る —  例)新大久保のヘイトスピーチ —  準識別子(B属性の情報)の性質やその項目がプライバシーにデリ ケートか —  例)匿名化はされたがポルノを買った群と明示された —  そのデータに入っているかどうかの推測のしやすさ —  k/n 全体のデータ量nとkの値に適切なものがありそう 3-匿名性(*) 郵便番号 この匿名データに 入っているかどうか の推測のしやすさ 男 男 男 3* 3* 3* 18100** 18100** 18100** 匿名化データ 年齢 18000** 18000** 18000** 性別 女 女 女 4* 4* 4* 18000** 18000** 18000** 18000** 男 男 男 男 50以上 50以上 50以上
 50以上 全体の量nとk人 に依存 こういう情報なら いいがデリケー トな準識別や項 目もありそう ある人に不利な統 計情報として公開 される可能性 12
  13. 13. 万能マジカルボックス プライバシーを保てる「万能マジカルボックス」があると 思っている? 匿名化データ な〜れ〜♪ ボックスをとじて、 魔法使いに渡そう 生データ 完全な匿名化 データがでてくる? 生データを直接入れると
  14. 14. 幻想から脱却する 目的を考え、処理プロセスを定義・管理していくことが必要 プロセス全体 の管理 最終目的のアプリ 目的に合わせた生 データの選定 生データ 目的を考えた 変換 生データを直接入れると 必要な匿名化デー タ 匿名性を保った データの生成
  15. 15. 匿名性を高める条件とは? —  受領データの公表:データの統計情報、属性を公開する —  どの程度統計化した場合に匿名性が担保されるのかについて検討を —  目的:情報をどのように使いたいのかを特定する —  万能マシンに頼るのではなく、自らプライバシー情報をどの程度利用し たいのかについて検討を —  安全管理措置:情報が適切に再識別困難であることの確認 —  利用したい情報が統計情報とならなかった場合、きちんとした扱いを —  どうしてもk=1のデータは使いたい。その場合にはちゃんとした管理を —  情報の扱いについて危険性の評価を —  提供データの公表:どういうデータを提供しているのかを公開 —  第三者から提供情報の是非が判断できるように
  16. 16. カブキアンのPrivacy by Designに基づく 技術、制度、法律を総合した第三者提供の枠組み
  17. 17. 結論 —  現状の動向(制度、技術の両面)をまとめた —  現行の個人情報保護制度と現状の匿名化に関する世間の 動向についてまとめたうえで, 現状技術について考察を行った —  「完全な匿名化」を満たすような汎用な技術は存在しない —  一方,世論調査や統計局の調査等,高い匿名性のあるデータ 利活用の例は存在している —  今後は, それぞれの利用領域に特化し,活用するデータ・利 用シーンごとに丁寧な解析を行い適切な利用を行う必要が ある
  18. 18. 門を超えたとしても いつかバラまで たどり着けるさ! —  ビッグデータを安全に活用するには、まだまだ道半ば! 門を超えたけど、次の 門がある! その先もありそう!

×