Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

匿名化の技術的俯瞰ー匿名加工情報の観点から

3,744 views

Published on

個人情報保護法の改正案で導入された匿名加工情報は未だ定義が明確化されていないように見える。既存の匿名化関連技術を俯瞰し、匿名加工情報との関連を考えてみる。

Published in: Health & Medicine

匿名化の技術的俯瞰ー匿名加工情報の観点から

  1. 1. 匿名化の 技術的俯瞰 中川裕志 東京大学 第5回 ビッグデータ時代における医療情報の社会実装に向けた研究会 2015年7月23日
  2. 2. 個人情報保護の法制度を巡る状況 • EUのデータ保護規則 • 米国の消費者権利章典の法制化 – 参考書:個人情報保護法の現在と未来 – 石井夏生利著 勁草書房 2014年 • 日本の個人情報保護法改正
  3. 3. 脱匿名化 容易>困難 • 上のタイトルのあるスライドでは、以下の記法です: • 脱匿名化の容易さに関して 不等号>の左側は右側より 容易であることを意味しています。 – 例えば、k-匿名化の場合 k=2 > k=100となります。明らかに k=100よりk=2のほうが匿名化が破られやすい(つまり、脱匿名化 しやすい) – ただし、 • 脱匿名化とは複数に個人データが誰か1名のものだと分かることか(= 一意絞り込み)、 • その1名が実世界の誰なのか、 は文脈によりけりです。 – 強いて言えば、privacy breach と書いた場合は実世界の個人特 定までされたことを意味します。
  4. 4. 脱匿名化 容易>困難 • 仮名化 – (仮名更新なし) > (仮名更新あり) > (データ毎仮名更新) =無名化 – 個人IDと仮名対応表の管理の厳しさ 管理者=?利用者 – 医療分野における連結可能/不可能匿名性の概念 • 連結可能個人IDと仮名対応表あり • 連結不可能個人IDと仮名対応表なし – 個人情報保護改正案では仮名化した情報は依然とし て個人情報 • 匿名加工情報ではない同意無しの利活用不可 • 目的外利用には同意取り直し
  5. 5. • 仮名の生成は以下 • 個人IDハッシュ関数ハッシュ値 • ハッシュ値は個人ID1文字に対して64バイトと 非常に長くなる  対応表の管理コスト大。 – ところが、1データ毎に仮名を生成する場合は、 個人IDを消去するだけで無名化するなら仮名は 不要。 管理コストはなく、自動的に連結不可能
  6. 6. 脱匿名化 容易>困難 • 疑似ID の属性情報(住所、性別、生年月日、etc) – 属性数 多い > 少ない > なし – 精度 高い > 低い • 例: 1990年9月9日 > 1990年9月 • データ自体の疑似ID化 – できる > ある程度(確率的) > できない • 例: 購買履歴、乗車履歴 – なぜ危ないのか? • 一意絞り込み可能 + 外部からの行動観察によるevidence •  個人識別できて、privacy breachできてしまう
  7. 7. • サンプルデータ:サンプル率 – 100% > 大きい(10%?) > 小さい(1%) • 雑音加算 – 雑音なし > 小 > 大 – 差分プライバシーという尺度で測る • トップコーディング – 削除範囲小 > 削除範囲大 脱匿名化 容易>困難
  8. 8. 誤解ないようにしたいのが暗号化 • 暗号化 – 匿名化とは違う。あくまで安全管理措置。 • 暗号化しても個人情報は個人情報 – 廃棄が容易  鍵を捨てれば廃棄と見なせる – 鍵管理が鍵 • 準同型暗号化 – 暗号化したままで加算、乗算などができる。 – 暗号化したままでデータマイニングでき、結果だけを復号 化して入手できる。 – アルゴリズムと計算プロトコルが複雑 – 暗号化、復号の処理がとても重たく、実用性がまだまだ
  9. 9. 匿名化加工情報 個人情報保護法改正案 1 • 2015年4月現在で個人情報保護法の改正案 が国会審議されています。 • 改正案で匿名加工情報が新たに導入されま した(新36条)。 – 匿名加工情報はデータ主体の個人の同意がなく ても第三者に移転できます。 – しかし、第三者は本人を識別する以下の行為が 禁止されています。 • データ作成者が削除した情報や加工方法の取得 • 他の情報と突き合わせての照合
  10. 10. 匿名化加工情報 個人情報保護法改正案 2 • ただし、新36条1項によると、匿名加工情報 の内容的な定義は個人情報保護委員会が定 めることになっています。 – 個人情報保護委員会の設置も改正案による • 全部先送りじゃん?! • でも、決まっていないということは、議論するチャンス があるということだよね。
  11. 11. 匿名化加工情報 個人情報保護法改正案 3 • K-匿名化したら個人情報ではなくなるか? – K=2でも論理的には個人の一意的絞り込みでき ないので個人情報ではありませんが、50%の確 率で privacy breachされます。 • K-匿名化は匿名加工情報か? – はっきりしていませんが、匿名加工情報になる可 能性はあります。だが、それは不幸の始まり
  12. 12. 匿名化加工情報 個人情報保護法改正案 4 • K-匿名化の効能 – データが巨大だと、小さなKの値(K=2,3くらい)でも違う データの人が多くなってしまう • よほどデータの精度を落とさないとダメ価値がなくなる – データを小分けにすると、データ精度を落とさなくてもKを 大きくできそう。 • しかし、小分けデータでは全体像が分からず使いにくい=価値低 • 他の小分けしたK-匿名化データと突き合わせたくなりますが •  匿名加工情報では、そのような突き合わせは禁止されている 模様。 – K-匿名化は匿名加工情報かもしれんが、結局、使えない 奴かも。。。。
  13. 13. 匿名化加工情報 個人情報保護法改正案 5 • 仮名化 – データ利活用の有力な方法だと思われますが、 匿名加工情報ではないとされています。 • しかし、 – 仮名化については、仮名更新のない場合だけが 考えられているようです。仮名化の別の方法であ る多重仮名化や無名化についてもう少し考えて みましょう。
  14. 14. 仮名化の定義 1 – 基礎的なことなのでご存知の方はとばしてくださ い。 • この図のデータレコードの個人IDあるいは疑似IDの 一部ないし全部を削除した個人のレコードについて 考えてみよう。 • ユニークな個人IDがないので、レコードはデータ ベース中での番号を付けておかないと、処理が不便 です。 個人ID 疑似ID 機微情報 そ の 他 の 情 報 氏名 マイナ ンバー 性別 住所 生年月日 宗教 前科前歴 病名 商品 見 た 映画
  15. 15. 仮名化の定義 2 • 個人IDの変わりにランダムな英数字文字列などを割り 振るります。この番号あるいは英数字文字列などを「仮 名」と呼びます。 • また、データベース中の全レコードの個人IDを仮名で置 き換える作業を「仮名化」と呼びます • 仮名化を行った場合、次のスライドのようにデータベー スを (a)個人IDと仮名の対応表、(b)仮名と個人ID以外の レコードの二つに分割します。 – (a)はデータ収集した事業者は保存しておく必要がありますね。 後で当局から提出を求められるかもしれないし。 – しかし、第三者移転するのは(b)だけです。
  16. 16. 仮名化の定義 3 (a)個人IDと仮名の対応表 (b)仮名・個人ID以外のデータベース 個人ID 仮名 仮名 疑似ID 機微情報 その他の情報 太郎 A123 A123 HIV 自営業 ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ 花子 X789 X789 flu 農業 • (a)の対応表と(b)のデータベースを分離して管理し、各々 へのアクセス権限を持つ管理者も別人にしておくという程 度の管理体制は必須です。 • つまり、組織内であっても、別の組織とみなせる別の部 門で管理ことなどが要請されます。 • この管理が不十分だと、誤った漏洩、あるいは不正な横 流しが起きる可能性があります。
  17. 17. 多重仮名化 • 多重仮名化は下の図のような概念です。 • 図はある書店に来店したときの購買履歴 • 太郎が複数の仮名を持つ多重仮名化ができます • 右側の(b)仮名・個人ID以外のデータベースには、仮名がA123の人は10月9日に ポルノ雑誌を購入したという情報しかなく、 • B234,N645はA123と同一人物だと分からないため、 •  (b)のデータベースからはA123が太郎に対応することを知ることが困難になり ます。 – 1データレコード毎に仮名が変わるとむしろ無名化かな。 (a)個人IDと仮名の対応表 (b)仮名・個人ID以外のデータベース 個人ID 仮名 仮名 機微情報 来店日 太郎 A123 A123 ポルノ雑誌 10月9日 B243 B243 アイドル誌 1月6日 N645 N645 週刊誌XX 3月10日
  18. 18. 仮名更新頻度が高い、あるいは1 データ毎に別の仮名だとかなり安全 • 下の図の左側のようにデータベースで各個人の仮名がランダムに配置さ れていたとしましょう • 移転先で右側のように特定個人の仮名が名寄せされていることが分かる と、移転先で非合法な照合をしたことが容易にわかります。 – 部分的でもこういう名寄せが見つかれば証拠になります。 • 個人情報保護委員会として調査しやすい 太郎 A123 A123 データ1 B234 B234 データ2 C345 C345 データ3 次郎 D123 D123 データ4 E234 E234 データ5 F345 F345 データ6 太郎 A123 A123 データ1 B234 B234 データ2 E234 E234 データ5 次郎 D123 D123 データ4 C345 C345 データ3 F345 F345 データ6
  19. 19. 時間毎に仮名更新 • 時間経過に沿ってデータ収集するなら、仮名の変更 頻度を高くすれば安全性が増します。 • 仮名の変更頻度が低い、あるいは固定した仮名を使 い続けるという状態で(b)のデータベースを作った場合、 個人特定の危険性は高くなる。 • 前々スライドの図の例なら、 – 3回にわたって各時期の購入書籍が分かり、 – 1月にアイドル誌、 – 3月に週刊誌XXを持ち歩いていることが知れれば、 –  10月の購入書籍も推定されかねない。 • ちなみにSuicaの事案では1ヶ月同じ仮名を使うとして いたため、危険性が高いと危惧された。
  20. 20. 医療では継続性の価値が高い • 頻繁な仮名変更は匿名化の強化に役立ちます • が、データ主体である個人の継続的な個人データが重要である場 合には、データの価値を損ないます。 – 例えば、医療データにおいては、特定の個人の医療データあるいは 健康データを継続的に収集し、分析することによって病気を特定した り、処方薬を選定したりすることが効果的あるいは必要です。 – したがって、頻繁な仮名の付け替えはデータの価値を損なうことにな ります。 • 多重仮名化の場合、利用者が必要なときに多重仮名の対応を管 理者に問い合わせることもありえます。 – 管理者からオーサライズされた利用者であれば問い合わせ可能とし ます。 – ただし、いちいち人手で問い合わせるのでは、たまりませんから、 – 機械的に問い合わせるシステムが必要です。
  21. 21. 仮名更新頻度とデータ利用可値の関係 • 仮名の更新頻度とデータ利用可値は下の図のよう な関係があります。 • ただし、応用分野によって更新頻度が高くてもそこ そこの価値がある場合もあります。 • 次のスライドに簡単に思いつくケーススタディをまと めてみました。 利用価値 更新頻度 更新なし 低い 高い 1データ毎更新 大雑把ですが、各色の例は 交通 購買 医療
  22. 22. 情報カテゴリー 仮名の更新頻度 利用価値 医療情報 更新なし 患者個人の長期病歴や生活習慣とかかる病気の 関係を分析できる 更新あり 個人の追跡調査できず。ただし、短期間の流行把 握は可能 運転履歴 更新なし 個人ID収集も同意あり個人の車の状態を把握し て修理アドバイスや運転癖の指摘できる 個人ID収集も同意なし車と運転癖との関連の データ分析 低頻度 交通流の長期的傾向把握(都市設計などに使え る) 1ヶ月単位くらいだと、曜日毎の交通流把握が可能 で、交通規制などに役立つかもしれない 高頻度 短い時間の間の交通流の把握のみ 購買履歴 更新なし 個人ID収集も同意あり行動ターゲッティング広告 個人ID収集も同意なし不明 低頻度 個人の長期間にわたる購買傾向。例えば春にXを 買った人は夏にYを買う傾向があるというようなデー タマイニング 高頻度 個人の短期的な購買傾向把握 1データ毎に更新 特定の品物の売れ行き調査
  23. 23. 仮名化でできることは? • 前のスライドの例にあるように、仮名化データでできる ことはおおよそ統計処理 • 当然、個人のプロファイリングにも使えない – プロファイルの類型をデータマイニングして統計データと みなし、別のところから得た個人情報と照合してターゲッ ト広告は可能か? • 一度、統計情報化はされているわけだが – 個人情報保護委員会が決めるのかな – プロファイリングそのものをしたいときには、やっぱり同意 を得て、個人情報そのものを使うしか。 – 仮名化されたデータのトレーサビリティはかなり難しい。ト レーサビリティは名簿屋対策だが、名簿屋以外への負担 が大きい。その負担を立法者は意識していただろうか。。。
  24. 24. EUのデータ保護規則修正案 • 現在、審議中のEUのデータ保護規則の議会 修正案では、仮名データが追加され – 追加情報の利用が伴わなければ特定のデータ主 体に帰属させることができない個人データ – 追加情報は別管理され、不帰属を確実にするた めの技術的及び組織的措置が講じられる場合に 限る – (石井先生の「個人情報保護の現在と未来」より)

×