『データ解析における
プライバシー保護』
(佐久間淳)1, 2, 6章
2016/9/23
光成滋生
• 『データ解析におけるプライバシー保護技術』
Privacy Preservation in Data Analytics
以降、略してPPinDA
• 大きく三つのPP技術を紹介する本
• 仮名化・匿名化
• 2~5章
• 差分プライバシー
• 7~9章
• 秘密計算
• 10~14章
• 6章は攻撃者モデル
• とりあえず1~2章→6章→7~9章のあと残りを順に
概要
2/27
• 特定や連結のリスクを低減する手法
• 仮名化
• 氏名をランダムな文字列に置き換えること
• 匿名化
• データを曖昧にすること
仮名化・匿名化
氏名 年 職業 年収
真田昌幸 31 市職員 460万円
徳川慶喜 36 大学教員 640万円
紫式部 26 看護師 540万円
氏名 年 職業 年収
abcdef 30代 公務員 460万円
0234234 30代 公務員 640万円
20rnav93 20代 医療職 540万円
3/27
• 第三者に提供するプライバシー保護技術(PP)
• データの1行が個人を表すデータベース(DB )
• 攻撃者
• 個人を特定しようとするデータ取得者
• 特定
• DBの各行がどの人物のものかを結びつけること
• 連結
• ある人物を表す行と同一人物の別のデータを結びつけること
三つの技術の概要
4/27
• 背景
• DBの様々な統計量を提供すると
個別の人物の情報が推測されるリスクがある
• 例:
• 攻撃者の背景知識「全体でN人で看護師は紫式部だけ」
• このとき次の統計量クエリを投げる
• Q1. 全員の平均年収は?
• Q2. 看護師以外の全員の平均年収は?
• すると紫式部の年収が分かる
差分プライバシー(1/2)
5/27
• 統計量が得たときに攻撃者の背景知識にかかわらず
個人の情報が推測化されるリスクを定量評価するため
の基準を与える
• 攻撃者の推測を妨げる手段を提供する
• 先ほどの例
• Q1, Q2の返事にノイズを加えて答える
差分プライバシー(2/2)
6/27
• DBが複数の機関に分散して存在しているとき個別の
DBを互いに共有することなく秘密性を保ったまま
統計解析や機械学習などの計算の結果のみを取得する
• DB1とDB2それぞれ別の機関が保持
• 両機関が互いに名前を見せずにこんな表を作りたい
• 差分プライバシーの技法は別途必要
秘密計算によるデータ解析
氏名 肺癌の有無
真田昌幸 あり
徳川慶喜 なし
紫式部 なし
... ...
氏名 喫煙の有無
真田昌幸 なし
徳川慶喜 あり
紫式部 あり
... ...
喫煙歴なし あり
肺癌なし 1233 837
肺癌あり 715 642
7/27
• 個人情報
• 日本の個人情報保護法における個人情報
• 生存する個人に関する情報で、当該情報に含まれる氏名、
生年月日その他の記述などで特定の個人を識別できるもの
• 他の情報と容易に照合できて特定の個人を識別できるもの
• メールアドレス、SNSのアカウントなどが個人情報か
どうかは明確でない
• プライバシー上の問題が存在する種類の情報もある
• パーソナルデータという
2章データ提供におけるプライバシー問題
8/27
• 特定
• ある個人と一意に結びつく情報(マイナンバー、運転免許番
号など)が除外されて個人を特定できないデータから、
そのデータを該当する個人と再び結びつけること
• 連結
• ある個人のデータを同一人物の別のデータと結びつけること
• 個人が特定されていないこともある
• 属性推定
• ある個人のデータの一部が削除されているときに
そのデータを復元、推定すること
• 個人が特定されていないこともある
プライバシーの問題(1/2)
9/27
• 連絡
• あるデータをもつ人がその個人に連絡すること
• 訪問、郵便物を送る、電話をかける、メールを送るなど
• 特定=連絡のときもある
• 直接被害
• あるデータをもつ人がその個人に直接的な被害を与えること
• クレジット番号の無断使用、SNSのなりすましなど
• 日本の個人情報保護法で明確に守るべきもの
• 特定、連絡、直接被害
• クレジット番号、SNSのアカウント名なども配慮が必要
• 配慮したからといって、プライバシー上の懸念が
完全になくなるわけではない
プライバシーの問題(2/2)
10/27
• 電子情報通信学会 Vol.99 No.6
• 2013年NICTが大阪ステーションシティにビデオカメラを設置
して災害時における人の流動性を把握する実験を発表
• 反発が大きく実施延期
• 個人情報保護法に違反してなくてもプライバシー権を
違法に侵害していないとは限らない
• 公道に体重計を埋め込んで隠し、たまたまその上を通った人
の体重をはかる実証実験はプライバシーの侵害
• 他人に知られなくない情報を無断で取得してはいけない
• 「取得者のセキュリティが万全であればプライバシー
侵害にならない」は誤解
• セキュリティスキルの高い盗撮魔
• 盗撮画像が絶対漏れなくてもだめ
パーソナルデータの扱い
11/27
• 杜撰に扱ってるのが露顕すると信用の低下
• 個人情報に該当するかグレーであっても個人の不安感
に配慮するのが望ましい
パーソナルデータの扱い
12/27
• データ提供者
• 個人に関する多数のパーソナルデータを保持し、
第三者に提供するもの
• データ利用者
• 提供されたデータを利用するもの
• 攻撃者
• データ利用者で、
ある個人に関するなんらかの情報を得ようとするもの
• 犠牲者
• データ提供者に自身のデータを預けて、
意図せずに自身の情報が明らかにされたもの
用語
13/27
• GIC
• 13.5万人の州職員と家族の氏名、性別、郵便番号、
生年月日、人種、医療機関の訪問日、診断結果etc
• このうち氏名を除いた情報を提供
• 選挙人名簿
• 氏名、性別、郵便番号、生年月日、住所、支持政党etc
• 二つを合わせると個人が特定できる
• 支持政党と病歴が連結される
マサチューセッツ州の事例
14/27
• AOL
• 65万人の検索ログ(ユーザ名、検索語、クリックURL)
2千万行を提供
• 電話帳
• No.4417749のユーザの検索語にあった
「ジョージア州Lilburnの庭師、Arnold姓」などから
名前を特定
AOLの事例
15/27
• 48万人のユーザの映画の評価データ1億件
• 利用者を特定する情報はレコードからは取り除かれていた
• 攻撃者が犠牲者を一意に特定できる条件の算出
• Narayananら
• ある個人が与えた次の情報で特定(?)できる確率
• 8個の映画の評価と2週間単位の精度の日付が分かれば99%
• 2個の映画の評価と3日単位の精度の日付が分かれば68%
• 別の批評データIMDbのデータとの連結も可能
Netflixの事例
16/27
• NYのタクシー会社が情報公開制度に基づいて
1.73億件のタクシーの乗降履歴を提供
• 乗車、降車地点と時刻
• タクシーの免許番号とナンバープレートはランダム化
• 問題点
• 不完全なランダム化のため元の免許番号やナンバープレート
を復元できた
• 特定のタクシーの移動履歴からドライバーの住所を推定
• 徴収料金のデータから収入も推測できた
• タクシーに乗ろうとしたある乗客の写真があると
番号から行き先を推定可能
• 現在もデータは提供されている
NY市Taxi Rideの事例
17/27
• パーソナルデータをサービスに利用したい、
統計解析を実施したい
• パーソナルデータの保管や管理が目的なら
セキュリティ技術の適用対象
プライバシー保護技術を使う動機
18/27
• 計算と秘匿性
• 入力𝑥に対して関数𝑓の出力𝑦 = 𝑓(𝑥)
• 𝑥は秘密で𝑦を公開
• 𝑦から𝑥はどの程度推測されるのか?
• 𝑓が暗号アルゴリズム(以下algo)のとき
• 𝑥は平文で𝑦は暗号文
• 𝑓がデータ匿名化algoのとき
• 𝑦から𝑥に含まれる個人がどこまで推定できるのか
• 𝑓が統計的クエリのとき
• 𝑥は統計DBで𝑦は平均値、ヒストグラムなど
• 𝑓が秘密計算プロトコルのとき
• 計算過程でやりとりされた情報から𝑥をどこまで復元できるか
6章 識別不可能性と攻撃者モデル
19/27
• 𝑥 : 入力, 𝒜 : algo, 𝑦 : 出力のとき𝑦 ← 𝒜(𝑥)とかく
• 𝑥のサイズを𝑛 ∈ ℕとする. 𝑝𝑜𝑙𝑦(𝑛) : 𝑛の多項式
• 多項式時間algo
• 終了までのステップ数が𝑝𝑜𝑙𝑦 𝑛
• 指数時間algo
• ステップ数がある𝐶 > 1について𝐶 𝑛
• 多項式領域algoと指数時間algo
• 必要なメモリが𝑝𝑜𝑙𝑦(𝑛)と𝐶 𝑛
• 決定的algo
• 𝑥が与えられたとき𝑦が一通りに決まるもの
• 確率的 : 結果が確率的に決まるもの
• PPT(Probabilistic Polynomial Time)
記法
20/27
• 𝑓: ℕ → ℝが𝑛について無視できるとは
• 任意の𝑝𝑜𝑙𝑦(𝑛)に対してある𝑛 𝑝 ∈ ℕが存在し、
𝑛 > 𝑛 𝑝なる全ての𝑛 ∈ ℕに対して𝑓 𝑛 <
1
𝑝𝑜𝑙𝑦 𝑛
となること
• この関数を𝑛𝑒𝑔𝑙(𝑛)とか𝜖(𝑛)とかく
無視できる関数
21/27
• 確率分布𝑑に従う確率変数を𝑋とするとき𝑋~𝑑とかく
• 𝑋のとりうる値をΩとする
• 𝑋が𝑥となる確率を Pr
𝑋~𝑑
(𝑋 = 𝑥)とかく
• Pr⁡( 𝑋 = 𝑥)と略するときもある
• 𝑦を関数𝑓で評価した値が𝑧になる確率を
Pr
𝑦←𝒜 𝑥
(𝑧 = 𝑓 𝑦 )
とかく
確率
22/27
• ナイーブには
異なる値𝑥 ≠ 𝑥′を入力とする𝑓の出力の確率分布
𝑓 𝑥 , 𝑓(𝑥′)を見分けられない
• 厳密には
• 確率分布𝑑 𝑛, 𝑑 𝑛
′ に従う定義域 0,1 𝑛の確率変数𝑋 𝑛, 𝑋 𝑛
′ について
• 全ての𝑛 ∈ ℕ, 𝑥 ∈ 0,1 𝑛について
Pr
𝑋 𝑛~𝑑 𝑛
𝑋 𝑛 = 𝑥 = Pr
𝑋 𝑛
′ ~𝑑 𝑛
′
(𝑋 𝑛
′ = 𝑥)
が成り立つとき
𝑑 𝑛と𝑑 𝑛
′ は情報理論的識別不可能であるという
情報理論的識別不可能性
23/27
• 𝑓が情報理論的識別不可能性に基づく秘匿性を持つ
• 𝑓 ∶ 0,1 𝑛 → 0,1 ∗ ; 確率的algo
任意の入力𝑥, 𝑥′, 出力𝑦について次の式を満たす
Pr
𝑧←𝑓 𝑥
𝑦 = 𝑧 = Pr
𝑧←𝑓 𝑥′
(𝑦 = 𝑧)
• 𝑓(𝑥)と𝑓(𝑥′
)の分布が同じなので区別できない
• ワンタイムパッド
• 完全秘匿性を持つ秘密鍵暗号
• 𝑘
𝑈
← 0,1 𝑛 ; 一様ランダム
• 平文𝑥 ∈ 0,1 𝑛
に対して𝑓𝑘 𝑥 = 𝑥 ⊕ 𝑘
• 𝑓(𝑥)と𝑓(𝑥′)の分布は同一
完全秘匿
24/27
• 完全秘匿よりは弱い
• 二つの分布が異なっていても現実的に区別できないな
らそれでいい
• あるサンプル𝑥が分布𝑑と𝑑′のどちからから生成されたのかを
判定するPPT-algo 𝒜を考える
• 𝒜 𝑥 = 1⁡if⁡𝑥が𝑑から生成された
0⁡otherwise
• 定義
• 確率分布𝑑 𝑛, 𝑑 𝑛
′
に従う確率変数𝑋 𝑛, 𝑋 𝑛
′
について任意の𝑛 ∈ ℕ,
𝑥 ∈ 0,1 𝑛, PPT-algo 𝒜に対して次が成り立つとき
𝑋 𝑛と𝑋 𝑛
′ は計算量的識別不可能であるという
| Pr
𝑋 𝑛~𝑑 𝑛
𝒜 𝑥 = 1, 𝑋 𝑛 = 𝑥 − Pr
𝑋 𝑛
′ ~𝑑 𝑛
′
(𝒜( 𝑥) = 1, 𝑋′
𝑛 = 𝑥)| < 𝜖(𝑛)⁡
計算量的識別不可能性
25/27
• 関数𝑓が任意の𝑛 ∈ ℕ, 入力𝑥 𝑛, 𝑥 𝑛
′ , 出力𝑦, PPT-algo 𝒜に
対して次が成り立つとき𝑓を計算量的識別不可能性に
基づく秘匿性を持つという
Pr
𝑦←𝒜 𝑧 ,𝑧←𝑓 𝑥 𝑛
𝑦 = 1 − Pr
𝑦←𝒜 𝑧 ,𝑧←𝑓 𝑥 𝑛
′
𝑦 = 1 < 𝜖(𝑛)
計算量的な秘匿性
26/27
• 𝑦 = 𝑓(𝑥)から𝑥を推測しようとするもの
• 攻撃者の能力、実行可能性
• 推測に用いる攻撃algo
• 計算資源(多項式/指数時間algo, 多項式/指数領域algo)
• 背景知識
• 情報理論的識別不可能性は、任意の計算時間と領域を
持つ攻撃者に対して秘匿性を保証する
• 仮定 : 出力以外の背景知識を持たない
• 攻撃algoは任意でよい
• 匿名化algoが想定する攻撃者はより限定的
• データの有用性と秘匿性はトレードオフ
• 強力な背景知識を持つ攻撃者には法令などによる制約を科す
攻撃者
27/27

『データ解析におけるプライバシー保護』勉強会