Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

『データ解析におけるプライバシー保護』勉強会

1,860 views

Published on

1, 2, 6章

Published in: Technology
  • Be the first to comment

『データ解析におけるプライバシー保護』勉強会

  1. 1. 『データ解析における プライバシー保護』 (佐久間淳)1, 2, 6章 2016/9/23 光成滋生
  2. 2. • 『データ解析におけるプライバシー保護技術』 Privacy Preservation in Data Analytics 以降、略してPPinDA • 大きく三つのPP技術を紹介する本 • 仮名化・匿名化 • 2~5章 • 差分プライバシー • 7~9章 • 秘密計算 • 10~14章 • 6章は攻撃者モデル • とりあえず1~2章→6章→7~9章のあと残りを順に 概要 2/27
  3. 3. • 特定や連結のリスクを低減する手法 • 仮名化 • 氏名をランダムな文字列に置き換えること • 匿名化 • データを曖昧にすること 仮名化・匿名化 氏名 年 職業 年収 真田昌幸 31 市職員 460万円 徳川慶喜 36 大学教員 640万円 紫式部 26 看護師 540万円 氏名 年 職業 年収 abcdef 30代 公務員 460万円 0234234 30代 公務員 640万円 20rnav93 20代 医療職 540万円 3/27
  4. 4. • 第三者に提供するプライバシー保護技術(PP) • データの1行が個人を表すデータベース(DB ) • 攻撃者 • 個人を特定しようとするデータ取得者 • 特定 • DBの各行がどの人物のものかを結びつけること • 連結 • ある人物を表す行と同一人物の別のデータを結びつけること 三つの技術の概要 4/27
  5. 5. • 背景 • DBの様々な統計量を提供すると 個別の人物の情報が推測されるリスクがある • 例: • 攻撃者の背景知識「全体でN人で看護師は紫式部だけ」 • このとき次の統計量クエリを投げる • Q1. 全員の平均年収は? • Q2. 看護師以外の全員の平均年収は? • すると紫式部の年収が分かる 差分プライバシー(1/2) 5/27
  6. 6. • 統計量が得たときに攻撃者の背景知識にかかわらず 個人の情報が推測化されるリスクを定量評価するため の基準を与える • 攻撃者の推測を妨げる手段を提供する • 先ほどの例 • Q1, Q2の返事にノイズを加えて答える 差分プライバシー(2/2) 6/27
  7. 7. • DBが複数の機関に分散して存在しているとき個別の DBを互いに共有することなく秘密性を保ったまま 統計解析や機械学習などの計算の結果のみを取得する • DB1とDB2それぞれ別の機関が保持 • 両機関が互いに名前を見せずにこんな表を作りたい • 差分プライバシーの技法は別途必要 秘密計算によるデータ解析 氏名 肺癌の有無 真田昌幸 あり 徳川慶喜 なし 紫式部 なし ... ... 氏名 喫煙の有無 真田昌幸 なし 徳川慶喜 あり 紫式部 あり ... ... 喫煙歴なし あり 肺癌なし 1233 837 肺癌あり 715 642 7/27
  8. 8. • 個人情報 • 日本の個人情報保護法における個人情報 • 生存する個人に関する情報で、当該情報に含まれる氏名、 生年月日その他の記述などで特定の個人を識別できるもの • 他の情報と容易に照合できて特定の個人を識別できるもの • メールアドレス、SNSのアカウントなどが個人情報か どうかは明確でない • プライバシー上の問題が存在する種類の情報もある • パーソナルデータという 2章データ提供におけるプライバシー問題 8/27
  9. 9. • 特定 • ある個人と一意に結びつく情報(マイナンバー、運転免許番 号など)が除外されて個人を特定できないデータから、 そのデータを該当する個人と再び結びつけること • 連結 • ある個人のデータを同一人物の別のデータと結びつけること • 個人が特定されていないこともある • 属性推定 • ある個人のデータの一部が削除されているときに そのデータを復元、推定すること • 個人が特定されていないこともある プライバシーの問題(1/2) 9/27
  10. 10. • 連絡 • あるデータをもつ人がその個人に連絡すること • 訪問、郵便物を送る、電話をかける、メールを送るなど • 特定=連絡のときもある • 直接被害 • あるデータをもつ人がその個人に直接的な被害を与えること • クレジット番号の無断使用、SNSのなりすましなど • 日本の個人情報保護法で明確に守るべきもの • 特定、連絡、直接被害 • クレジット番号、SNSのアカウント名なども配慮が必要 • 配慮したからといって、プライバシー上の懸念が 完全になくなるわけではない プライバシーの問題(2/2) 10/27
  11. 11. • 電子情報通信学会 Vol.99 No.6 • 2013年NICTが大阪ステーションシティにビデオカメラを設置 して災害時における人の流動性を把握する実験を発表 • 反発が大きく実施延期 • 個人情報保護法に違反してなくてもプライバシー権を 違法に侵害していないとは限らない • 公道に体重計を埋め込んで隠し、たまたまその上を通った人 の体重をはかる実証実験はプライバシーの侵害 • 他人に知られなくない情報を無断で取得してはいけない • 「取得者のセキュリティが万全であればプライバシー 侵害にならない」は誤解 • セキュリティスキルの高い盗撮魔 • 盗撮画像が絶対漏れなくてもだめ パーソナルデータの扱い 11/27
  12. 12. • 杜撰に扱ってるのが露顕すると信用の低下 • 個人情報に該当するかグレーであっても個人の不安感 に配慮するのが望ましい パーソナルデータの扱い 12/27
  13. 13. • データ提供者 • 個人に関する多数のパーソナルデータを保持し、 第三者に提供するもの • データ利用者 • 提供されたデータを利用するもの • 攻撃者 • データ利用者で、 ある個人に関するなんらかの情報を得ようとするもの • 犠牲者 • データ提供者に自身のデータを預けて、 意図せずに自身の情報が明らかにされたもの 用語 13/27
  14. 14. • GIC • 13.5万人の州職員と家族の氏名、性別、郵便番号、 生年月日、人種、医療機関の訪問日、診断結果etc • このうち氏名を除いた情報を提供 • 選挙人名簿 • 氏名、性別、郵便番号、生年月日、住所、支持政党etc • 二つを合わせると個人が特定できる • 支持政党と病歴が連結される マサチューセッツ州の事例 14/27
  15. 15. • AOL • 65万人の検索ログ(ユーザ名、検索語、クリックURL) 2千万行を提供 • 電話帳 • No.4417749のユーザの検索語にあった 「ジョージア州Lilburnの庭師、Arnold姓」などから 名前を特定 AOLの事例 15/27
  16. 16. • 48万人のユーザの映画の評価データ1億件 • 利用者を特定する情報はレコードからは取り除かれていた • 攻撃者が犠牲者を一意に特定できる条件の算出 • Narayananら • ある個人が与えた次の情報で特定(?)できる確率 • 8個の映画の評価と2週間単位の精度の日付が分かれば99% • 2個の映画の評価と3日単位の精度の日付が分かれば68% • 別の批評データIMDbのデータとの連結も可能 Netflixの事例 16/27
  17. 17. • NYのタクシー会社が情報公開制度に基づいて 1.73億件のタクシーの乗降履歴を提供 • 乗車、降車地点と時刻 • タクシーの免許番号とナンバープレートはランダム化 • 問題点 • 不完全なランダム化のため元の免許番号やナンバープレート を復元できた • 特定のタクシーの移動履歴からドライバーの住所を推定 • 徴収料金のデータから収入も推測できた • タクシーに乗ろうとしたある乗客の写真があると 番号から行き先を推定可能 • 現在もデータは提供されている NY市Taxi Rideの事例 17/27
  18. 18. • パーソナルデータをサービスに利用したい、 統計解析を実施したい • パーソナルデータの保管や管理が目的なら セキュリティ技術の適用対象 プライバシー保護技術を使う動機 18/27
  19. 19. • 計算と秘匿性 • 入力𝑥に対して関数𝑓の出力𝑦 = 𝑓(𝑥) • 𝑥は秘密で𝑦を公開 • 𝑦から𝑥はどの程度推測されるのか? • 𝑓が暗号アルゴリズム(以下algo)のとき • 𝑥は平文で𝑦は暗号文 • 𝑓がデータ匿名化algoのとき • 𝑦から𝑥に含まれる個人がどこまで推定できるのか • 𝑓が統計的クエリのとき • 𝑥は統計DBで𝑦は平均値、ヒストグラムなど • 𝑓が秘密計算プロトコルのとき • 計算過程でやりとりされた情報から𝑥をどこまで復元できるか 6章 識別不可能性と攻撃者モデル 19/27
  20. 20. • 𝑥 : 入力, 𝒜 : algo, 𝑦 : 出力のとき𝑦 ← 𝒜(𝑥)とかく • 𝑥のサイズを𝑛 ∈ ℕとする. 𝑝𝑜𝑙𝑦(𝑛) : 𝑛の多項式 • 多項式時間algo • 終了までのステップ数が𝑝𝑜𝑙𝑦 𝑛 • 指数時間algo • ステップ数がある𝐶 > 1について𝐶 𝑛 • 多項式領域algoと指数時間algo • 必要なメモリが𝑝𝑜𝑙𝑦(𝑛)と𝐶 𝑛 • 決定的algo • 𝑥が与えられたとき𝑦が一通りに決まるもの • 確率的 : 結果が確率的に決まるもの • PPT(Probabilistic Polynomial Time) 記法 20/27
  21. 21. • 𝑓: ℕ → ℝが𝑛について無視できるとは • 任意の𝑝𝑜𝑙𝑦(𝑛)に対してある𝑛 𝑝 ∈ ℕが存在し、 𝑛 > 𝑛 𝑝なる全ての𝑛 ∈ ℕに対して𝑓 𝑛 < 1 𝑝𝑜𝑙𝑦 𝑛 となること • この関数を𝑛𝑒𝑔𝑙(𝑛)とか𝜖(𝑛)とかく 無視できる関数 21/27
  22. 22. • 確率分布𝑑に従う確率変数を𝑋とするとき𝑋~𝑑とかく • 𝑋のとりうる値をΩとする • 𝑋が𝑥となる確率を Pr 𝑋~𝑑 (𝑋 = 𝑥)とかく • Pr⁡( 𝑋 = 𝑥)と略するときもある • 𝑦を関数𝑓で評価した値が𝑧になる確率を Pr 𝑦←𝒜 𝑥 (𝑧 = 𝑓 𝑦 ) とかく 確率 22/27
  23. 23. • ナイーブには 異なる値𝑥 ≠ 𝑥′を入力とする𝑓の出力の確率分布 𝑓 𝑥 , 𝑓(𝑥′)を見分けられない • 厳密には • 確率分布𝑑 𝑛, 𝑑 𝑛 ′ に従う定義域 0,1 𝑛の確率変数𝑋 𝑛, 𝑋 𝑛 ′ について • 全ての𝑛 ∈ ℕ, 𝑥 ∈ 0,1 𝑛について Pr 𝑋 𝑛~𝑑 𝑛 𝑋 𝑛 = 𝑥 = Pr 𝑋 𝑛 ′ ~𝑑 𝑛 ′ (𝑋 𝑛 ′ = 𝑥) が成り立つとき 𝑑 𝑛と𝑑 𝑛 ′ は情報理論的識別不可能であるという 情報理論的識別不可能性 23/27
  24. 24. • 𝑓が情報理論的識別不可能性に基づく秘匿性を持つ • 𝑓 ∶ 0,1 𝑛 → 0,1 ∗ ; 確率的algo 任意の入力𝑥, 𝑥′, 出力𝑦について次の式を満たす Pr 𝑧←𝑓 𝑥 𝑦 = 𝑧 = Pr 𝑧←𝑓 𝑥′ (𝑦 = 𝑧) • 𝑓(𝑥)と𝑓(𝑥′ )の分布が同じなので区別できない • ワンタイムパッド • 完全秘匿性を持つ秘密鍵暗号 • 𝑘 𝑈 ← 0,1 𝑛 ; 一様ランダム • 平文𝑥 ∈ 0,1 𝑛 に対して𝑓𝑘 𝑥 = 𝑥 ⊕ 𝑘 • 𝑓(𝑥)と𝑓(𝑥′)の分布は同一 完全秘匿 24/27
  25. 25. • 完全秘匿よりは弱い • 二つの分布が異なっていても現実的に区別できないな らそれでいい • あるサンプル𝑥が分布𝑑と𝑑′のどちからから生成されたのかを 判定するPPT-algo 𝒜を考える • 𝒜 𝑥 = 1⁡if⁡𝑥が𝑑から生成された 0⁡otherwise • 定義 • 確率分布𝑑 𝑛, 𝑑 𝑛 ′ に従う確率変数𝑋 𝑛, 𝑋 𝑛 ′ について任意の𝑛 ∈ ℕ, 𝑥 ∈ 0,1 𝑛, PPT-algo 𝒜に対して次が成り立つとき 𝑋 𝑛と𝑋 𝑛 ′ は計算量的識別不可能であるという | Pr 𝑋 𝑛~𝑑 𝑛 𝒜 𝑥 = 1, 𝑋 𝑛 = 𝑥 − Pr 𝑋 𝑛 ′ ~𝑑 𝑛 ′ (𝒜( 𝑥) = 1, 𝑋′ 𝑛 = 𝑥)| < 𝜖(𝑛)⁡ 計算量的識別不可能性 25/27
  26. 26. • 関数𝑓が任意の𝑛 ∈ ℕ, 入力𝑥 𝑛, 𝑥 𝑛 ′ , 出力𝑦, PPT-algo 𝒜に 対して次が成り立つとき𝑓を計算量的識別不可能性に 基づく秘匿性を持つという Pr 𝑦←𝒜 𝑧 ,𝑧←𝑓 𝑥 𝑛 𝑦 = 1 − Pr 𝑦←𝒜 𝑧 ,𝑧←𝑓 𝑥 𝑛 ′ 𝑦 = 1 < 𝜖(𝑛) 計算量的な秘匿性 26/27
  27. 27. • 𝑦 = 𝑓(𝑥)から𝑥を推測しようとするもの • 攻撃者の能力、実行可能性 • 推測に用いる攻撃algo • 計算資源(多項式/指数時間algo, 多項式/指数領域algo) • 背景知識 • 情報理論的識別不可能性は、任意の計算時間と領域を 持つ攻撃者に対して秘匿性を保証する • 仮定 : 出力以外の背景知識を持たない • 攻撃algoは任意でよい • 匿名化algoが想定する攻撃者はより限定的 • データの有用性と秘匿性はトレードオフ • 強力な背景知識を持つ攻撃者には法令などによる制約を科す 攻撃者 27/27

×