Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

差分プライバシーによる時系列データの扱い方

5,433 views

Published on

パーソナルデータの入ったデータベースを匿名化して第3者に渡す場合の議論が巷では多いようです。しかし、ビッグデータが超ビッグになり、時間的に累積してくる時系列データのような場合、データベース全体を第3者に渡す方法はだんだん現実的でなくなります。
データベースへ利用者が質問する使い方だと、質問への回答から個人情報が漏れなければ、安全性が高いわけです。そのための技術として使えそうなのが、ここで述べる差分プライバシーです。
このスライドでは、(1)差分プライバシーの基礎入門と、(2)差分プライバシーを時系列データに適用する方法に関する最近の4本の論文を紹介します。


Published in: Data & Analytics

差分プライバシーによる時系列データの扱い方

  1. 1. 差分プライバシーは 時系列データを捌けるのか? 中川裕志 (東京大学)
  2. 2. データベースへ質問をして データマイニングする場合 • パーソナルデータの入ったデータベースを匿名化して第3者に渡す場合の 議論が巷では多いようです。 – 例えば、k-匿名化、あるいは「パーソナルデータ法改正の大綱」に書かれている「個人特 定性低減データ」などです。 • データベースはデータ収集業者が管理し、第3者には、データベースに対し て質問だけを許す方法もあります。 – 質問としては、 SQLなど。例えば「先月に千代田区で10万円以上、コンビニで買 い物をした人の数を知りたい」 などなど  ビッグデータが超ビッグになり、時間的に累積してくる時系列データのような場 合、データベース全体を第3者に渡す方法はだんだん現実的でなくなります。  データ収集業者が集めたデータベースへ利用者が質問する使い方だと、質問 への回答から個人情報が漏れなければ、安全性が高いわけです。 – そのための技術として使えそうなのが、以下に述べる差分プライバシーです。
  3. 3. このスライドで伝えたいこと(文系向け説明) • マイクロソフトのDworkが2006年に提案した差分プライバシーは データベースに質問応答する場合に、データベース内の個人デー タが質問者(=攻撃者)に知られないようにするシステムです。  ある個人のデータがデータベースに含まれる場合と含まれない場合を、 データベースへの質問応答からは見破りにくくする仕掛けです。 • 時系列データは、個人のデータが時間的に累積していくものです。  移動履歴、血圧などの健康状態の時間変化、Webの検索履歴などなど  つまり、差分プライバシーはデータベースそのものを加工するので はないが、それに対する質問への応答データを加工して、個人特 定を防ぐ方法と見ることができます。  パーソナルデータの利活用に関する 制度改正大綱 (2014年6月19日)に 書かれている「個人の特定性を低減したデータへの加工方法」のうち、個 人データを含むデータベースへの質問に対する回答の方法で「個人特定 性の低減」を実現する枠組みと見なすこともできます。
  4. 4. このスライドで伝えたいこと(文系向け説明) • 次の表形式のX年Y日の移動履歴データベースを考えてみます。 – このデータベースに各駅の人数を質問した答えと、 – このデータベースからBさんを削除したデータベースに各駅の人数を質問 した答え • を比較すると各駅とも1減っているので、Bさんが東京から新宿ま で移動したことが分かります。(もし、Bさんがこのデータベースに 入っていると決定論的に分かってしまいます。) • そこで、質問への答えに雑音(平均0で、正負のどちらもあり)を加 算した答えを返せば、上記のような問題がなくなります。  この方法を差分プライバシーと呼び、系列データや時系列データ を第3者が質問応答で利用する場面で有力な方法です。 東京 神田 お茶の水 四谷 新宿 Aさん 1 1 1 Bさん 1 1 1 1 1 : : : : : : Zさん 1 1
  5. 5. このスライドで伝えたいこと(理系向き説明) • Dworkが2006年に提案した差分プライバシー(Differential Privacy)はプライバシー保護の分野で大きなトレンドとなりま した。 – C. Dwork. Differential privacy. In ICALP, LNCS, pp.1–12, 2006. • だが、差分プライバシーはk-匿名化や暗号化(秘密計算)に比べて概念 が分かりにくいようです。 • その一方で、応用分野やデータの実態に適合した改善提案もどんどん出 てきています。 • 以下の部分では、差分プライバシーを主に時系列データに適用する方向 性について、ここしばらくの論文4本をまとめています。 – 申し訳ないですが、正直、網羅性は低いです。 – ここから先は数学的に難しくなりますが、ご興味あれば、次のページ以降にお進 みください。
  6. 6. 差分プライバシーのおさらい • データベースDとD’が1レコード:r だけ異なるとき • 質問qに対して出てきた結果q(D)とq(D’)を比べても、D とD’のどちらを使って答えたのか分からないようにする ことが目的です。 • つまり、𝐷 ∪ 太郎のレコード = 𝐷′ のとき、(太郎の レコード)という𝐷と𝐷’の差分が分からないようにす る。」 – よって太郎のプライバシーが漏洩しない。 – 非常に強力なプライバシー保護メカニズム • このようなプライバシー保護が質問𝑞の結果の取り得 るすべての値(𝑞の値域)で言えないといけません。 • そのために次のページのメカニズム𝑀を導入します。 D D 太郎 D’ q(D)とq(D’)の見分け が付きにくい 太郎の存在を隠せ る
  7. 7. 差分プライバシーのおさらい • 𝜀-差分プライバシーにおいて導入したメカニズムを𝑀と書く。𝑀の値域の任意 の部分集合をSに対して下の不等式が成立すること • 1レコードだけ異なる任意のデータベースの対 𝐷、𝐷’に対す質問qの応答 q(D),q(D’)に対して 𝑃𝑟 𝑀 𝑞 𝐷 ∈ 𝑆 < 𝑒 𝜀 𝑃𝑟 𝑀 𝑞 𝐷′ ∈ 𝑆 • ここでMは雑音を加算する操作 • 𝑀 𝑞 𝐷 = 𝑀 𝑞 𝐷′ = 𝑎であり、雑音は𝑒− 𝑞 𝐷 −𝑎 1/𝜎 あるいは 𝑒− 𝑞 𝐷′ −𝑎 1 /𝜎 に比例しているとすると、 • 𝑃𝑟 𝑀 𝑞 𝐷 = 𝑎 ∝ 𝑒− 𝑞 𝐷 −𝑎 1/𝜎 となる。よって、 • 𝑃𝑟 𝑀 𝑞 𝐷 = 𝑎 < 𝑒∆𝑞/𝜎 𝑃𝑟 𝑀 𝑞 𝐷′ = 𝑎 • ただし、 ∆𝑞 = 𝑞 𝐷 − 𝑞 𝐷′ 1 • なぜなら、x,yのL1ノルム 𝑥 − 𝑦 1の3角不等式より • 𝑒 − 𝑞 𝐷 −𝑎 1/𝜎 /𝑒− 𝑞 𝐷′ −𝑎 1 /𝜎 < 𝑒− 𝑞 𝐷 −𝑞 𝐷′ 1 /𝜎 𝜀が小さいと、q(D),q(D‘)の区別、 すなわちD,D’の区別が付かない L1ノルム。つ まり、次元ご との絶対値 の総和
  8. 8. 差分プライバシーのおさらい • 前ページの 𝑒− 𝑞 𝐷 −𝑎 1/𝜎 を満たすには • ラプラス分布 Lap 𝜎/∆𝑞 ただし、密度関数は ∆𝑞 2𝜎 𝑒𝑥𝑝 − ∆𝑞 𝑥 𝜎 によって生成された𝑥の値を雑音として加算すればよいのです。 ただし、 ∆𝑞 = 𝑞 𝐷 − 𝑞 𝐷′ 1 • 𝜀-差分プライバシー 𝑃𝑟 𝑀 𝑞 𝐷 ∈ 𝑆 < 𝑒 𝜀 𝑃𝑟 𝑀 𝑞 𝐷′ ∈ 𝑆 を満たすためには加算する雑音のラプラス分布は、 𝜎 > ∆𝑞 𝜀 を満たすような 𝜎 を選び、Lap 𝜎/∆𝑞 とすればよいわけです。
  9. 9. 拡張1: (ε,δ)-差分プライバシー (ε,δ)-DPと略記 • これまで説明してきたものは ε-DP とも呼ばれ、qの任意の値 域の部分集合Sに対して log 𝑃𝑟 𝑀 𝑞 𝐷 ∈𝑆 𝑃𝑟 𝑀 𝑞 𝐷′ ∈𝑆 < 𝜀 という条件ですが、書き換えれば Pr 𝑀 𝑞 𝐷 ∈ 𝑆 < 𝑒 𝜀Pr 𝑀 𝑞 𝐷′ ∈ 𝑆 となります 右上図参照 • (ε,δ)-DPはε-DPから次のように拡張されます。 • Pr 𝑀 𝑞 𝐷 ∈ 𝑆 < 𝑒 𝜀Pr 𝑀 𝑞 𝐷′ ∈ 𝑆 + 𝛿 となります 右下図参照 • ε-DPと比べると、 𝑒 𝜀 Pr 𝑀 𝑞 𝐷′ ∈ 𝑆 がPr 𝑀 𝑞 𝐷 ∈ 𝑆 よ り𝛿だけ小さくても不等式条件が成立することになります。 • 後に説明するZEALOUS論文やDworkの初期の論文では indistinguishableと呼んでいます。 q(D) q(D‘) Pr(q(D))はPr(q(D‘))の𝜀倍 q(D) q(D‘) Pr(q(D))はPr(q(D‘))の 𝜀倍+𝛿 Pr(q(X)): X=D or D’ Pr(q(X)): X=D or D’
  10. 10. 差分プライバシーの研究の 2つの方向 • 方向1:加算する雑音の性質の工夫 – ラプラス分布以外ではどんな雑音を加算するか。 – 例えば正規分布: ラプラス分布は比較的裾野が長いの で、より0付近に集中する正規分布を使う。ただし、解析 が難しく、加算する雑音のパラメタを制御する式が複雑。 • 方向2:データベースDの性質の工夫 – 𝑞(𝐷), 𝑞(𝐷’)の差が出にくくなるように、 データベース𝐷 の 構造変換、あるいは 𝑞(𝐷)に対して何らかの処理、例え ばフィルタリングするなど – 以下では、主にこの方向についてサーベイしました。
  11. 11. 系列データ差分プライバシーの概念 : D : 個 人 の 系 列 デ ー タ の D B 構造変換 質問Q: 7列目のカウントの総和を求めよ ラプラス雑音 質問Qの結果Q(D) を変換 Qへの回答 質問Qの結 果Q(D) この列の値を総和 Qへの回答 青、緑のような 様々な構造変換と雑音 の加算法があります。 データマ イニング する人、 あるいは 攻撃者 ① ② ③ ④ ② ③ ④ ⑤ 構造逆変換
  12. 12. 方向2:データベースDの性質の工夫 • サーベイしたのは以下の4論文です。 • FPAk – V. Rastogi and S. Nath. Differentially private aggregation of distributed time- series with transformation and encryption. In SIGMOD, 2010. • Privelet: Haar Wavelet Transform – X. Xiao, G. Wang, and J. Gehrke. Differential privacy via wavelet transforms. TKDE, 23(8):1200–1214, 2011. • Grouping and Smoothing – Georgios Kellaris Stavros Papadopoulos. Practical Differential Privacy via Grouping and Smoothing. The 39th VLDB Vol. 6, No. 5. 301-312. 2013 • ZEALOUS – M. Götz, A. Machanavajjhala, G. Wang, X. Xiao, and J. Gehrke. Publishing search logs: A comparative study of privacy guarantees. TKDE, 24(3):520–532, 2012.
  13. 13. Fourier Perturbation Algorithm (FPAk) Rastogi: SIGMOD2010 • 対象は分散したデータ源から生成される時系列データです。データはn個 あるとします。 – 分散した時系列データの例: • 個人の継続的な健康状態情報(血圧の時間経過, etc) • 移動履歴あるいは時間毎の滞在位置 • 検索エンジンの検索履歴、閲覧履歴 – これらは相関がある時系列 • データ収集、処理するサーバは必ずしも信用できません – そこで分散データの個別発生源(=個人)が雑音を加算します – 発生源数が大きいと、雑音が大きくなりデータの質が劣化します. – そこでフーリエ変換の出番です • 分散した時系列データの差分プライバシー – 離散フーリエ変換の𝑛個の係数のうち小数の𝑘個係数だけにLaplace雑音を加 算して、データマイニング業者に送ります。 – データマイニング業者は多数の個人から集めた雑音加算されたデータから 平均の計算などを行います。
  14. 14. FPAkの仕掛け(ポンチ絵) 時系列データ 離散フー リエ変換 周波数軸 n個 k個だけ、ラプラス雑音 を 加算したものをフーリエ逆変 換しで時系列データに戻して 業者に送る データマイニング業者 は、各個人から得た雑 音加算されたデータを 使ってマイニングする 上と同様の雑音 加算処理を各個 人毎に行う デ ー タ 発 生 源 の 多 数 の 個 人 時系列データ 時系列データ k個
  15. 15. FPAkの仕掛けとsensitivity 1. 𝑛個のデータからなる時系列データ𝑄 = (𝑄1, … . , 𝑄𝑛) を離散フー リエ変換 2. 周波数の低いk個のフーリエ係数𝐹 = (𝐹1, . . 𝐹𝑘)にラプラス雑音 を加算。そのk個からフーリエ逆変換して時系列データ 𝑄 = (𝑄1’, … , 𝑄 𝑛’)に戻す。  例えば,n=2000ならk=20くらい…  フーリエ係数を𝑘個に限定し、(残りの𝑛 − 𝑘個は0にする)、それを 逆変換したことから生ずる i 番目のデータの誤差を𝑅𝐸𝑖 𝑘 𝑄  Sensitivity: 1要素だけ異なる時系列データの対を𝐷, 𝐷’とします  𝐷, 𝐷’の第1成分から第𝑛成分を並べたベクトルを 𝑄(𝐷) = (𝑄1, . . 𝑄 𝑛), 𝑄(𝐷’) = (𝑄’1, … , 𝑄’ 𝑛) とします  次の式を満たす最小の∆𝑄 𝑝をLp-sensitivity(p=1 or 2)と言います  ∀D,D’ 𝑄 𝐷 − 𝑄 𝐷′ 𝑝≤ ∆𝑄 𝑝:
  16. 16. 評価1 • 定理4.1. • FkをQの離散フーリエ変換の周波数に低い𝑘個の係数とする。 • (i) 𝐹 𝑘 のL1 sensitivity:∆1 𝐹 𝑘 は たかだかQのL2のsensitivity: :∆2 𝑄 の 𝑘倍 • (ii) 𝐹 𝑘にλ = 𝑘 ∆2 𝑄 /εのラプラス雑音を加算するメカニズム FPAk(Q)では ε-差分プライバシー が成立する • 𝑛倍ではなく、それより遙かに小さい𝑘倍の大きさのラプラス雑音加 算で ε-差分プライバシーが成り立つところが素晴らしい • では、𝑛 − 𝑘個の係数を全部ゼロにしてしまった悪影響はどのくら い出ているのだろうか?
  17. 17. 評価2 • フーリエ係数を𝑘個に限定し、(残りの𝑛 − 𝑘個は0にする)、それを 逆変換したことから生ずる i 番目のデータの誤差を𝑅𝐸𝑖 𝑘 𝑄 • 通常の差分プライバシー(LPA)で𝑄𝑖を𝑄 𝑖に変えたときの第i成分の 誤差𝑒𝑟𝑟𝑜𝑟𝑖 𝐿𝑃𝐴 = 𝐸 𝑄 𝑖 − 𝑄𝑖 1 = 𝐸 𝐿𝑎𝑝 λ 1 = λ = 𝑛/𝜀 • 定理4.2. λ = 𝑘∆2 𝑄 /𝜀 とし FPAk(Q)では ε-差分プライバシーが成立 すると、∀𝑖 ∈ 1, . . , 𝑛 𝑒𝑟𝑟𝑜𝑟𝑖 FPAk = 𝑘 𝜀 + 𝑅𝐸𝑖 𝑘 𝑄 • 𝑘 ≪ 𝑛であり、そのような場合でも、𝑅𝐸𝑖 𝑘 𝑄 は通常とても小さいの で、定理4.2より、 FPAkの誤差はLPAより十分小さい 𝑘/𝑛くらい – 常識的には予想される急激な変化の速度より十分細かい間隔で時系 列データを取得する。よって、高い周波数成分は微少になるわけです。
  18. 18. さらに • RastogiのSIGMOD2010論文では、データマイニング業者が信用で きない場合の対策も提案されています。 • 個人が自分の時系列データ(長さ= 𝑛)をFPAkした上に、準同型公 開鍵暗号で暗号化してからデータマイニング業者に送ります。 • データマイニング業者は多数の個人から集めた暗号化データを復 号せずに平均を計算するような秘密計算プロトコルが提案されて います。 – 準同型公開鍵暗号は復号しなくても加算、乗算などができます。 • 平均を求めるだけなら、暗号化しても速度はさほど落ちません。 • 詳細は複雑なので、原論文を参照してください。
  19. 19. Differential privacy via wavelet transforms Xiao, G. Wang, and J. Gehrke TKDE2011. • Rastogi (SUGMOD2010)の論文では、分散したデータ源から生成されるn データからなる時系列データを離散フーリエ変換して、そのうちの小数(k 個)のフーリエ係数だけを使いました。 • K個の係数にラプラス雑音を加算してε-差分プライバシーを実現ました。 • Xiao TKDE2011では、離散フーリエ変換の代わりにHaar Wavelet変換を用 います。 • Wavelet係数にラプラス雑音Lap(λ)を加算します。 • 結論:ε-差分プライバシーを実現するために加算するラプラス雑音の 𝜆 = 2 1 + 𝑙𝑜𝑔2 𝑛 /𝜀 – 何もしない場合の𝜆 = 𝑛/𝜀に比べて小さな雑音加算ですみます
  20. 20. Haar Waveletについてのさわりだけ説明します その1                   )2/(212 ,2/,, Wavelet 2200 0022 1111 1111 2 1 /1 1100 0011 1111 1111 1,1 1,1 , 11 11 11 4321 1 4 2/1 1 2 422                                                        i k ii kk TTTT N N j ij N N N nhWk nhWhWnhWnhW hkHHaarhW HxHcHxHHH HxcHxHaar HH h H I H HHHaar される毎に以下のように定義行目すなわちの行列は重み をかけますいるので逆変換はということが知られて 行列をかけますにトル変換は元データのベク 表しますは正規化されたものを  以後例えば正規化された はす。つまり正規化係数次に行毎に正規化しま  例えば、行列の定義: 
  21. 21.                 現できます差分プライバシーを実のと を加えるラス雑音をパラメタにするラプ にの各係数これにより、 である最小のは下の不等式を満たす とするとき、各係数にかける重みを 、ルを要素だけ異なるベクトと とし、変換の各係数の値をに対するベクトル 定義3         /2 /2 etHaar Wavel '' '1 y(GS)SensitivitdGeneralize 1 Lapxf xf xxxfxfhW GS fW xx xfHaarx i i fi iii i i Haar Waveletの差分プライバシー
  22. 22. 評価 • Xiao TKDE2011論文によれば、Haar Wavelet変換後のGenelarized Sensitivityはρ = 1 + 𝑙𝑜𝑔2 𝑛であることが示されており • その結果、ε-差分プライバシーを実現するために加算するラプラス 雑音の𝜆 = 2 1 + 𝑙𝑜𝑔2 𝑛 /𝜀 という結論が導かれます • フーリエ変換を使ったFPAkでは、 𝜆 = 𝑘 𝜀 ただし 𝑘 ≪ 𝑛であることと 比較するのは面白いです。 • 計算はHaar Wavelet、 FPAkともnxn行列n次元ベクトルの積です 大きな差ではないでしょう。 • FPAkは誤差がデータとkに依存してきます。逆説的ですが、誤差が 大きくてもよい場合にはkを非常に小さくできます。 – ひょっとすると、HaarWaveletでも周波数の高い成分(H行列のi行に対応 する部分のうち、iの大きいほうはゼロにしてしまってもよいかもしれませ ん。
  23. 23. Practical Differential Privacy via Grouping and Smoothing. G. Kellaris, and S. Papadopoulos. VLDB 2013 • 目的は、FPAkやHaar Waveletでの差分プライバシーと 似ていますが、データベースの各要素は0か1です • Grouping and Smoothing(GS)を提案しています • Groupとは、データベースのいくつかの属性の集合で す。 • Smoothing とは、Group内のデータの平均の計算です – 一番簡単なのは、グループの大きさwを決めて、ランダムにグループを作 る方法ですが、それではさすがに芸がないので、次ページ以降の方法に 進みます
  24. 24. 前提条件 • データベースは{0,1}を要素とする(個人x属性)の行列です • 𝐷 = • 𝐷から個人(=行)を1個追加か除去したのが隣接データベー ス𝐷’です • 質問𝑄に対する𝐷のL1-sensitivity:∆1 𝑄, 𝐷 は以下で定義され ます • ∆1 𝑄, 𝐷 = 𝑚𝑎𝑥 𝐷,𝐷′ 𝑄 𝐷 − 𝑄 𝐷′ 1 – 𝐷からサンプルして作られたサンプルデータベース𝐷𝑠 ⊂ 𝐷 では𝑚𝑎𝑥を計算する範囲が小さいので、∆1 𝑄, 𝐷𝑠 ≤ ∆1 𝑄, 𝐷 に注意 属性1 … 属性d 個人1 1 … 0 : : : 個人N 0 … 1
  25. 25. アルゴリズム GS-S 1. 方法rowかcolのどちらかをこのアルゴリズムを使う人に指定してもらう 2. 方法row: 𝐷から 𝑒 𝜀/2−1 𝑒 𝜀∆1 𝑄 𝐷 /2−1 の割合で行をサンプリングして 𝐷𝑠 を作る 方法col: 1を1個だけ持つ列を選んで 𝐷𝑠 を作る 3. ラプラス雑音加算:𝑡 𝑠 = 𝑄 𝐷𝑠 + 𝐿𝑎𝑝 2/𝜀 𝑑 4. 全データベース𝐷の列を𝑡 𝑠列中の1のカウントの大きさに順に整列します  この整列によって、1のカウントの近いものをまとめてグループ化する効果があります 5. グループの大きさ𝑤 = ∆1 𝑄 𝐷 とします。グループ数は 𝑑/∆1 𝑄 𝐷 6. 4.の結果の整列された列を5.で求めた𝑤毎に先頭からグループ分けします  なお、このグループ分けの方法を𝑑𝑔と書きます 7. 6.までで求めたグループ化を用いて、各グループ内のすべての行はその グループの平均値にラプラス雑音 𝐿𝑎𝑝 2 𝜀 を加算したものを使います。 これを𝐷に対する質問𝑄への答えとする。 d次元のLap雑音
  26. 26. GS-Sの処理のイメージ サンプリングして、 大きさ順に整列し てグループ化 (w=3) グループの平均 値に雑音 追加 元の位置に戻して公開 原データ 公開されるのはこんなデータ グループ化におけるグループの大 きさwは、アルゴリズムのstep 3,5 で計算します
  27. 27. • GS-Sでstep1において方法colの場合も方法rowの場合も ε-DPが成立することが証明されています。 – 証明は原論文を参照してください • グループの大きさ∆1 𝑄 𝐷 が大きすぎると平均値をとる Smoothingで誤差が大きくなります。 • 一方、グループの大きさが小さくなると∆1 𝑄 𝐷𝑔𝑤 が 大きくなり、加算する雑音も大きくなります。  これではうれしくないので、適当な大きさのグループに したいわけです。 • そこで、グループの大きさを調整する アルゴリズム GSを 導入します。
  28. 28. アルゴリズム GS 1. 𝐷から 𝑒 𝜀/2−1 𝑒 𝜀∆1 𝑄 𝐷 /2−1 の割合で行をサンプリングして 𝐷𝑠 を作る 2. ラプラス雑音加算:𝑡 𝑠 = 𝑄 𝐷𝑠 + 𝐿𝑎𝑝 2/𝜀 𝑑 3. 𝑄 𝐷 の予測値𝑐 = ∆1 𝑄 𝐷 𝑡 𝑠とします 4. 全データベース𝐷の列を列中の1のカウントの大きさに順に整列します  この整列によって、1のカウントの近いものをまとめてグループ化する 効果があります 5. For w=1,d 1. サイズwへのグループ化をgwとします(グループ数dgw増(w減)) 𝑡 𝑔𝑤 = 𝑄 𝐷𝑔𝑤 + 𝐿𝑎𝑝 2∆1 𝑄 𝐷 𝜀𝑤 𝑑𝑔𝑤 2. 𝑡を𝑡 𝑔𝑤と𝑔𝑤から計算 6. 𝑤∗ = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑤 𝑐 − 𝑡 1,𝑔 = 𝑔𝑤∗ 7. 6.までで求めたグループ化を用いて、各グループの平均値にラプラス雑 音 𝐿𝑎𝑝 2∆1 𝑄 𝐷 𝜀𝑤 𝑔∗ を加算して𝐷に対する質問𝑄への答えとする。 d次元の Lap雑音 ここで𝐷𝑠からの予測値と𝐷𝑔𝑤から 得たtの誤差が最小になるようなグ ループの大きさを決めています 加算する雑音の個数
  29. 29. アルゴリズムの意味の補足 • Step1 のサンプリング率は𝐷𝑠がε-DPであるために必要。 • 𝑐 = ∆1 𝑄 𝐷 𝑡 𝑠はQの次元数dと同じ次元(グループ化していないので) • 𝑐はサンプルデータベース𝐷𝑠から計算したのでD全体からから計算した𝑡 に比べて、𝑤 = 1の場合でも小さい。 • 𝑡は𝑡 𝑔𝑤の値(=w個からなるグループ内平均)をw個並べて作る • 𝑡 𝑔𝑤 = 𝑄 𝐷𝑔𝑤 + 𝐿𝑎𝑝 2∆1 𝑄 𝐷 𝜀𝑤 𝑑𝑔𝑤 1 ≤ ∆1 𝑄 𝐷 ≤ 𝑑  𝑡 𝑔𝑤は𝑐と次元が違うようですが、同じグループ内の𝑤個のデータは同じ𝑡 𝑔𝑤を複製して使う ように思われます。
  30. 30. アルゴリズムの意味の補足 • 𝑡 𝑔𝑤 = 𝑄 𝐷𝑔𝑤 + 𝐿𝑎𝑝 2∆1 𝑄 𝐷 𝜀𝑤 𝑑𝑔𝑤 1 ≤ ∆1 𝑄 𝐷 ≤ 𝑑 • 𝑄 𝐷𝑔𝑤 の各要素(1グループに対応)は、グループの大きさwが大きくなると雑音 𝐿𝑎𝑝 2∆1 𝑄 𝐷 𝜀𝑤 が小さくなる。 • もっともあまり𝑤を大きくすると、 𝑄 𝐷𝑔𝑤 と𝑄 𝐷𝑠 の差が大きくなるのでよくない。 • 𝑤を小さくして𝑤 = 1 にすると𝑡 𝑔𝑤で加算する雑音は𝐿𝑎𝑝 2∆1 𝑄 𝐷 /𝜀 で、𝑐で実 質的に使われた雑音∆1 𝑄 𝐷 𝐿𝑎𝑝 2/𝜀 より大きい可能性がある。だから、 𝑤 = 1にすればよいわけではない。 • そこで、𝑤∗ = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑤 𝑐 − 𝑡 1,𝑔 = 𝑔𝑤∗ とするわけです。この式の心は、 サンプルデータベース𝐷𝑠において𝜀 − 𝐷𝑃を実現するのが 𝑐 であり、グループ 化することによって小さくした雑音を加算した 𝑡 を𝑐に近づけることによって 𝜀 − 𝐷𝑃を確保しようとしていることになります。 • 実際、このアルゴリズムのstep 7で作れた答えは𝜀 − 𝐷𝑃 となることが証明されて います。
  31. 31. 評価 • FPA,Haar Waveletと同じような方法で評価すると、グループ化による誤差を 𝑅𝐸 𝐺𝑆 𝑄 とすると、誤差は • 𝑅𝐸 𝐺𝑆 𝑄 + 2 2∆1 𝑄 𝜀𝑤 • データベースの個人に対応するレコードで属性のとれる値が0か1の場合し か、数学的評価がされていないので、0,1以外の値をとる時系列データに直 接適用できるかどうか不明。 • また、グループ化の結果は時系列構造が崩れているので、結果の解釈が困 難なのが難点ではないか • Checkin, Document, Netflix, Trajectoryの4種のデータベースでは誤差がFPA と同程度の性能。FPAkとの比較はありません。 • 加算するラプラス雑音を比較してみます FPAk Haar Wavelet GS 𝐿𝑎𝑝 𝑘 ∆2 𝑄 𝐷 /ε =𝐿𝑎𝑝 ∆1 𝑄 𝐷 /ε 𝐿𝑎𝑝 2 1 + 𝑙𝑜𝑔2 𝑛 /𝜀 𝐿𝑎𝑝 2∆1 𝑄 𝐷 𝜀𝑤
  32. 32. ZEALOUS M. Götz, et .al. TKDE 2012 • 検索エンジンで集められた検索ログを差分プライバシーの方法で変形してか ら第3者に渡して(=公開)データマイニングします • 検索ログ:𝑆𝑙𝑜𝑔は下の構造を持つ個人の検索ログの集合です。 • 個人ID, 質問 キーワード集合 、時刻、検索結果ページURLのクリックの有無 • 質問ペア:同一の質問者が同じセッションで行った質問の列 • キーワード・ヒストグラムは 𝑘, 𝐶 𝑘 の集合 – 𝑘 はキーワード、𝐶 𝑘は𝑘を使って質問した人数 – 質問ヒストグラム、質問ペア・ヒストグラム、クリックヒストグラムも𝑘の代わ りに質問、質問ペア、クリックを使えば同様に定義できます • 検索ログのデータベースにおいて個人IDを消去(仮名化)してあるとします
  33. 33.  典型的な情報流出は、個人の検索履歴を特定してしまうことです • 検索ログにおけるk-匿名化とは、検索履歴(質問キーワード集合(あるい は列)、クリック履歴)が同一の個人が検索ログ𝑆𝑙𝑜𝑔中にk人以上存在す ることです – k-匿名化のためにキーワード除去やダミーキーワード追加などの細工をしま す – ただし、k-匿名化では、攻撃者は個人特定ができなくても、その個人が使った キーワードあるいは検索履歴を知ることができます。なぜなら、そのk人は同 じキーワードや検索履歴をもつわけですから。 – 同じ現象は、検索履歴のキーワードを場所とみなすと、行動履歴ログにも適 用できますね。 • そこで、他人に使用させる場合、差分プライバシーだと、検索ログにある 個人の検索ログが入っていてもいなくても、検索ログを調べた(=質問し た)としても区別がつきません。 • 差分プライバシーは非常に強いので、少し緩めたプライバシーを定義し ます。
  34. 34. 拡張2: 確率的 𝜀, 𝛿 -DP  確率的 𝜺, 𝜹 -DP 𝑀を差分プライバシー のために導入したメカニズムとします。 Ωを 𝑀 𝑆𝑙𝑜𝑔 の出力空間とし、これをΩ1, Ω2に分割します。 Pr 𝑀 𝑆𝑙𝑜𝑔 ∈ Ω2 ≤ 𝛿 でありかつ以下の不等式が成立するときを確 率的 𝜀, 𝛿 -DPといいます 𝑒−𝜀 Pr 𝑀 𝑆𝑙𝑜𝑔′ ∈ Ω1 ≤ Pr 𝑀 𝑆𝑙𝑜𝑔 ∈ Ω1 ≤ 𝑒 𝜀 Pr 𝑀 𝑆𝑙𝑜𝑔′ ∈ Ω1 • 確率的 𝜀, 𝛿 -DPなら 𝜀, 𝛿 -DP – つまり確率的 𝜀, 𝛿 -DPのほうが 𝜀, 𝛿 -DPより強いです。つまり、確率的 𝜀, 𝛿 -DPなら 𝜀, 𝛿 -DPとなります。 – 証明はZEALOUS論文 Appendix2
  35. 35. ZEALOUSのアルゴリズム 検索ログを𝑆𝑙𝑜𝑔とし、正の数𝑚, 𝜆, 𝜏, 𝜏’を決める 1. 𝑆𝑙𝑜𝑔中の個人𝑢の検索履歴から𝑚個のキーワードを抽 出 2. 抽出されたキーワード𝑘から 𝑘, 𝐶 𝑘 を生成 3. 𝐶 𝑘 < 𝜏の 𝑘, 𝐶 𝑘 を削除 4. ラプラス雑音加算 𝐶 𝑘 = 𝐶 𝑘 + Lap 𝜆 5. 𝑘, 𝐶 𝑘 から𝐶 𝑘 ≤ 𝜏’のものを削除 6. 生き残った 𝑘, 𝐶 𝑘 の集合を公開  公開されたものは希少性がなく、そのうえ雑音まで加算 されているので、個人特定が困難 kのSLog中の出現回数
  36. 36. プライバシー保護力の分析 1 • 定理2 ZEALOUSアルゴリズムは以下の条件を満たせば、 (ε,δ)-DP  𝜆 ≥ 2𝑚 𝜀 , 𝜏 = 1, 𝜏’≥ 𝑚 1 − 𝑙𝑜𝑔 2𝛿/𝑚 𝜀  ここで、 𝜀, 𝛿と𝑚, 𝜆, 𝜏, 𝜏’が関係付けられます • 定理3 ZEALOUSアルゴリズムは以下の条件を満たせば、 確率的 (ε,δ)-DP  𝜆 ≥ 2𝑚 𝜀 ,  𝜏 − 𝜏’≥ 𝑚𝑎𝑥 −𝜆𝑙𝑛 2 − 2𝑒− 1 𝜆 , −𝜆𝑙𝑛 2𝛿 𝑈∙𝑚/𝜏  𝑈は𝑆𝑙𝑜𝑔中の人数 – 証明はZEALOUS論文のAppendix1 • 数値例: λ=5,ε=2, m=5, U=500,000のとき、 𝜏′ = 100, 𝛿′ = 3.2 × 10−3 or 𝜏′ = 200, 𝛿′ = 6.5 × 10−12
  37. 37. プライバシー保護力の分析 2 • 見落とし率 • 𝐷を𝑆𝑙𝑜𝑔中の分野(あるいはキーワード集合) • 𝑑 ∈ 𝐷, 𝑓𝑑 𝐷 は𝑑の出現回数 • すると、本来公開された検索ログに含まれるべきだったのに含まれない キーワード数は 1/2𝑒−2𝜉/𝜆 𝑑:𝑓 𝑑 𝑆𝑙𝑜𝑔 >𝜏+𝜉 • 語彙数とδ • 𝐷のキーワードを持つU人の検索ログの集合を𝐷 𝑈をします。 • 𝐷中の語彙数を 𝐷 と書きます. • このとき、検索ログ𝐷 𝑈においては、𝜀 > 0に対して、 𝜀, 1/ 𝐷 − 1 -DP という差 分プライバシーのメカニズムを作れます。 • 証明ははZEALOUS論文のAppendix3
  38. 38. まとめ • 一般にプライバシー技術の専門家以外には分 かりにくいと思われている差分プライバシーです が • 最近の発表されている論文では差分プライバ シーを扱うものが多く • 位置情報や時系列データへの応用論文も増え てきています。 • 暗号化より計算量が少なく、プライバシー保護の 評価も精密なので、今後、実用化されてくる可能 性が大きい技術です。
  39. 39. 差分プライバシー の文献 • C. Dwork. Differential privacy. In ICALP, LNCS, pp.1–12, 2006. • C. Dwork. Dierential privacy: A survey of results. In TAMC, pp. 1-19, 2008. • Cynthia Dwork, Frank McSherry, Kunal Talwar. “The Price of Privacy and the Limits of LP Decoding”. STOC’07, pp.85-94, 2007 • K. Nissim, S. Raskhodnikova, and A. Smith. Smooth sensitivity and sampling in private data analysis. In STOC, 2007. • V. Rastogi and S. Nath. Differentially private aggregation of distributed time-series with transformation and encryption. In SIGMOD, 2010. • X. Xiao, G. Wang, and J. Gehrke. Differential privacy via wavelet transforms. TKDE, 23(8):1200–1214, 2011. • Georgios Kellaris Stavros Papadopoulos. Practical Differential Privacy via Grouping and Smoothing. The 39th VLDB Vol. 6, No. 5. 301-312. 2013 • M. Götz, A. Machanavajjhala, G. Wang, X. Xiao, and J. Gehrke. Publishing search logs: A comparative study of privacy guarantees. TKDE, 24(3):520–532, 2012. • 差分プライバシーなどに関するSlideShareのアップロード一覧は以下のURLにあり ます • http://www.r.dl.itc.u-tokyo.ac.jp/node/57 39

×