Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー

8,584 views

Published on

データベース中の個人情報、プライバシー保護のために使うサンプリングやk-匿名化は分かったけど、 差分プライバシーはどうも難しくて分からんと思っているみなさん、 なんとかこれらをまとめてつないで説明しようとする話です。この元論文は2012年ですが、実は差分プライバシーが提案された2006年に、元データベースからサンプリングされたデータベースのプライバシー保護能力を評価する方法がすでに提案されています。後半では、この評価についても記載しています。事情により、分かり易く書き直した最新版はこちらです。http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/Privacy/Samplimg-K-anon-DP.pdf

Published in: Data & Analytics
  • Dating for everyone is here: ❶❶❶ http://bit.ly/2F7hN3u ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/2F7hN3u ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ACCESS that WEBSITE Over for All Ebooks (Unlimited) ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... DOWNLOAD FULL EPUB Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m77EgH }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes.........ACCESS WEBSITE Over for All Ebooks ..... (Unlimited) ......................................................................................................................... Download FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ACCESS that WEBSITE Over for All Ebooks (Unlimited) ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... DOWNLOAD FULL EPUB Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m77EgH }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー

  1. 1. サンプリングかK-匿名化か 差分プライバシーで比較してみよう 中川裕志 (東京大学)
  2. 2. プライバシー保護のために使う 元データベースからのサンプリングや k-匿名化は分かったけど、 差分プライバシーはどうも難しくて分 からんと思っているみなさん、 なんとかこれらをまとめてつないで説 明しようとする話です。
  3. 3. k-匿名化されたデータベース サンプリングとk-匿名化 • データ処理業者が収集した個人データを保護するには – (Sample)全データからランダムサンプリングしたデータベースを使って マイニング処理、あるいは第3者に渡す – (k-anon)全データから、疑似IDの情報を粗くすることでk-匿名化した データベースを使ってマイニング処理、あるいは第3者に渡す という方法があります。 全員のデータベース サンプリング された データベース ある割合で少数 をランダムサン プル 疑似IDの精度を粗 くして、同じ疑似ID の人がk-人以上い るように変換
  4. 4. Z 質問 シーが安全     のプライバ 別できないだと質問からは全く区例えば、 が区別しにくいとが小さいと 質問 質問 する確率の比データベースの差に関       0 ),Pr( ),Pr(    DD e D D データベース:D データベース:D’ 差分プライバシーとは何か
  5. 5. 結論をまとめると  特定の個人データがデータベースに入っているかどうかが分かってしまう 確率を教えてくれるのが差分プライバシーです。  元データからサンプリングしてデータベースを作ると、サンプリングがまば らなほど、個人特定に係わる確率は減るので安全です。  k-匿名化では、k人の中の1人という確率で個人特定されます。  ですからkを大きくすると安全性が増します。  サンプリング後にk-匿名化する方法も安全性は確保されます。  サンプリングとk-匿名化の安全性を差分プライバシ-によって比較する 方法が分かってきました。  サンプリングしてある程度安全にしてからk-匿名化でデータ値が並外れた個 人を除外するという方法もあります。  技術的な内容に興味がある人は続きをお読みください。けっこう数学的には ハードルありますので、ここで引き返すのも悪くないです。
  6. 6. サンプリングとk-匿名化を比較するには?  (Sample)も(k-anon)も、個人データを抜き取ろうという 攻撃されている個人(=潜在的被害者)が、特定でき ないことを目指す。  (Sample) サンプルして作られたデータベースに攻撃され ている個人が入っているかいないかは、サンプルする割 合(=サンプリング率)に異存  (k-anon) 攻撃される可能性のある個人はk人までしか 絞り込めない  (Sample)と(k-anon)のどっちがよいか比較するには?  以下は参考文献[Li,Qardaji,Su2012]に沿って議論を 展開します。
  7. 7. 差分プライバシーを使って比べる • 一言で言えば、差分プライバシーを使って比べます。 – では、差分プライバシーって何? – データベースDと、Dと1タプル:t だけ異なるデータベース D’を、データベースに対する質問への答えからだけでは 区別させないこと • タプルがデータベースの要素のこと。レコードとか要素とかいう場 合もあるようだ。 – 区別できないということは、質問者(=攻撃者)は、t の存 在の有無を知ることができないということ • したがって、タプル:t のプライバシーは守られている – とはいえ、完全に区別できないというのは難しい。 区別の困難さを導入して数理モデル化をしてみよう。
  8. 8. 比較評価指標 (ε,δ)-DP • DPとはDifferential Privacyの略                     いに近いほど区別しにくが            は 少し緩めたものは以下 は 合の取り得る値の部分集 スだけ異なるデータベータプルと を加算するへの質問の答えに乱数 データベース 00,0 ,PrPr, PrPr, : :1: algorithmrandomized:)( :           DPAODAeODADD DPAODAeODADD AArangeO tDD DDA D この部分のおかげで、攻撃者 はDの他のタプル全部を知っ ていても、tについては知るこ とができないといえる強力
  9. 9. 比較評価指標 (ε,δ)-DP ちょっと迷いやすいところがあります                                                  です。  と書くことも多い  。さらにと書く流儀もあります は もっと直接的に 。もカバーされていますだけでのおかげでの でが、という疑問がありそうも必要なのではないか では片方向なので              ODA ODA DD DPAODAeODAODAeDD DD ODAeODADD ODAeODADD Pr Pr log, PrPrPr, )2()1(, )2(PrPr, )1(PrPr,
  10. 10. サンプリングして作ったデータベース に対する差分プライバシーでの評価 サンプリング率βで サンプリングして 作ったDB 差分プライバシーにおける D,D’の差異を上から抑えるパ ラメタ-εの上界で評価               を満たすはを満たすが を適用した結果ルゴリズムータベースに対してアサンプルして作ったデ でからサンプリング率はデータベース サンプリング率 プライバシー  サンプリング下の差分 DPSDADPSDA A DDA DPS          ,,, : ,, (β,ε,δ)-DPS :         ODAeODA PrPr
  11. 11. (β,ε,δ)-DPSの効果       =安全性向上)が小さいほど小さい(はシーの安全さつまり、差分プライバ なので、式はすなわち   かつ     ただし、 を満たすに対してである任意の を満たすがアルゴリズム               12 12 11 1 2 2 1 2 2 222212 111 11 )( )()(11ln .,, ,, 12 1                      ee a bae DPS DPSA 定理 1 定理1の証明は[Li,Qardaji,Su2012] を御覧ください
  12. 12. (β,ε,δ)-DPSへの追加 • アルゴリズムAを入れ子にしてもOK • アルゴリズムAの凸性                        DPSDApDpAp DPSDADA DPSDADAAADPSDA       ,)1(10for ,, ,, 21 21 111 も, が もが
  13. 13. k-匿名化は(β,ε,δ)-DPS を満たさない  さて、話は変わってk-匿名化です。 • k-匿名化は 1. 1個のクラスタがk個以上のタプルを含むようにするクラ スタリング 2. 各クラスタを代表するデータを生成する • k-匿名化はサンプリング率:β>δのとき (β,ε,δ)-DPS を満たさない。 – なぜなら、ある属性が極端な値を持つタプルがあると、 そのタプルをサンプルしたか、しないか、が容易に区別 できてしまう。
  14. 14. サンプリング下のk-匿名性     }Ssthen kSsif{ allforstep2 }|{ 1step : :, から排除を 回以下しか現れない中にが                    つまり、 とする果を集めての全要素に適用した結をで作った   匿名化 匿名化のパラメタは        ただし、 を生成。  は写像 匿名化アルゴリズム基本的   Ss DttgS SDgA k kkkDT TDgkDA k m m       k-匿名化アルゴリズムAが強安全 とは Am(D,k)がDに依存しない (=g(t)がtを要素とするDに 依存しない) で決まること。
  15. 15. k-匿名化アルゴリズムAが強安全=Am(D,k)がDに依存し ない(=g(t)がtを要素とするDに依存しないで決まります。 実はいかなる強安全なk-匿名化アルゴリズムもε-DPでは ありません。なぜなら、以下を参照してください。                         を満たさない。 であるので  とするとよって の数は異なる。中のの数と中の 個しかありません。がとなる中にはより一方、 個あります。がとなる中に匿名化なのでがアルゴリズム う。だけ異なるとしましょとが1タプルがと DP SDASDADAS tgDAtgDA nttgtgD knttgtgDkA DtDtDD        0Pr,1Pr 1ˆˆ)1()3( )(ˆˆ)2( )1( つまり、差分プライバシーε-DPは、 k-匿名化より厳しい匿名化手法で す。 強安全の定義からすれば、論理的に は正しいけれど、ちょっと厳しい評価。
  16. 16. いかなる強安全なアルゴリズムもε-DPではありませんが、 サンプリングしてからk-匿名化をするなら、 (β,ε,δ)-DPS が成り立ちます。                                             e e j n k nn kd kde DPS k jnj n nj 1 1 1: max,, ,,,11ln,10 ,,       ただしすなわち条件: を満たす。 以下の条件で匿名化アルゴリズムは任意の強安全 定理2 2項分布の 裾の部分 しかし、この式では難 し過ぎるので、後で k,β,ε,δの関係の実例 を見てみましょう ようするに、サンプリン グをk-匿名化で強化し ているというストーリー だな γ 定理2の証明は[Li,Qardaji,Su2012] を御覧ください
  17. 17. サンプリングでない場合に 読み替える方法 • これまでのようにアルゴリズムAがデータベースに依存しない のは厳しすぎるので、これを緩めるが、個々のタプルには依 存しないようにする。 • そこでε-安全なk-匿名化をサンプリングの場合のDPSに近似 したくなります。それを教えてくれるのが、次のページの定理 です[Li,Qardaji,Su2012]     安全  という。  は匿名化アルゴリズムを使う を満たすとき 、は確率的なものでありで生成される写像 匿名化安全な定義:              AkkDA DP TDgkDA k m m , :,
  18. 18.  k-匿名化の方法を生成するアルゴリズムAmが固定の場合 の定理2とほぼ同じような証明になります。  βが小さくなるほど、DPSのεはk-匿名化のε1でよく近似でき ることが分かります。         1 1 1 ,1 1: max,, ,1ln ,, 1 1 1                                          条件  を満たす。とき以下の条件が成り立つ 、匿名化アルゴリズムは安全な任意の 定理3 jnj n nj j n k nn kd DPS k
  19. 19. k,β,ε,δの傾向 β, kの固定値に対して、ε増えるとδ減る。 ε, kの固定値に対して、β減るとδ減る。 サンプル数が減ると、プライバシーはより安全 β=0.2の場合、 k=5,10,…,50と増やすと、δは減少。 ε=1だと、k=5でδ=0.01, k=20でδ=10-7(指数的に減る) k=20の場合、β=0.4, 0.3, 0.2, 0.1, 0.05と減らすと εは急激に減少。
  20. 20. k,β,ε,δの傾向  (a)k=35,β=0.2, (b)k=22,β=0.1, (c)k=22,β=0.1 のい ずれも ε=1, δ=10-14付近  βが小さくなるとεは小さくなる=より安全。  kが大きくなるとεは小さくなる=より安全。  この2つの傾向は直感的にも当然。
  21. 21. 参考文献 • [Li,Qardaji,Su2012] Ninghui Li, Wahbeh Qardaji, Dong Su: On Sampling, Anonymization, and Differential Privacy: Or, k-Anonymization Meets Differential Privacy. Proceedings of the 7th ACM Symposium on Information, Computer and Communications Security(ASIACCS’12). Pages 32-33. 2012
  22. 22. 2006年にも似た研究あります • 差分プライバシー • [Cynthia Dwork, Frank McSherry, Kobbi Nissim, Adam Smith :Calibrating Noise to Sensitivity in Private Data Analysis. TCC 2006(The Third Theory of Cryptography Conference) pp.265-284. 2006] • が提案された2006年にサンプリングして作ったデー タベースのプライバシーを分析した研究があります。 • [Kamalika Chaudhuri, Nina Mishra : When Random Sampling Preserves Privacy. 26th Annual International Cryptology Conference Santa Barbara, California, USA, August 20-24, 2006. Proceedings. pp.198-213 .]
  23. 23. Random Sampling のPrivacy 評価 [K.Chaudhuri 2006] • データベースにおけるプライバシー保護の方法 – ランダムサンプリングしたデータ(タプル、あるいはレ コード)だけからなるサンプルデータベース • サンプルデータベースを他人に渡してマイニングを想定 – このような場合、個々のデータが特定されてしまう危 険性はどのくらいか? – データの頻度などの仮定をおいて、危険性を解析し ています。 単純なランダムサンプリングでの解析なので、基礎 的考察だから、かえってお役立ちかもしれないです。
  24. 24. Random Sampling のPrivacy 評価 [K.Chaudhuri 2006] • この論文の提案はおよそ以下のようなものです。  (ε,δ)-DPとほぼ同じ(1,ε,δ)-privateという安全性は、O(ε) の確率でサンプルして作ったサンプルデータベースで 成立します。  O(1/ε)以下の出現回数しかないレアな値を持つデータ が元のデータベースに t回出現する場合は、およそ O(εδ)以下の確率でサンプルした場合に(1,ε,δ)-private が成立します。 • ε,δとサンプル確率の関係を与えているので重要な結 果です。
  25. 25. まずは記号の意味 • D:データベース – D中の各データの隠したい情報(例えば、病名とか収 入)は k種類の値を持つ – D から確率 p でランダムサンプリングしてサンプル データベース S を作る どのくらいのpにすればどのくらい危険かを評価 するのが目的 • Dと D’はデータの値が1カ所 i だけ違うデータ ベース – Dはiの値がv、 D’はiの値がv’とする。形式的には – D=D{iv}, D’=D{iv’}と書く。
  26. 26. (1,ε,δ)-privateの定義 任意のデータベースの対: D{iv}, D{iv’} に対して サンプルデータベース S が確率1-δで不等 式 を満たすとき、サンプリングの仕掛け (mechanism)は (1,ε,δ)-private という。  この定義は差分プライバシーとほぼ、同一          1 '|Pr |Pr viDS viDS
  27. 27. サンプリングデータベースの(1,ε,δ)- privateに関する定理                   11 '|Pr |Pr Pr),,1( viDS viDS private参考              private Spt privatet S kt p ppp p k Dt DkD                         ,,1 0)2( ,,10 log4 1 1 log )1( 216,2max ], log2 [ ,][2    はスして作ったデータベー 確率でサンプリング かつ    の場合、  はスして作ったデータベーの確率でサンプリング   のとき かつ   サンプリング確率種類数回しか出現しない値の中にたかだか 中の異なる値の種類数,に対してデータベース この条件が重要 レアな値のデータがサンプルされた場合 レアな値のデータがサンプルされない場合
  28. 28. (1,ε,δ)-privateに関する定理の心                   11 '|Pr |Pr Pr),,1( viDS viDS private参考               でなければならない。 中のデータ数 であるには べて異なる場合は、なお、データの値がす を決める。ことを考慮しての定数倍で抑えられるないしがおよそ  ということはで  ない場合である。そこということはレア値が でスして作ったデータベー 確率でサンプリング かつ    で抑えたい。をおよそにするには の場合、レアな値の出現回数 なので、 D pprivate ppp privatet Spt pprivate t ktktkt p 1 ,,1 , ,,10 0)2( ,,1 0: log8log4log4 1 1 log )1(                           
  29. 29. 証明は論文を参照してほしいのです が、次のGood Sampleの定義と Lemma1,2を組み合わせて導きます             回出現  たかだか  は値の出現回数  の通常同じ値 をとるデータ数中で値は ただし、 回出現。は、たかだか 低頻度の値と呼ぶ   のデータの値の出現回数同じ値  と呼ぶレア値データの値を論文ではこれ以下の出現回数の   回同じ値が出現する。は最小でも中のデータの値 すとは以下の性質を満た      kpnpn vvpk vDn kpn vpkvk v kvD vv v v log3 log12)3( log2)( log12log2)2( )( log2(1) SampleGood    
  30. 30.                 難解ではない。から開始すればさほど としたときに出現でのが出現する回数に出だしで ほしいが、証明は論文を参照して  かつ  ただし、 に対して任意の であるときからのがサンプルデータベース 1 1 1 1 11 |Pr |Pr ][],[ 216,2max 1 |Pr |Pr ,, SampleGood 1Lemma 1 1 1 1 1 1 1                                                       v v v v v v v v v v v v vv n s n s s n s n s n s n viDS viDS vSsviDn ppp viDS viDS vvi DS  
  31. 31.       を参照されたい。詳細は論文後は少し技巧的だが、 場合も同様。が得られる。低頻度の界は以上出現する確率の上 回でがを使うと、通常値  はの観測データの和回の     ならいて、分布する確率変数におで   確率  証明で肝になるのは 注意: 以上である。が導かれる確率はから  のときサンプリング確率 2006]ri[K.Chaudhu log3SampleGoodBoundsChernoff 12 expPr 2/1Berboulli BoundsChernoff 2 1SampleGood log4 1 1 log 2Lemma 3/log3 2 2         k e k pnpnSv pmp x xmpXXiidM pp D k t p k vv                                        
  32. 32. D,D’がc個異なる場合の (c,ε,δ)-privateに関する定理       次元ベクトルの代入は 参考   ciP iPDS iPDS private v v' v            )(11 )(|Pr )(|Pr Pr),,1(                        privatec Spt privatectS k c kt p p k c p k c cp k c c pc k Dt DkD private                                                                       ,, 0)2( ,,0 log2 1log4 1 1 log )1( 21 log2 1 log2 12, log2 16max ], log2 [ ,][2 ,,1    はスして作ったデータベー 確率でサンプリング かつ    の場合、は データベース して作ったの確率でサンプリング   のとき   かつ  サンプリング確率種類数回しか出現しない値の中にたかだか 中の異なる値の種類数,に対してデータベース なりたつ。の場合と類似の定理がこの場合も この項が主に 変わった部分

×