匿名化の崩壊

9,619
-1

Published on

パーソナルデータのデータベースは、「個人ID+多数の属性値」というレコードの多数集まったものです。
属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評価した商品(映画など)があります。
個人IDを消して匿名化していても、少数の属性値が攻撃者に知られるだけで、個人識別ができてしまいます。稀(rare)な属性値が知られると非常に危険です。
こういった直感をモデル化して数量的に評価した話です。

Published in: Data & Analytics
2 Comments
40 Likes
Statistics
Notes
  • コメントありがとうございます。雑音とは本来「摂動」と書くべきところでしたが、端折って「雑音」と近似的に書いてしまいました。スライドで言えば、22枚目のDに対して摂動(雑音加算)したD’を意味します。攻撃者にD’が分かっている場合、Narayananの論文の定理1は成立しないというのが反例ですが、Merenerの改訂版定理4ではこの例でもde-anonymizeされてしまうという意味です。つまり、元のDと少々違ったデータが分かった場合でも危険であるということです。このスライドでは書きませんでしたが、Merener論文ではこれ以外にもD’の例が2つほど示されています。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 興味深いスライド,ありがとうございます.仮名化(単純匿名化?)のような単純な匿名化方法だけでは個人識別が可能だという直観を,実例をもって表していて面白いですね.
    p6にある,Merener2012の雑音を加算した場合の議論に興味があるのですが,スライド(もしくは論文)のどの部分にあたるのか,もしよければ教えて頂けないでしょうか.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
9,619
On Slideshare
0
From Embeds
0
Number of Embeds
10
Actions
Shares
0
Downloads
111
Comments
2
Likes
40
Embeds 0
No embeds

No notes for slide

匿名化の崩壊

  1. 1. 匿名化の崩壊 中川裕志 (東京大学)
  2. 2. あらまし の あらまし • パーソナルデータのデータベースは 個人ID+多数の属性値 というレコードからなります。 • 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評 価した商品(映画など)があります。 • 個人IDを消して匿名化していても、少数の属性値が攻撃 者に知られるだけで、個人識別ができてしまいます。 • 稀(rare)な属性値が知られると非常に危険です。 • こういった直感をモデル化して数量的に評価した話です。
  3. 3. • Netflixの映画評価データベースを使った公開タスク事件:  Narayanan, A., Shmatikov, V. (2008) Robust De-anonymization of Large Sparse Datasets, Proc. of the 2008 IEEE Symposium on Security and Privacy, 111-125 という論文が以下のような匿名性の崩壊現象を示しました。  このデータベースは、50万人のユーザがのべ1億件の映画評価を行った データベース。1人あたり8本を評価したデータで評価実験タスクが公開され、 参加者が募集されました。  評価した日が3日程度誤差があるとすると • 2本の映画評価が知られると、60%のユーザが識別され、 • 4本の映画評価が知られると90%のユーザが識別されます – 識別とは個人を特定できないが、同一人物のデータだと認識された状態で あり、外部のデータと突き合わせると個人特定につながりやすい • これによって、Netflix公開タスクは中止に追い込まれました。 あらまし Narayanan2008:Robust De-anonymization of Large Sparse Datasets
  4. 4. あらまし Narayanan2008 (続き) • さらに、個人名まで入った映画評価データベースInternet Movie Database (IMDb)と突き合わせると、容易に個人特定に至ります。 (次のスライドの図を参照してください) • この論文では、攻撃者が、個人についてわずかな情報を知ってい るだけで、Netflixの映画評点データベース、(あるいはそのサンプ ルからなるデータベース)の個人データを特定できてしまうことを示 しています。 恐怖) – あるいは、少数の候補者グループに高い確率で絞り込めます。 • さらにデータがスパース、すなわち個人のデータは量が少ない場 合も分析していますが、それでも匿名化は高い確率で破られます。 • つまり、予想を遙かに超える容易さで匿名化が崩壊することを示し ました。
  5. 5. あらまし(ポンチ絵) 個人ID \映画評点 (匿名化) 映画1 映画2 ・・・・ 映画M 太郎(個人1) 1 2 ・・・・ 5 次郎(個人2) 1 null ・・・・ 5 ・・・・ ・・ ・・ ・・・・ 映画評価データベース :Netflix 個人ID\映画評点 映画1 映画2 ・・・・ 映画M 太郎 1 2 ・・・・ 5 次郎 1 null ・・・・ 5 ・・・・ ・・ ・・ ・・・・ 個人名付き映画評価データベース:IMDb ①少数でもこの評 価点が分かると ②こちらの評価点も推定 できる識別しやすくなる ③個人1,2が同じグループと 絞り込め、識別しやすくなる ④個人1=太郎 だと特定される
  6. 6. あらまし Merener2012:Theoretical Results on De- Anonymization via Linkage Attacks • 2012年にNarayanan2008論文の弱点を改善と拡張が以下の 論文で発表されました。  Martin M. Merener:Theoretical Results on De-Anonymization via Linkage Attacks, TRANSACTIONS ON DATA PRIVACY 5 (2012) 377–402 • この論文では、 Narayanan2008がうまくいかない簡単な例を 示しました。 • その上で、 • 評価点が個人データ保護のために雑音を加算された場合も 検討しますが、やはり匿名性は崩壊しています。 – 雑音加算によりk-匿名化のような方法も扱えます。
  7. 7. Merener(2012)あらまし(続き) • さらに、まれにしか起こらない属性の値を攻撃者が知っている場合をいわゆ るロングテール現象としてモデル化します。  まれにしか起こらない属性の値が知られるということは、その属性に値を 与えた人(=レコード)は攻撃者に識別されやすくなります。したがって、 以下に示すように匿名化を破られる確率が急激に悪化します。 • 具体例 1. Netflix映画評価データ 48万レコードのデータベースで、17個以上の属性値が知られると、 84%以上の確率で匿名化が崩壊し、識別されてしまいます。 1. Joint Canada/United States Survey of Health (2004), Statistics Canada, Identification number jcush 82M0022 E 2004. • データベースの属性数=353個、レコード数=約8600 • 攻撃者が値を知っている属性数=42 で匿名化崩壊の確率=9% • 同上 =57 同上 =71% • 同上 =77 同上 =87%
  8. 8. 応用 • 以上で紹介した論文では、データベースの属性はユーザ個人の 見た映画の評価点でした。 • しかし、この論文では、個人データの構造は – (個人ID、疑似ID(住所など)、機微情報など) ではなく – (個人ID、映画1の評価点,映画2の評価点, …..)でした。 – ここで、映画iの評価点を 「滞在位置」や「場所:A から場所:Bへの移動」などの移動履歴に置き換え ると、 • 個人の移動履歴データがどのくらい攻撃者に知られてしまうと、個人識 別や特定がされてしまい、危険なのかを評価できます。  今後の研究課題ですが、移動履歴、位置情報の匿名性の崩 壊はパーソナルデータ利活用の場面で重要な知識となりま す。
  9. 9. ここから先は数学的なモデルの 話になりますので、ここで引き返 すのも一つの手です。
  10. 10. Narayanan2008:Robust De-anonymization of Large Sparse Datasets • この論文で示された技術的内容、数学的モデルを以下に示します。 • 定理の証明は原論文に譲ることにします。 モデル化:データベース • データベース 𝐷:N×M行列 匿名化された場合は𝐷 • 横方向は属性(映画:x)、縦方向は個人(r) • nullの場所は評点なし。 • 個人rに属性で評点の入っている部分をsupp(r)と書きます • 属性i (この場合は映画i)からみたsupp(i)はiに評点を付けている人の集合です 個人ID\映画評点 映画1 映画2 ・・・・ 映画M 太郎(個人1) 1 2 ・・・・ 1 次郎(個人2) 3 null ・・・・ 5 ・・・・ ・・ ・・ ・・・・ 九郎(個人N) null 4 ・・・・ 1
  11. 11. モデル化:類似度、スパース性                        rrrrSim DrrD SimXX rr rrSim rrSim Nteflixrr rrrrrr Sim i ii MM ;,Pr ,sparse,:database:Sparsity )2.2( suppsupp , , , )(),(2 r 21 21 21 21 2,212,1,111 しとは以下で定義。ただが 数例えば、同じ値の要素 。の定義はいろいろある属性間のの要素数、右辺分子のは       に対してコードですでは個人に対応するレはレコード 個のレコードデータベースの  類似性  εより類似したレコードはほとんどでない(確率δ以下)
  12. 12. モデル化 • 攻撃者(advesary)は、レコードrに関してsupp(r)を構成する属 性値の一部分に雑音加算したり摂動したりしたデータが与え られます。これを用いて、 𝑟の真の値を獲得しようとします。 – 攻撃者が 𝑟 に関して持つ確率分布や属性値が近接する レコードなどの知識を𝐴𝑢𝑥 𝑟 と書きます。これはrに摂動 したり一様分布の雑音を加えたりしたもの。 • プライバシー侵害(privacy breach)は再識別(deanonymize)に よって数学的に定義されます。             rrSimA r rAuxDA D ,Pr output ,input: eddeanonymiz, が存在し  というアルゴリズム は  とは が r‘ にθ以上類似したrが高い確率ωで得られる
  13. 13.                  nulloutputsPrthenˆIf ,PrassuchoutputsthenˆIf eddeanonymiz,ˆ breach)(privacyプライバシー侵害 ADr rrSimrADr Arr rAuxrr DD       成立が存在し以下の2つがムを生成するアルゴリズから 」を持つとき、についての知識と「攻撃者が のときがータベースの任意の部分集合のデ   rに類似したレ コードが見つか らない確率がω より大きい 以下で解決したい問題は 攻撃者がどのくらい多くの情報(aux)を持って いれば、プライバシー侵害が可能か? です。
  14. 14. 匿名化を破るアルゴリズム de-anonymize algorithm 1. データベース𝐷の第i属性に関して攻撃者が持っている知識 𝑎𝑢𝑥𝑖を用いて次のスコアを計算: 𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ = 𝑚𝑖𝑛𝑖∈𝑠𝑢𝑝𝑝 𝐴𝑢𝑥 𝑆𝑖𝑚 𝑎𝑢𝑥 𝑖, 𝑟′𝑖 2. 攻撃者は自分の持つ知識𝑎𝑢𝑥を用い、予め決められた定数𝛼 に従って、マッチング集合𝐷′ = 𝑟′ ∈ 𝐷|𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ > 𝛼 を 計算 3. 𝐷′の要素を𝑆𝑐𝑜𝑟𝑒の高さ順に高い確率になるような確率分布を 決める。(簡単には一様分布でもよい)この分布の上位をde- anonymizeした結果とする。
  15. 15. いよいよ匿名化崩壊の定理 • 前提: – 攻撃者はrに関して𝑚 = 𝑎𝑢𝑥 個の属性値を知っていると する。 • 定理1                         N m rrSim D auxrauxSimrri N mr ND iiii log 11,'Pr zeddeanonymai1,1 1,supp 1log log 1,0        が小さいと、注: 注:つまり、 は  攻撃者は知っている。 を である属性値: 個に関して の属性のうち  とする。。個のレコードからなるはデータベース εが小さくなるほど①r,r’が類似 ②大きなmが必要
  16. 16. 定理1の補遺 • 証明はNarayanan2008を参照してください。 • 証明には次のLemmaが重要です。                る□のだという仮定に反すに対応しない誤ったもがとなり、 、に対応する仮定するとはを否定する、つまり        ではない)     (すなわち い誤ったレコード生成されたものではな からによってがアルゴリズム   rr rrSimrrSim rr rrSim rrA rArLemma iiri ' 111,11,Pr Lemma1 Proof 11',Pr ' '1 rsupp        δが大きくなると低い類似性でもr’がrに類似 していると判断:(甘い判断)
  17. 17.                     □は存在する。    わち一つは正しいものすな のなかに少なくともが生成しただから、アルゴリズムなお、 である確率はの逆により、正しい 率はを一つも生成しない確誤った を生成する確率は誤ったがよりアルゴリズム たかだか個以上出現する確率はがったデータベース全体で誤   である確率はたかだかより誤った 定理1の r rArrSim r r rAN N m Nr r m m m         1, 1Lemma1 1 1 1log log 11 1Lemma1 Proof       
  18. 18. スパースなデータベースの場合 定理2                  11,Przeddeanonyumi1,1 ;1,Pr ,1 ,, r rrSimD rrrrSim sparseD aux すなわちは なら すなわちがデータベース は定理1と同じ前提。 Dがスパースで非常に類似したデータ ペアr、r‘が存在するなら、 高い確率(1-ε)で匿名化が破られる スパースなほど匿名化が破られやすいと いう直感的に正しい結果が得られている。 なぜなら、 、1個のデータの値が知られた とき、他の類似データで隠せないから。
  19. 19. k-匿名化とのアナロジー        k rrSim k D k k k N m k rr k rrSim sparse kk D aux k 1 1,Preddeanonymiz 1 ,1 /1 1 1log 1 log 1 1; 1 ,Pr 1 1, 1 ,, 1 11 r                               すなわちは ード数の期待値は正しく識別できたレコ コード数はり、誤って識別するレ定理1と同じ議論によ ならでさらに すなわちがデータベース してみるとは定理1と同じ前提と  で定理     k-匿名化として理解できる
  20. 20. サンプリングして作ったデータベースの場合 • サンプリングで作ったデータベースの場合も 定理1と同じようなことがいえ、けっこう脆弱。      ができる以上の確率で知ること       中に存在しないことをに一致するレコードが攻撃者は る以上の確率で発見でき       中からに一致するレコードを攻撃者は 合:の値を知ろうとした場つまり、攻撃者が は とするとき、ったデータベースをからサンプリングで作 。は定理1と同じとする 定理          1 ˆthenˆIf 1 ˆthenˆIf eddeanonymiz1,1ˆ ˆ ,, 4 DrDr DrDr r D DD aux
  21. 21. Merener2012:Theoretical Results on De-Anonymization via Linkage Attacks • 基本的にはNarayanan2008の記法、定理を踏襲 します。 • まず、定理1が成立しない場合: • レコード数=105、属性数=200、 ε=0.25、δ=0.125 • 類似度 Sim は max(1-|a-b|,0) • データベースD,D’は次のページに記載します
  22. 22.                                                                                 11,'Pr 1,1 supp1, 1log log )( 1 125.0 0.75175.0,,125.0 25.0225.02 25.0225.02 75.175.1 75.175.1 75.075.0 75.075.0 22 5.025.02 22 5.15.1 11 5.05.0 rrSim zeddeanonymaiD rirauxSim r N mauxrAux rrSimDrDrNi NN NN D NN NN D ii つまり、  は  を満たす属性値 かつ 、からランダムに選ばれランダムに 個の        再掲 定理 なので=                  
  23. 23.                              は成立しない。矛盾。よって、定理1 ら一方、定理1の結果か でしたがって、 ードの場合も同じ。   これは他のレコ 率で推測される。個で、攻撃者に同じ確の可能性のある候補は次 すると、であると知っていたと攻撃者が より 定理 なので=に対して、前ページの           75.0625.0,Pr,97 5.05.0,Pr2001 2,...,2,5.1,...,5.1 2 75.1,...,75.12,...,2 75.025.01625.0,Pr125.025.01,Pr 6.96 125.01log 25.010log 1 175.0,,1 25.0, 5 rrSimm rrSimm rr rrSimrrSim m rrSimDrDrNi DADD   以下では、この問題点を訂正した方法を示す。
  24. 24. Narayanan2008論文の改善 • 以下では、Narayanan2008の定理1の問題点の改善策を示し ます。 – 基本的定義から見直します。                                         3.2 suppsupp suppsupp , 2.2 suppsupp , , supp1.2 suppsupp ,: , ,thenorthatsuch,if similar-h similar-h yx yx yxSim yx yxSim yxSim nullrr yx yxSimi yxSim hddSimnullDdnullDdji DD, i ii ii ijijijij            でない部分の要素では注 類似度    という。条件を満たすときは同じ大きさで以下のデータベース 定義:  
  25. 25.        supp ,,|,ˆ:Output supp'supp,thatsuch:Input ˆ     が最小であるもの   の要素のうち は集合 と書く     *ここで されたレコードでは   匿名化アルゴリズム     ii yrSimsiDyDrA ms srrsDrr A                                      pDrDrSim mDr mp mpAD pN mSim mpAD pN mSim SimDD                        ,Pr suppmax zeddeanonyumi,, zeddeanonyumi,,outputˆthen 1 21log 1log 2.2if2 zeddeanonyumi,,outputˆthen 21log 1log 1.2if1 1similar21, 008Narayanan24 1 り立つことである。であるとき、下式が成 とは、ここで はのに対するアルゴリズム  ただしで定義され、かつが はのに対するアルゴリズム で定義され、かつが 立つ。このとき、以下が成り とする。が三角不等式を満たすで、が の定理1の改訂版です  定理
  26. 26.                                  ができる。」個の属性値を知ることコードの攻撃者はさらにそのレ るなら、個の属性値を知っていランダムに選んだ んだレコードの全体と、ランダムに選で「攻撃者が確率 の場合属性数 定理4の具体例 の下界が定理1では ことが三角不等式を満たす定理4では が 4の差異はすると、定理1,定理 で同じ内容は このとき、 となる るを使った場合に代入すを定理4のにしているので、これを定理1の の対応になるは定理1の記法と以下定理4の 27 29 99.0 35.0,160,99.01,10 11log log 3 12 simliar2/1simliar1,1 eddeanonymiz,1,1eddeanonymiz,, 121log log 21log 1log )2.2()2.2( 1,1:, 6 D pN N mm Sim DD mmpD N m pN m Sim pp                      定理4とNarayanan2008の定理1の関係
  27. 27.                  eddeanonymiz,21ˆthen 21log log )2.2(if similar21,, 8 Pr eddeanonymiz,perfectlysupp        mperfectlyDA N mSim Sim DDsparseD prrDr ArD mpDmD     にに対しては 式であり、が 。とき、以下が成り立つが三角不等式を満たす であり、がで、が 定理   を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が とは、に対してであるとき、が 定義 
  28. 28.         する。で完全に匿名化が崩壊すなわち確率 が知れば、個以上の属性を攻撃者 のうち、つまり、全属性 であるとで、 すなわち  データベースの場合、のの場合、定理    とするは 属性毎の た例データベースに適用しを定理 0.84 edeanonymiz)84.0,1(17 770,1703.17 5.025.1log 08.0000,480log 08.0,25.084.02108.0 000,4808 0 if1 , Netflix8          m sparse NetflixN otherwise ba baSimSim 
  29. 29. Sparsityに関する定理の改善            prrDr ArD mpDmD qDDSimKjNjqSimD jDDNK jk j     Pr eddeanonymiz,perfectlysupp ,:,1Prsparse, ],1[:Sparsity   を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が とは、に対してであるとき、が定義(再掲)  かつであるとは、に関してが 行とする。の第をんだ値とする。区間からランダムに選を定義        である。に対してとは が成立するならこのとき、 とする。はさらに、 であるとする。に関してとはアルゴリズム があるとき、に関する)仮定条件に関するあるとする。 定理 eddeanonymizperfectly' sparse, eddeanonymiz,,' ',,(', 7     qpDAD H qD mpDSimA HDDmDDqp  
  30. 30. ロングテールの情報が知られた場合の危険性                   い。の図を参照してくださ直感的には次のページ 。データベースとします なる個は含むレコードからな属性を少なくとも希少番目より ではない属性がに入っているのすなわち、 。データベースとします るであるレコードからなをそこで、 この定義によれば、   ただし、     とはがスの大きさのデータベー定義: します。の降順に並んでいるとの大きさ、すなわち属性は します。つまり個人)の集合とでないレコード番号がは属性 1)( null)supp( supp supp 1,0supp tail, suppsupp (supp rareM rr riandMiiD NiMi NM DMN ii nullii             
  31. 31. レコード数 ②τM番目 この順位にはκN個 のレコードが含まれ る M 属性 (順位) ①この曲線の下の部分の 面積が全レコード数Nに対 応 ④この部分に入っている属性で suppされているレコードはrareな データでsuppされているので、 攻撃者に識別されやすく、匿名 化が崩れやすい ③τMより右側のテール部 分の属性にも少なくとも1 個はsuppされているレコー ドの集合がD>τ
  32. 32. ロングテールの情報が知られた場合の危険性 続き)                        は 性数とすると、が攻撃者に知られた属式の定義の場合、 なら、 は三角不等式を満たすで、がで、が 定理 )原論文を参照されたいになります。(証明は具体的には以下の定理 つまり 部分のデータに対しての eddeanonymiz,,ˆ 21log 1log )1.2( 1similar21,tail, 9 eddeanonymiz,,,Pr 1,Pr,tail 1          mpAD pN m mSim SimDDD mpprrSim prrSimDrMi         定理4と比べると、分子がNからκNと小さく なっているので、匿名化が崩壊してしまいや すい、ということだ! されやすい 知られてしまうと 攻撃者に評価していない評点が しか部分のほうの少ない人 eddeanonymiz tail
  33. 33.          の大きさが最小のもののうちの要素 のがという属性で値を持つに対してただし、 アルゴリズム suppsupp:,|ˆ:Output supp,|:Input ˆ yysDyDsrB rrsDrDsr B                          にに対しては 。のとき以下が成り立つは 、、が 定理 eddeanonymiz,21ˆperfectly 21log log , suppsuppsuppsupptail, 10 2121      mBDD N m sparseD rrrrSimD      だ!する可能性があるわけの部分が匿名化が崩壊したがって、 となる。は全レコード中でによると、定理 されているので、だけで 属性個の映画多く評価されたのレコードがもっとも であるが映画数)の場合、総属性数(例: %97 %97056.010 supp )(1000%97 770,17     D Netflix
  34. 34. 他の匿名性評価法との比較  このスライドで説明したのは、 – 大元のデータベースDをアルゴリズムAで変換した結果データベース D’ (すなわちA(D))が攻撃者に渡った場合の匿名性の崩壊の度合い の評価 一方、  サンプリング、k-匿名化、差分プライバシーの評価のSlideShare: – http://www.slideshare.net/hirsoshnakagawa3/samplimg-kanondp – は、データベースD’ そのものは公開されず、攻撃者からの質問への 回答でその内容を知ろうとされる場合の危険性の評価。  両者は異なる視点からの評価なので、同列に比較はできない。  これらの異なる評価法をプライバシー保護の観点から俯瞰できる 評価手法を明らかにすることが今後の課題であると思われます。

×