匿名化の崩壊

匿名化の崩壊
中川裕志
(東京大学)

あらましのあらまし
• パーソナルデータのデータベースは
個人ＩＤ＋多数の属性値
というレコードからなります。
• 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評
価した商品（映画など）があります。
• 個人ＩＤを消して匿名化していても、少数の属性値が攻撃
者に知られるだけで、個人識別ができてしまいます。
• 稀(rare)な属性値が知られると非常に危険です。
• こういった直感をモデル化して数量的に評価した話です。

• Netflixの映画評価データベースを使った公開タスク事件：
 Narayanan, A., Shmatikov, V. (2008) Robust De-anonymization of Large Sparse
Datasets, Proc. of the 2008 IEEE Symposium on Security and Privacy, 111-125
という論文が以下のような匿名性の崩壊現象を示しました。
 このデータベースは、５０万人のユーザがのべ１億件の映画評価を行った
データベース。１人あたり８本を評価したデータで評価実験タスクが公開され、
参加者が募集されました。
 評価した日が３日程度誤差があるとすると
• ２本の映画評価が知られると、６０％のユーザが識別され、
• ４本の映画評価が知られると９０％のユーザが識別されます
– 識別とは個人を特定できないが、同一人物のデータだと認識された状態で
あり、外部のデータと突き合わせると個人特定につながりやすい
• これによって、Netflix公開タスクは中止に追い込まれました。
あらまし
Narayanan2008:Robust De-anonymization of
Large Sparse Datasets

あらまし Narayanan2008 （続き）
• さらに、個人名まで入った映画評価データベースInternet Movie
Database (IMDb)と突き合わせると、容易に個人特定に至ります。
(次のスライドの図を参照してください）
• この論文では、攻撃者が、個人についてわずかな情報を知ってい
るだけで、Netflixの映画評点データベース、（あるいはそのサンプ
ルからなるデータベース）の個人データを特定できてしまうことを示
しています。恐怖）
– あるいは、少数の候補者グループに高い確率で絞り込めます。
• さらにデータがスパース、すなわち個人のデータは量が少ない場
合も分析していますが、それでも匿名化は高い確率で破られます。
• つまり、予想を遙かに超える容易さで匿名化が崩壊することを示し
ました。

あらまし（ポンチ絵）
個人ＩＤ＼映画評点
(匿名化）
映画１映画２・・・・映画M
太郎（個人１） 1 2 ・・・・ 5
次郎（個人2) 1 null ・・・・ 5
・・・・・・・・・・・・
映画評価データベース：Netflix
個人ＩＤ＼映画評点映画１映画２・・・・映画M
太郎 1 2 ・・・・ 5
次郎 1 null ・・・・ 5
・・・・・・・・・・・・
個人名付き映画評価データベース：ＩＭＤｂ
①少数でもこの評
価点が分かると
②こちらの評価点も推定
できる識別しやすくなる
③個人１，２が同じグループと
絞り込め、識別しやすくなる
④個人１＝太郎
だと特定される

あらまし
Merener2012：Theoretical Results on De-
Anonymization via Linkage Attacks
• 2012年にNarayanan2008論文の弱点を改善と拡張が以下の
論文で発表されました。
 Martin M. Merener：Theoretical Results on De-Anonymization via
Linkage Attacks, TRANSACTIONS ON DATA PRIVACY 5 (2012) 377–402
• この論文では、 Narayanan2008がうまくいかない簡単な例を
示しました。
• その上で、
• 評価点が個人データ保護のために雑音を加算された場合も
検討しますが、やはり匿名性は崩壊しています。
– 雑音加算によりk-匿名化のような方法も扱えます。

Merener(2012)あらまし(続き)
• さらに、まれにしか起こらない属性の値を攻撃者が知っている場合をいわゆ
るロングテール現象としてモデル化します。
 まれにしか起こらない属性の値が知られるということは、その属性に値を
与えた人（＝レコード）は攻撃者に識別されやすくなります。したがって、
以下に示すように匿名化を破られる確率が急激に悪化します。
• 具体例
1. Ｎｅｔｆｌｉｘ映画評価データ
48万レコードのデータベースで、17個以上の属性値が知られると、
84%以上の確率で匿名化が崩壊し、識別されてしまいます。
1. Joint Canada/United States Survey of Health (2004), Statistics Canada,
Identification number jcush 82M0022 E 2004.
• データベースの属性数＝353個、レコード数＝約8600
• 攻撃者が値を知っている属性数＝42 で匿名化崩壊の確率＝9%
• 同上＝57 同上＝71%
• 同上＝77 同上＝87%

応用
• 以上で紹介した論文では、データベースの属性はユーザ個人の
見た映画の評価点でした。
• しかし、この論文では、個人データの構造は
– （個人ＩＤ、疑似ＩＤ（住所など）、機微情報など）ではなく
– （個人ＩＤ、映画1の評価点，映画2の評価点， …..）でした。
– ここで、映画iの評価点を
「滞在位置」や「場所:A から場所:Bへの移動」などの移動履歴に置き換え
ると、
• 個人の移動履歴データがどのくらい攻撃者に知られてしまうと、個人識
別や特定がされてしまい、危険なのかを評価できます。
 今後の研究課題ですが、移動履歴、位置情報の匿名性の崩
壊はパーソナルデータ利活用の場面で重要な知識となりま
す。

ここから先は数学的なモデルの
話になりますので、ここで引き返
すのも一つの手です。

Narayanan2008:Robust De-anonymization of
Large Sparse Datasets
• この論文で示された技術的内容、数学的モデルを以下に示します。
• 定理の証明は原論文に譲ることにします。
モデル化:データベース
• データベース 𝐷：N×M行列匿名化された場合は𝐷
• 横方向は属性（映画:x）、縦方向は個人(r)
• nullの場所は評点なし。
• 個人rに属性で評点の入っている部分をsupp(r)と書きます
• 属性i (この場合は映画i)からみたsupp(i)はiに評点を付けている人の集合です
個人ＩＤ＼映画評点映画１映画２・・・・映画M
太郎（個人１） 1 2 ・・・・ 1
次郎（個人2) 3 null ・・・・ 5
・・・・・・・・・・・・
九郎（個人N) null 4 ・・・・ 1

モデル化:類似度、スパース性
 
   
   
 
   







rrrrSim
DrrD
SimXX
rr
rrSim
rrSim
Nteflixrr
rrrrrr
Sim
i ii
MM
;,Pr
,sparse,:database:Sparsity
)2.2(
suppsupp
,
,
,
)(),(2
r
21
21
21
21
2,212,1,111
しとは以下で定義。ただが
数例えば、同じ値の要素
。の定義はいろいろある属性間のの要素数、右辺分子のは
　　　　　
に対してコードですでは個人に対応するレはレコード
個のレコードデータベースの
　類似性

εより類似したレコードはほとんどでない（確率δ以下）

モデル化
• 攻撃者(advesary)は、レコードrに関してsupp(r)を構成する属
性値の一部分に雑音加算したり摂動したりしたデータが与え
られます。これを用いて、 𝑟の真の値を獲得しようとします。
– 攻撃者が 𝑟 に関して持つ確率分布や属性値が近接する
レコードなどの知識を𝐴𝑢𝑥 𝑟 と書きます。これはrに摂動
したり一様分布の雑音を加えたりしたもの。
• プライバシー侵害(privacy breach)は再識別(deanonymize)に
よって数学的に定義されます。
 
 
   




rrSimA
r
rAuxDA
D
,Pr
output
,input:
eddeanonymiz,
が存在し　　というアルゴリズム
は
　とは
が
r‘ にθ以上類似したrが高い確率ωで得られる

 
 
  
  







nulloutputsPrthenˆIf
,PrassuchoutputsthenˆIf
eddeanonymiz,ˆ
breach)(privacyプライバシー侵害
ADr
rrSimrADr
Arr
rAuxrr
DD
　　
　　
成立が存在し以下の２つがムを生成するアルゴリズから
」を持つとき、についての知識と「攻撃者が
のときがータベースの任意の部分集合のデ
　
rに類似したレ
コードが見つか
らない確率がω
より大きい
以下で解決したい問題は
攻撃者がどのくらい多くの情報(aux)を持って
いれば、プライバシー侵害が可能か？
です。

匿名化を破るアルゴリズム
de-anonymize algorithm
1. データベース𝐷の第i属性に関して攻撃者が持っている知識
𝑎𝑢𝑥𝑖を用いて次のスコアを計算：
𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ = 𝑚𝑖𝑛𝑖∈𝑠𝑢𝑝𝑝 𝐴𝑢𝑥 𝑆𝑖𝑚 𝑎𝑢𝑥 𝑖, 𝑟′𝑖
2. 攻撃者は自分の持つ知識𝑎𝑢𝑥を用い、予め決められた定数𝛼
に従って、マッチング集合𝐷′ = 𝑟′ ∈ 𝐷|𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ > 𝛼 を
計算
3. 𝐷′の要素を𝑆𝑐𝑜𝑟𝑒の高さ順に高い確率になるような確率分布を
決める。（簡単には一様分布でもよい）この分布の上位をde-
anonymizeした結果とする。

いよいよ匿名化崩壊の定理
• 前提：
– 攻撃者はrに関して𝑚 = 𝑎𝑢𝑥 個の属性値を知っていると
する。
• 定理１
 
 
   
 
  
 









N
m
rrSim
D
auxrauxSimrri
N
mr
ND
iiii
log
11,'Pr
zeddeanonymai1,1
1,supp
1log
log
1,0







が小さいと、注：
注：つまり、
は　
攻撃者は知っている。
を　である属性値：
個に関して　の属性のうち　
とする。。個のレコードからなるはデータベース
εが小さくなるほど①r,r’が類似
②大きなmが必要

定理１の補遺
• 証明はNarayanan2008を参照してください。
• 証明には次のLemmaが重要です。
 
    
       
る□のだという仮定に反すに対応しない誤ったもがとなり、
、に対応する仮定するとはを否定する、つまり
　　　　　　
ではない）　　　　　（すなわち
い誤ったレコード生成されたものではな
からによってがアルゴリズム　　
rr
rrSimrrSim
rr
rrSim
rrA
rArLemma
iiri
'
111,11,Pr
Lemma1
Proof
11',Pr
'
'1
rsupp







δが大きくなると低い類似性でもr’がrに類似
していると判断：（甘い判断）

 
 
 
 
 
 
　　　　　　　　□は存在する。　　　　わち一つは正しいものすな
のなかに少なくともが生成しただから、アルゴリズムなお、
である確率はの逆により、正しい
率はを一つも生成しない確誤った
を生成する確率は誤ったがよりアルゴリズム
たかだか個以上出現する確率はがったデータベース全体で誤
　　である確率はたかだかより誤った
定理１の
r
rArrSim
r
r
rAN
N
m
Nr
r
m
m
m








1,
1Lemma1
1
1
1log
log
11
1Lemma1
Proof








スパースなデータベースの場合
定理２
 
  
     






11,Przeddeanonyumi1,1
;1,Pr
,1
,,
r
rrSimD
rrrrSim
sparseD
aux
すなわちは
なら
すなわちがデータベース
は定理１と同じ前提。
Dがスパースで非常に類似したデータ
ペアｒ、ｒ‘が存在するなら、
高い確率(1-ε）で匿名化が破られる
スパースなほど匿名化が破られやすいと
いう直感的に正しい結果が得られている。
なぜなら、、1個のデータの値が知られた
とき、他の類似データで隠せないから。

k-匿名化とのアナロジー
 
 
  
k
rrSim
k
D
k
k
k
N
m
k
rr
k
rrSim
sparse
kk
D
aux
k
1
1,Preddeanonymiz
1
,1
/1
1
1log
1
log
1
1;
1
,Pr
1
1,
1
,,
1
11
r






























すなわちは
ード数の期待値は正しく識別できたレコ
コード数はり、誤って識別するレ定理１と同じ議論によ
ならでさらに
すなわちがデータベース
してみるとは定理１と同じ前提と　　で定理




k-匿名化として理解できる

サンプリングして作ったデータベースの場合
• サンプリングで作ったデータベースの場合も
定理１と同じようなことがいえ、けっこう脆弱。
 
　　
ができる以上の確率で知ること　　　　　　
中に存在しないことをに一致するレコードが攻撃者は
る以上の確率で発見でき　　　　　　
中からに一致するレコードを攻撃者は
合：の値を知ろうとした場つまり、攻撃者が
は
とするとき、ったデータベースをからサンプリングで作
。は定理１と同じとする
定理









1
ˆthenˆIf
1
ˆthenˆIf
eddeanonymiz1,1ˆ
ˆ
,,
4
DrDr
DrDr
r
D
DD
aux

Merener2012：Theoretical Results on
De-Anonymization via Linkage Attacks
• 基本的にはNarayanan2008の記法、定理を踏襲
します。
• まず、定理１が成立しない場合：
• レコード数＝105、属性数＝200、
ε=0.25、δ=0.125
• 類似度 Sim は max(1-|a-b|,0)
• データベースD,D’は次のページに記載します

 
 
 
 
   
 
   






























































11,'Pr
1,1
supp1,
1log
log
)(
1
125.0
0.75175.0,,125.0
25.0225.02
25.0225.02
75.175.1
75.175.1
75.075.0
75.075.0
22
5.025.02
22
5.15.1
11
5.05.0
rrSim
zeddeanonymaiD
rirauxSim
r
N
mauxrAux
rrSimDrDrNi
NN
NN
D
NN
NN
D
ii
つまり、
　は　
を満たす属性値　かつ
、からランダムに選ばれランダムに
個の　　　　　　　
再掲　定理
なので＝
　　　















  
 
 
 
     
   
   
  
  
は成立しない。矛盾。よって、定理１
ら一方、定理１の結果か
でしたがって、
ードの場合も同じ。　　　これは他のレコ
率で推測される。個で、攻撃者に同じ確の可能性のある候補は次
すると、であると知っていたと攻撃者が
より　定理
なので＝に対して、前ページの










75.0625.0,Pr,97
5.05.0,Pr2001
2,...,2,5.1,...,5.1
2
75.1,...,75.12,...,2
75.025.01625.0,Pr125.025.01,Pr
6.96
125.01log
25.010log
1
175.0,,1
25.0,
5
rrSimm
rrSimm
rr
rrSimrrSim
m
rrSimDrDrNi
DADD


以下では、この問題点を訂正した方法を示す。

Narayanan2008論文の改善
• 以下では、Narayanan2008の定理1の問題点の改善策を示し
ます。
– 基本的定義から見直します。
     
 
  
   
   
   
   
 
 
   
   
 3.2
suppsupp
suppsupp
,
2.2
suppsupp
,
,
supp1.2
suppsupp
,:
,
,thenorthatsuch,if
similar-h
similar-h
yx
yx
yxSim
yx
yxSim
yxSim
nullrr
yx
yxSimi
yxSim
hddSimnullDdnullDdji
DD,
i ii
ii
ijijijij











でない部分の要素では注
類似度
　　
という。条件を満たすときは同じ大きさで以下のデータベース
定義：



 
    
supp
,,|,ˆ:Output
supp'supp,thatsuch:Input
ˆ
　　　　が最小であるもの　　　の要素のうち
は集合
と書く　　　　　＊ここで
されたレコードでは　　
匿名化アルゴリズム　



ii yrSimsiDyDrA
ms
srrsDrr
A
 
      
    
 
      
    
 
 
 
   pDrDrSim
mDr
mp
mpAD
pN
mSim
mpAD
pN
mSim
SimDD























,Pr
suppmax
zeddeanonyumi,,
zeddeanonyumi,,outputˆthen
1
21log
1log
2.2if2
zeddeanonyumi,,outputˆthen
21log
1log
1.2if1
1similar21,
008Narayanan24
1
り立つことである。であるとき、下式が成
とは、ここで
はのに対するアルゴリズム
　ただしで定義され、かつが
はのに対するアルゴリズム
で定義され、かつが
立つ。このとき、以下が成り
とする。が三角不等式を満たすで、が
の定理１の改訂版です　　定理

  
    
 
   
   
     
 
   
  
ができる。」個の属性値を知ることコードの攻撃者はさらにそのレ
るなら、個の属性値を知っていランダムに選んだ
んだレコードの全体と、ランダムに選で「攻撃者が確率
の場合属性数
定理４の具体例
の下界が定理１では
ことが三角不等式を満たす定理４では
が
４の差異はすると、定理１，定理
で同じ内容は
このとき、
となる
るを使った場合に代入すを定理４のにしているので、これを定理１の
の対応になるは定理１の記法と以下定理４の
27
29
99.0
35.0,160,99.01,10
11log
log
3
12
simliar2/1simliar1,1
eddeanonymiz,1,1eddeanonymiz,,
121log
log
21log
1log
)2.2()2.2(
1,1:,
6
D
pN
N
mm
Sim
DD
mmpD
N
m
pN
m
Sim
pp





















定理４とNarayanan2008の定理１の関係

 
 
   
 
    
  eddeanonymiz,21ˆthen
21log
log
)2.2(if
similar21,,
8
Pr
eddeanonymiz,perfectlysupp







mperfectlyDA
N
mSim
Sim
DDsparseD
prrDr
ArD
mpDmD




にに対しては
式であり、が
。とき、以下が成り立つが三角不等式を満たす
であり、がで、が
定理
　
を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が
とは、に対してであるとき、が
定義

 
 
 
 
する。で完全に匿名化が崩壊すなわち確率
が知れば、個以上の属性を攻撃者
のうち、つまり、全属性
であるとで、　すなわち　
データベースの場合、のの場合、定理
　　　とするは　属性毎の
た例データベースに適用しを定理
0.84
edeanonymiz)84.0,1(17
770,1703.17
5.025.1log
08.0000,480log
08.0,25.084.02108.0
000,4808
0
if1
,
Netflix8






 

m
sparse
NetflixN
otherwise
ba
baSimSim


Ｓｐａｒｓityに関する定理の改善
      
 
  prrDr
ArD
mpDmD
qDDSimKjNjqSimD
jDDNK
jk
j




Pr
eddeanonymiz,perfectlysupp
,:,1Prsparse,
],1[:Sparsity
　
を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が
とは、に対してであるとき、が定義（再掲）　
かつであるとは、に関してが
行とする。の第をんだ値とする。区間からランダムに選を定義

 
 
  である。に対してとは
が成立するならこのとき、
とする。はさらに、
であるとする。に関してとはアルゴリズム
があるとき、に関する）仮定条件に関するあるとする。
定理
eddeanonymizperfectly'
sparse,
eddeanonymiz,,'
',,(',
7




qpDAD
H
qD
mpDSimA
HDDmDDqp



ロングテールの情報が知られた場合の危険性
 
   
 
    
 
  
い。の図を参照してくださ直感的には次のページ
。データベースとします
なる個は含むレコードからな属性を少なくとも希少番目より
ではない属性がに入っているのすなわち、
。データベースとします
るであるレコードからなをそこで、
この定義によれば、
　　ただし、　　　　
とはがスの大きさのデータベー定義：
します。の降順に並んでいるとの大きさ、すなわち属性は
します。つまり個人）の集合とでないレコード番号がは属性
1)(
null)supp(
supp
supp
1,0supp
tail,
suppsupp
(supp
rareM
rr
riandMiiD
NiMi
NM
DMN
ii
nullii





 







レコード数
②τM番目
この順位にはκN個
のレコードが含まれ
る
M
属性
（順位）
①この曲線の下の部分の
面積が全レコード数Nに対
応
④この部分に入っている属性で
suppされているレコードはrareな
データでsuppされているので、
攻撃者に識別されやすく、匿名
化が崩れやすい
③τMより右側のテール部
分の属性にも少なくとも1
個はsuppされているレコー
ドの集合がD>τ

ロングテールの情報が知られた場合の危険性続き）
  
    
   
  
    
  　は
性数とすると、が攻撃者に知られた属式の定義の場合、　なら、
は三角不等式を満たすで、がで、が
定理
）原論文を参照されたいになります。（証明は具体的には以下の定理
つまり
部分のデータに対しての
eddeanonymiz,,ˆ
21log
1log
)1.2(
1similar21,tail,
9
eddeanonymiz,,,Pr
1,Pr,tail
1









mpAD
pN
m
mSim
SimDDD
mpprrSim
prrSimDrMi








定理４と比べると、分子がNからκNと小さく
なっているので、匿名化が崩壊してしまいや
すい、ということだ！
されやすい
知られてしまうと
攻撃者に評価していない評点が
しか部分のほうの少ない人
eddeanonymiz
tail

   
     の大きさが最小のもののうちの要素
のがという属性で値を持つに対してただし、
アルゴリズム
suppsupp:,|ˆ:Output
supp,|:Input
ˆ
yysDyDsrB
rrsDrDsr
B


          
 
 
    
  　にに対しては
。のとき以下が成り立つは
、、が
定理
eddeanonymiz,21ˆperfectly
21log
log
,
suppsuppsuppsupptail,
10
2121





mBDD
N
m
sparseD
rrrrSimD





だ！する可能性があるわけの部分が匿名化が崩壊したがって、
となる。は全レコード中でによると、定理
されているので、だけで
属性個の映画多く評価されたのレコードがもっとも
であるが映画数）の場合、総属性数（例：
%97
%97056.010
supp
)(1000%97
770,17
 


D
Netflix

他の匿名性評価法との比較
 このスライドで説明したのは、
– 大元のデータベースDをアルゴリズムAで変換した結果データベース
D’ (すなわちA(D))が攻撃者に渡った場合の匿名性の崩壊の度合い
の評価
一方、
 サンプリング、k-匿名化、差分プライバシーの評価のSlideShare:
– http://www.slideshare.net/hirsoshnakagawa3/samplimg-kanondp
– は、データベースD’ そのものは公開されず、攻撃者からの質問への
回答でその内容を知ろうとされる場合の危険性の評価。
 両者は異なる視点からの評価なので、同列に比較はできない。
 これらの異なる評価法をプライバシー保護の観点から俯瞰できる
評価手法を明らかにすることが今後の課題であると思われます。

匿名化の崩壊

More Related Content

Viewers also liked

Similar to 匿名化の崩壊

More from Hiroshi Nakagawa

匿名化の崩壊