居場所を隠すために差分プライバシーを使おう

居場所を隠すために差分プライバシーを使う
中川裕志
（東京大学）

ビッグデータにおける個人の居場所情報を巡る状況
•スマホなどの携帯端末のGPS機能によって、個人の居場所（ある時刻における滞在位置情報）を容易にアプリ提供業者が収集できます。
•個人の居場所情報は様々なビジネスで有用な情報です。
•多数の業者が使いたい情報であり、収集した業者から第3の業者への転売も起こりえます。

•EUでは個人の居場所は名前、住所などと同様の個人情報と見なされます。
•パーソナルデータ検討会の大綱（2014年6月19 日発表）では、行動履歴や購買履歴は保護すべき個人情報から外れています。
–しかし、このような情報を含む個人データのデータベース自体が転売されるとなると、悪用される危険がつきまといます。
•データベース自体を転売するのではなく、データベースへの質問をさせる使い方が使いやすいかもしれません。

•データベース自体を転売するのではなく、データベースへの質問をさせる使い方が使いやすいかもしれません。
•理由
–データベース自体が時々刻々と変化しています
–データベースを無理矢理改変しなくても、
•質問への答えに雑音を加算する差分プライバシー
•質問自体を許可するか否かの質問監査
–によって個人データの漏洩リスクを評価しやすく、「大綱」にいうところの「個人特定性の低減した」という部分の「低減」の度合いを評価しやすいようです

–データベースを無理矢理改変しなくても、
•質問への答えに雑音を加算する差分プライバシー
–によって個人データの漏洩リスクを評価しやすく、「大綱」にいうところの「個人特定性の低減した」という部分の「低減」の度合いを評価しやすいと思われます。
•そこで、このスライドではデータベースへの質問に対して
•個人の位置情報プライバシー(location privacy)を守る差分プライバシーの手法について説明します。

基本的アイデア
データベース：Ｄ1 データベース：Ｄ2
質問 f：
このエリアに何人
いますか？
回答: f(D1)=17人回答: f(D2)=18人
これでは、が1名余分に居ることが分かってしまうの
で、雑音（平均＝０）を加算して質問者に回答します
回答: f(D1)+X=17+2=18人回答: f(D2)+X’=18-2=16人
これらの答えでは、D1とD2の差が質問からは分かりません。
ですから、質問者にはの存在の有無もわかりません。

質問される領域分割と雑音
•上の図のように元の領域aをb、cに分割し、bをd,eに分割し．．．．としていくと、下の木構造になります
• a
• b c
• d e j k
• f g h i l m n o
• a,b,… ,kの各複合領域に入っている領域数、f,g,…,oの最小領域に入っている人数の各々に雑音を加算します。
•最小領域や複合領域のいる人数を質問されたときには、加算された雑音の効果で、本当の人数が分かりませんプライバシー保護
•技術的には、
–どのように領域分割をするか
–設定されたプライバシー保護のレベルを達成するには、各複合領域にどのような大きさの雑音を加算するか
•が解決すべき問題になります
ｂ
ｃ
ｄ
e
f
g
n
m
l
j
k
h
a
o
i
ちなみに、ある軸で分割するとき、その軸方向の中央値（データ数を半々の分ける点）を使う場合を KD-treeと言います。

ここからは数式がでてきて難しくなります。数学が好きでない方はここで引き返すのもよいでしょう。

差分プライバシー
•D1とD2が質問では区別できない（実際はできにくい）ことを以下の式で表します。
•まず、質問結果푓퐷に雑音Xを加算した値を푀푓,퐷と書きます。
•任意のD1とD2のペアについて下の式が成り立つときε-差分プライバシー(以下では、휀−퐷푃 と書きます)が成り立つと定義します。
• 푃푟푀푓,퐷1 푃푟푀푓,퐷2≤푒휀
•雑音Xは期待値=0,パラメタ=σのラプラス分布
퐿푎푝푥;휎= 12휎 푒푥푝− 푥 휎 で、σは以下のようにして決めます。
–なお、このラプラス分布の分散は2휎 2
•Δ푓=푚푎푥퐷1,퐷2푓퐷1−푓퐷21 これをsensitivityと呼びます。
•휎= Δ푓 휀
•実際は、 Δ푓の計算はデータベースの各レコードについて、それが無かった場合を調べなければならず、計算量が大きいのです。

居場所のプライバシーを “領域分割＋差分プライバシー” で実現するとき重要になる定理
•領域分割の階層푖でラプラス分布の雑音加算し휀푖−퐷푃 が成立させると、全体で푛階層あるとき、
•全体での휀−퐷푃と各階層の휀푖−퐷푃の間に以下の関係が成り立つ。
•휀= 휀푖 푛푖 =1 --(1)
•つまり、全体として達成したい휀を各階層の휀푖に分割して総和が휀になるように設計すればよいわけです。
•휀が大きいほど加算すべき雑音が大きくなり、回答の精度が落ちることに気をつけましょう。
. . . .
. . .
i=1  휀1
i=n  휀푛
휀= 휀푖 푛 푖=1

휀−퐷푃 の合成定理
•前のページの式(1)は以下に示す휀−퐷푃 の合成定理の繰り返しによって得られます。 ℕは正の整数全体を表します。
•定理：
•Χをレコード全体の集合とする。よってΧはデータベース中のレコード数
•푅1,푅2はレコードであり、푀1：ℕΧ→푅1、 푀2：ℕΧ→푅2は各々휀1−퐷푃、 휀2−퐷푃を満たす雑音加算メカニズムとする。
•푀1,2：ℕΧ→푅1×푅2 、つまり푀1、 푀2を直列に適用する写像とする。このとき、
•푴ퟏ,ퟐ풙=푴ퟏ풙,푴ퟐ풙は（휺ퟏ+휺ퟐ）−푫푷 である。
•証明
•푥,푦∈ℕ푋であり、푥−푦1≤1とし、푟1,푟2∈푅1,푅すると、
• 푃푟푀1,2푥=푟1,푟2 푃푟푀1,2푥=푟1,푟2= 푃푟푀1푥=푟1 푃푟푀1푦=푟1 푃푟푀2푥=푟2 푃푟푀2푦=푟2≤푒휀1 푒휀2= 푒휀1+휀2
•対称性により푃푟푀1,2푥=푟1,푟2 푃푟푀1,2푥=푟1,푟2≥푒−휀1+휀2 □

•補遺：
•より一般に、下の式を満たす휀,훿−퐷푃となると定理の証明はかなり難しいです。
•휀,훿−퐷푃： 푃푟푀푓,퐷1≤푒휀푃푟푀푓,퐷2+훿
–“The Algorithmic Foundations of Differential Privacy” Foundations and Trends R in Theoretical Computer Science, Vol. 9, Nos. 3–4 (2013) 211– 407, Dwork and A. Roth, DOI: 10.1561/0400000042 の pp.477-478 に証明が書かれています。

휀,훿−퐷푃 の合成定理
•푀1퐷 ∈퐶1は휀1,훿1 −퐷푃を満たす雑音加算メカニズム
•푀1퐷 の結果푠1∈퐶1を別の휀2훿2−퐷푃である雑音加算メカニズム푀2の入力に使い、 푀2푠1∈퐶2
•このとき、任意の1レコードだけ異なる隣接データベース퐷,퐷′ に対して
•푃푟푀1퐷 ∈퐶1⋀ 푀2푠1∈퐶2≤ 푒휀1+휀2 푃푟푀1퐷′ ∈퐶1⋀ 푀2푠′1∈퐶2+훿1+훿2
–훿1=훿2=0のときには휀−퐷푃の合成定理となる。

Differential Privacy for Location Pattern Mining
• 以下ではまず Ho and Ruan の上記タイトルの論文を紹介し
ます。定義の説明から開始します。
 
 
 
 
　　　　　予め決まった値のより多い滞留点を含む領域
重要領域：移動履歴の集合において、
　　　　　　　　円の中心　　下の図の大きな円の中心点に対応
　　　　　　　　が半径の円の中にとどまっていたときの、
滞留点とは、以上の長さの期間にわたって
移動履歴：
　　　　　ただし、＝経度＝緯度＝滞在時刻
滞在地点：とする。
(stay point)
, ,
,
(stay point) : T
, , ,
, , ,
, ,
1
1 2
1
r
TJ traj traj
x y
traj
traj p p p
x y t t t
p x y t
k ks
ki
ki
ki
i i i i i
i i i i










２δ
( , , ) i i i x y t
x y t t t T i k i k i k i k i        ( , , )ただし、
r’以上とい
う多数人が
滞留してい
る領域

居場所が差分プライバシーで保護されていないと
•太郎の居場所（緯度、経度）が差分プライバシーの雑音加算されずに、正確に知られてしまうと、
•太郎がopt-outする以前と以後の太郎を含む数名の居た領域がAからA’に変化してしまい
•結果として、太郎がA-A’に居たことが漏洩してしい、かえって危険なことになります。
Ａ
Ａ‘
太郎がopt-out
太郎が居た領域

QuadTree(領域4分割木)に基づく差分プライバシーのアルゴリズム
•入力：滞留点の集合S, 平面領域R,閾値T
•出力：分割された領域の集合P, Spの部分集合の集合
•初期化： P={},Sp={}
•BuildDPQuadTree(S,R,T)
1.S’=|S|+Lap(σqt)
2.if S’>T then
3. if S’≤3T then
4. P=P∪{R};Sp=Sp ∪{S};
5. return
6. else
7. Split:Rを4個の領域に分割してBuildDPQuadTreeを
再帰呼び出し
8. end if
9.else P=P;Sp=Sp;
10. return
11.end if

アルゴリズムの補遺と説明
•入力Pはこれからアルゴリズムを適用する対象領域です。
•QuadTree: 右図のような階層的に４分割されていく木。
•左上大きなをRとすると、その4分割領域は Rnw,Rne,Rsw,Rseとなる。
•その内部の滞留点集合をSnw,Sne,Ssw,Sseとする
Rnw
Rsw
Rne
Rse
これらの4個の領域に対してline 7. では BuildDPQuadTree (Rnw,Snw,T)； BuildDPQuadTree (Rne,Sne,T); BuildDPQuadTree (Rsw,Ssw,T); BuildDPQuadTree (Rse,Sse,T) ; を再帰的に呼んでいます。
line 1, line 2によれば、領域中のデータ点数＋ Lap(σqt) 雑音がT個以下の場合は分割せず、そのまま結果領域とする。
ｌine 4, line 5の終了条件によれば、最も細分された4分割領域に入っているデータ点数＋Lap雑音=|S|+Lap(σqt)は T＜ |S|+Lap(σqt)＜3T となる。

•T＜ |S|+Lap(σqt)＜3T という条件から、4分割領域中のデータ数の sensitibity
Δ푓=푚푎푥퐷1,퐷2푓퐷1−푓퐷21
に対応するΔ푓푞푡=3T
•Δ푓푞푡は分割の任意のレベルにおける全分割領域における滞留点数の固定された上界です。
–Δ푓푞푡 が固定されているので、計算が楽になっています。
•よってラプラス分布Lap휎푞푡のパラメタ휎푞푡= Δ푓푞푡 휀푞푡 = 3 휀푞푡 ただし、휀푞푡はこの分割レベルに割り振当てられた差分プライバシーの量：휀푞푡-DP

差分プライバシーを満たす重要領域の抽出アルゴリズム
•入力：処理の対象領域Pにおける滞留点の集合Sp={S1,…,Sk},閾値r’
•出力：重要地点（すなわち領域の重心）I, I中の滞留点の数
1.初期化： I={};Cts’=0;Cg=(0,0);
2.for i=1 to k do
3. CL=DBSCAN(Si): 実際はCL={R1,…,Rl}で、 Ri はDBSCANで作ら
4. れたクラスタ。クラスタRi内の点は{Lat(i),Lon(i)}つまり緯度と経度の組
5. for j=1 to |CL| do
6. Cts’=|Rj|+Lap(휎푗cts): クラスタRj 内の滞留点の数＋Lap雑音
7. if Cts’ > r’ then
8. Cgj= 퐿푎푡푘,퐿표푛푘 |R푗| 푘=1R푗 : r’より多数の地点を含むクラスタの重心計算
9. Cg’=Cgj+Lap(휎푗cg) : Lap雑音加算(コメント：Cgjは経度、緯度の2要素があるので、各々に別の雑音を加算すべきかも。後で詳しく述べる）
10. I=I∪{Cg’}; C=C ∪{Cts’}
11. end if
12. Cts’=0, Cg’=(0,0); r’以下の地点しか含まないクラスタのカウントは0にする
13. end for
14.end for

•DBSCANは文献[Ester et al. KDD 1996]で提案された点密度の高さに基づくクラスタ抽出（＝近い点を集めたもの）を行うモジュールです。抽出されたクラスタはRiです。
–クラスタRi内の点は{Lat(i),Lon(i)}つまり経度と緯度と組です
•line 6: クラスタRj内の滞留点の数を|Rj|とします。これに分散휎푗cts のラプラス分布から生成された雑音Lap(휎푗cts)を加算し、Cts’とします。
• line 7,8,9: Cts’が予め与えられた閾値r’より大きい、つまり多数の滞留点を含むクラスタなら、その重心Cgj’を計算します。
•line 9: Cgj’の経度成分と緯度成分の各々に分散휎푗cgのラプラス分布から生成された雑音Lap(휎푗cg)を加算し、Cg’とします。
•このようにして計算されたCg’の集合I、およびIの要素であるクラスタ内の滞留点数（雑音が加算されています）を結果とします。

クラスタRjに加算するラプラス雑音の分散
•クラスタRjのsensitivityは下の式のように与えられます。
•Δ푓푗 푐푡푠=푚푎푥푖∈퐷#푠∈푅푗|푠は個人푖の滞留点
–Dはデータベース内全個人の集合、 Rjはクラスタj内の滞留点の集合
–つまり、Δ푓푗 푐푡푠 はline 4のDBSCANの結果として出力したクラスタに対する滞留点の個数の最大値
•よって、雑音を生成するラプラス分布Lap(휎푗cts) の分散휎푗cts＝Δ푓푗 푐푡푠 휀푐푡푠

重心Cgに加算するラプラス雑音の分散
•クラスタCgの重心のsensitivityは下の式のように与えられます。
•Δ푓푗 푐푔=クラスタ푗内の2点間距離の最大値/2
–私のコメント：論文ではこのように書いてあるが、重心は経度、緯度の 2成分からなるので、正確には以下のようなことかもしれない。
–Δ푓푗 푐푔 （経度）=クラスタ푗内の2点間経度方向距離の最大値/2
–Δ푓푗 푐푔 （緯度）=クラスタ푗内の2点間緯度方向距離の最大値/2
•よって、経度、緯度の各々に加算する雑音を生成するラプラス分布は
–Lap(휎푗cg(経度))の分散휎푗cg(経度)＝ Δ푓푗 푐푔(経度) 휀푐푡푠−푙푎푡
–Lap(휎푗cg(緯度))の分散휎푗cg(緯度)＝ Δ푓푗 푐푔(緯度) 휀푐푡푠−푙표푛

全体に加算するラプラス雑音の分散
•휀-DPの合成定理 휀= 휀푖 푛푖 =1 より
•最終結果に加算する雑音を生成するラプラス分布の分散を生成する휀たちには以下の関係が成り立つ
–ℎはQuadTreeにおける分割の回数（＝4分木の高さ)とすると
•閾値r’以下の個数の滞留点しか含まないクラスタでは
–휀=휀푐푡푠+ 휀푞푡 ℎ푖 =1
•閾値r’より多い滞留点を含むクラスタでは
–휀=휀푐푔経度+휀푐푔緯度+휀푐푡푠+ 휀푞푡 ℎ푖 =1

評価
•Ho and Ruan論文では
•100x50の領域に5000データ点がランダムに存在する場合、閾値r’=500
のシミュレーションをしたとき、
•휀푞푡=5で以下のような結果を得ている
–個々の領域中の滞留点個数に関して、差分プライバシー（雑音加算）を適用した場合としない場合の差の絶対値の平均:Mt=300
–個々の領域の重心に関して差分プライバシー（雑音加算）を適用した場合としない場合の差の絶対値の平均:Mg=7
–QuadTreeの各領域で加算する雑音は大きく精度を劣化させる
–差分プライバシーによって正しい重要点が捉えられた割合（True Positive Rate:TPR)=0.9
–差分プライバシーによって見逃した需要点の割合（False Negative Rate:FNR)=0.2
•휀푐푡푠=1で以下のような結果を得ている
–Mt=340, TPR=0.88, FNR=0.12
•휀푐푔=1で Mg=5
•出力への雑音加算による精度劣化小さい
•一般的傾向としては휀を大きくしてプライバシー保護性能を下げると精度が改善される。

Differentially Private Spatial Decompositions
•以下では、Cormode, et al.の上記タイトルの論文 (ICDE2012)についてサマリーをします。
•空間分割をQuadTree、KD-tree、Hilbert-R-treeなどで行った場合に、treeの各ノードの配下の部分木含まれるデータ数に雑音加算する差分プライバシーの性能について調べている論文です。
–QuadTreeはデータの分布と独立に分割法が決まります。
–KD-treeはデータの分布に依存して分割法がきまります。（領域中の分割する方向の軸で中央値を分割面にしますから）
•QuadTreeの分割例を次のスライドに示します。

QuadTreeの分割例
７
３
２
０
２
１
０
１
１
０
０
０
０
０
０
０
２
０
０
０
２
•左の領域分割QuadTreeを上に示します。
•○の中の数はその○の支配下にある領域中のデータ数の総和です。
•実際は、この○の中の数そのものではなく、雑音を加算したものを出力します。例えば、2行目の4つは(3,2,0,2)ではなく雑音(-1,2,-1,-1)を加算して(2,5,-1,1)にします。

準備：評価法
•質問qに対して差分プライバシーのメカニズムを用いて得た答えQ は、期待値＝０の雑音が加算されています。
•そこで、qの回答Qの誤差尺度퐸푟푟푄=푉푎푟푄: Q の分散とします。
•階層毎(i=1,..,s)に雑音が加算されQ 1,…, Q sが得られた場合は、 퐸푟푟푄= 퐸푟푟푄푖푠 푠푖 =1 となります。
•treeの深さ方向のインデクスはiとし、treeの高さをhとします。
•回答Q が含む深さiのノード数をniとします。すると、 Q に関与するノード数푛푄= 푛푖 푠푖 =1 となります。

푛푄の評価
•回答Qが含む深さiのノード数をniとします。すると、Qに関与するノード数푛푄= 푛푖 푠푖 =1 となります。
•QuadTreeの場合
– 푛푖≤8∙2ℎ−푖 ---(q1)
– 푛푄≤82ℎ+1−1=푂4ℎ/2
•KD-treeの場合
–푛푖≤8∙2ℎ−푖+1/2,
–푛푄≤82ℎ+1/2+1−1=푂2ℎ/2

휀の配分
•雑音がラプラス分布Lapの場合について検討します。
–パラメタ휀푖のラプラス分布の分散は푉푎푟퐿푎푝휀푖= 2 휀푖 2  퐸푟푟푄= 2푛푖휀푖 2 ℎ푖=0 (1)
–この定義から分かるようにtreeの高さが大きくなると、各レベルでの 휀푖 が小さくなって、h個加算されるため、誤差퐸푟푟푄が大きくなります。
–つまり、レベル毎に小さな휀푖で保護性能を高めるため、精度が劣化することになってしまうわけです。

휀の配分：QuadTreeにおける均等分配
–以下では簡単のためにQuadtreeの場合の結果を示す。
•均等分配
–データ全体に対する휀をQuadTreeの各レベルに均等分配すると、휀푖=휀ℎ+1 となり、そのときの誤差は 퐸푟푟푄= 2ℎ+12 휀2 푛푖 ℎ푖 =0≤ 16 휀2ℎ+122ℎ+1−1
–証明は原論文を読んで欲しいのですが、結果は 푂ℎ2∙2ℎなのでうれしくないものです。

휀の配分：QuadTreeにおける傾斜配分
•傾斜配分
–そこで휀푖を푖によって変化させて 퐸푟푟푄を最小化する方法を考えてみます。
–QuadTreeの푛푖≤8∙2ℎ−푖 ---(q1)を퐸푟푟푄に代入して最小化する問題として定式化します。
–ただし、휀を各レベルに分配しているという制約条件がつきます。
•最適化問題 Minimize 2ℎ−푖휀푖 2 ℎ푖 =0
Subject to 휀푖 ℎ푖 =0=ε
–この最適化問題における퐸푟푟푄の上界は以下で与えられます。
–퐸푟푟푄≤ 162ℎ+1/3−13 휀22−133≤ 2ℎ+7 휀2
–ただし、上界は 휀푖=2ℎ−푖/3휀 2−132ℎ+1/3−1 のとき
–푖が大きくなるにつれて2−푖に比例して小さくなるという휀푖の傾斜配分が良いのです。末端の小さな領域ほど、 휀푖が小さくなりプライバシー保護が厳重になるというのは、直感にもあっています。

最適化問題の上界の証明
•証明は以下のようにCauchy-Schwarzの不等式を使うことが分かれば簡単です。
• 휀푖 ℎ푖 =0 2ℎ−1휀푖 2 ℎ푖 =0≥ 휀푖2ℎ−푖 휀푖 2 ℎ푖 =02
•等式が成立するのは定数Cを使うと휀푖=퐶2ℎ−1휀푖 2 つまり휀푖=퐶32ℎ−푖3 のときであり、
• 휀푖 ℎ푖 =0=ε を使うと、퐶3= 휀23−12ℎ+13 −1 となり、 퐸푟푟푄 の上界 162ℎ+1/3−13 휀22−133が求まります。

論文ではそのほかに以下のような提案も書かれています
•分割された領域におけるデータ数だけで휀−差分プライバシーを実現するのではなく、最終的な回答にも雑音を乗せると誤差はより小さくできる。
–このことは、QuadTreeに限れば、直前に紹介したHo and Ruan の論文ではすでに取り入れられています。
•KD-treeの場合は領域分割境界を領域内の中央値(median)にしますが、中央値に雑音加算した場合の分析がしてあります。
–Medianに加算する雑音と領域内のデータ個数に加算する雑音との関係についても述べています。
•やや詳細に過ぎるので、（ここまでもだいぶ詳細過ぎかも）、興味のある方は原論文にあたってください。

まとめ
•多数の個人の滞在場所情報を含むデータベースの利用において、
•そのデータベースの統計量を質問するような場合に、個人情報を保護する方法として휀−差分プライバシーを使う方法を紹介しました。
–QuadtreeやKD-treeという領域分割法において分割境界線に雑音を加算する方法
–領域内部のデータ数に雑音を加算する方法
–その両者を組み合わせて휀−퐷푃 を実現する方法の性能評価の話が主な話題でした。
•居場所に係わるプライバシー情報の重要度は高く、このようなプライバシー保護技術はかなり有用なものになりそうです。

参考文献
•Shen-Shyang Ho, Shuhua Ruan. Differential Privacy for Location Pattern Mining. ACM SPRINGL ’11 November 1, 2011. Chicago, IL, USA ISBN 978-1-4503-1032-1/11/11
•Martin Ester, Hans-Peter Kriegel, JZrg Sander and Xiaowei Xu, A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, KDD, pp. 226-231, 1996.
•Graham Cormode, Magda Procopiuc, Divesh Srivastava, Entong Shen, Ting Yu. Differentially Private Spatial Decompositions. ICDE2012, 2012

居場所を隠すために差分プライバシーを使おう

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Hiroshi Nakagawa

More from Hiroshi Nakagawa (20)

居場所を隠すために差分プライバシーを使おう