SlideShare a Scribd company logo
1 of 35
Download to read offline
居場所を隠すために 差分プライバシーを使う 
中川裕志 
(東京大学)
ビッグデータにおける 個人の居場所情報を巡る状況 
•スマホなどの携帯端末のGPS機能によって、 個人の居場所(ある時刻における滞在位置 情報)を容易にアプリ提供業者が収集できま す。 
•個人の居場所情報は様々なビジネスで有用 な情報です。 
•多数の業者が使いたい情報であり、収集した 業者から第3の業者への転売も起こりえます。
•EUでは個人の居場所は名前、住所などと同様 の個人情報と見なされます。 
•パーソナルデータ検討会の大綱(2014年6月19 日発表)では、行動履歴や購買履歴は保護すべ き個人情報から外れています。 
–しかし、このような情報を含む個人データのデータ ベース自体が転売されるとなると、悪用される危険が つきまといます。 
•データベース自体を転売するのではなく、データ ベースへの質問をさせる使い方が使いやすいか もしれません。
•データベース自体を転売するのではなく、データ ベースへの質問をさせる使い方が使いやすいか もしれません。 
•理由 
–データベース自体が時々刻々と変化しています 
–データベースを無理矢理改変しなくても、 
•質問への答えに雑音を加算する差分プライバシー 
•質問自体を許可するか否かの質問監査 
–によって個人データの漏洩リスクを評価しやすく、「大 綱」にいうところの「個人特定性の低減した」という部 分の「低減」の度合いを評価しやすいようです
–データベースを無理矢理改変しなくても、 
•質問への答えに雑音を加算する差分プライバシー 
–によって個人データの漏洩リスクを評価しやすく、 「大綱」にいうところの「個人特定性の低減した」と いう部分の「低減」の度合いを評価しやすいと思 われます。 
•そこで、このスライドではデータベースへの質 問に対して 
•個人の位置情報プライバシー(location privacy)を守る差分プライバシーの手法につ いて説明します。
基本的アイデア 
データベース:D1 データベース:D2 
質問 f: 
このエリアに何人 
いますか? 
回答: f(D1)=17人 回答: f(D2)=18人 
これでは、 が1名余分に居ることが分かってしまうの 
で、雑音(平均=0)を加算して質問者に回答します 
回答: f(D1)+X=17+2=18人 回答: f(D2)+X’=18-2=16人 
これらの答えでは、D1とD2の差が質問からは分かりません。 
ですから、質問者には の存在の有無もわかりません。
質問される領域分割と雑音 
•上の図のように元の領域aをb、cに分割し、bをd,eに分割し....としていくと、下の木構造になります 
• a 
• b c 
• d e j k 
• f g h i l m n o 
• a,b,… ,kの各複合領域に入っている領域数、f,g,…,oの最小領域に入っている人数の各々に雑音を 加算します。 
•最小領域や複合領域のいる人数を質問されたときには、加算された雑音の効果で、本当の人数が分 かりませんプライバシー保護 
•技術的には、 
–どのように領域分割をするか 
–設定されたプライバシー保護のレベルを達成するには、各複合領域にどのような大きさの雑音を加算するか 
•が解決すべき問題になります 
b 
c 
d 
e 
f 
g 
n 
m 
l 
j 
k 
h 
a 
o 
i 
ちなみに、ある軸で分割するとき、 その軸方向の中央値(データ数 を半々の分ける点)を使う場合を KD-treeと言います。
ここからは数式がでてきて難しくなります。 数学が好きでない方は ここで引き返すのもよいでしょう。
差分プライバシー 
•D1とD2が質問では区別できない(実際はできにくい)ことを以下の式 で表します。 
•まず、質問結果푓퐷に雑音Xを加算した値を푀푓,퐷と書きます。 
•任意のD1とD2のペアについて下の式が成り立つときε-差分プライバ シー(以下では、휀−퐷푃 と書きます)が成り立つと定義します。 
• 푃푟푀푓,퐷1 푃푟푀푓,퐷2≤푒휀 
•雑音Xは期待値=0,パラメタ=σのラプラス分布 
퐿푎푝푥;휎= 12휎 푒푥푝− 푥 휎 で、σは以下のようにして決めます。 
–なお、このラプラス分布の分散は2휎 2 
•Δ푓=푚푎푥퐷1,퐷2푓퐷1−푓퐷21 これをsensitivityと呼びます。 
•휎= Δ푓 휀 
•実際は、 Δ푓の計算はデータベースの各レコードについて、それが無 かった場合を調べなければならず、計算量が大きいのです。
居場所のプライバシーを “領域分割+差分プライバシー” で実現するとき重要になる定理 
•領域分割の階層푖でラプラス分布の雑音加算し휀푖−퐷푃 が成立させると、 全体で푛階層あるとき、 
•全体での휀−퐷푃と各階層の휀푖−퐷푃の間に以下の関係が成り立つ。 
•휀= 휀푖 푛푖 =1 --(1) 
•つまり、全体として達成したい휀を各階層の휀푖に分割して総和が휀になるよう に設計すればよいわけです。 
•휀が大きいほど加算すべき雑音が大きくなり、回答の精度が落ちることに 気をつけましょう。 
. . . . 
. . . 
i=1  휀1 
i=n  휀푛 
휀= 휀푖 푛 푖=1
휀−퐷푃 の合成定理 
•前のページの式(1)は以下に示す휀−퐷푃 の合成定理の繰り返しによっ て得られます。 ℕは正の整数全体を表します。 
•定理: 
•Χをレコード全体の集合とする。よってΧはデータベース中のレコード数 
•푅1,푅2はレコードであり、푀1:ℕΧ→푅1、 푀2:ℕΧ→푅2は各々휀1−퐷푃、 휀2−퐷푃を満たす雑音加算メカニズムとする。 
•푀1,2:ℕΧ→푅1×푅2 、つまり푀1、 푀2を直列に適用する写像とする。この とき、 
•푴ퟏ,ퟐ풙=푴ퟏ풙,푴ퟐ풙は(휺ퟏ+휺ퟐ)−푫푷 である。 
•証明 
•푥,푦∈ℕ푋であり、푥−푦1≤1とし、푟1,푟2∈푅1,푅すると、 
• 푃푟푀1,2푥=푟1,푟2 푃푟푀1,2푥=푟1,푟2= 푃푟푀1푥=푟1 푃푟푀1푦=푟1 푃푟푀2푥=푟2 푃푟푀2푦=푟2≤푒휀1 푒휀2= 푒휀1+휀2 
•対称性により푃푟푀1,2푥=푟1,푟2 푃푟푀1,2푥=푟1,푟2≥푒−휀1+휀2 □
•補遺: 
•より一般に、下の式を満たす휀,훿−퐷푃となると定 理の証明はかなり難しいです。 
•휀,훿−퐷푃: 푃푟푀푓,퐷1≤푒휀푃푟푀푓,퐷2+훿 
–“The Algorithmic Foundations of Differential Privacy” Foundations and Trends R in Theoretical Computer Science, Vol. 9, Nos. 3–4 (2013) 211– 407, Dwork and A. Roth, DOI: 10.1561/0400000042 の pp.477-478 に証明が書 かれています。
휀,훿−퐷푃 の合成定理 
•푀1퐷 ∈퐶1は휀1,훿1 −퐷푃を満たす雑音加算メカニズム 
•푀1퐷 の結果푠1∈퐶1を別の휀2훿2−퐷푃である雑音加算メ カニズム푀2の入力に使い、 푀2푠1∈퐶2 
•このとき、任意の1レコードだけ異なる隣接データベース퐷,퐷′ に対して 
•푃푟푀1퐷 ∈퐶1⋀ 푀2푠1∈퐶2≤ 푒휀1+휀2 푃푟푀1퐷′ ∈퐶1⋀ 푀2푠′1∈퐶2+훿1+훿2 
–훿1=훿2=0のときには휀−퐷푃の合成定理となる。
Differential Privacy for Location Pattern Mining 
• 以下ではまず Ho and Ruan の上記タイトルの論文を紹介し 
ます。定義の説明から開始します。 
  
  
  
  
     予め決まった値のより多い滞留点を含む領域 
重要領域:移動履歴の集合において、 
        円の中心  下の図の大きな円の中心点に対応 
        が半径の円の中にとどまっていたときの、 
滞留点とは、以上の長さの期間にわたって 
移動履歴: 
     ただし、=経度=緯度=滞在時刻 
滞在地点: とする。 
(stay point) 
, , 
, 
(stay point) : T 
, , , 
, , , 
, , 
1 
1 2 
1 
r 
TJ traj traj 
x y 
traj 
traj p p p 
x y t t t 
p x y t 
k ks 
ki 
ki 
ki 
i i i i i 
i i i i 
 
 
 
 
 
 
 
 
 
 
2δ 
( , , ) i i i x y t 
x y t t t T i k i k i k i k i        ( , , )ただし、 
r’以上とい 
う多数人が 
滞留してい 
る領域
居場所が差分プライバシーで保護さ れていないと 
•太郎の居場所(緯度、経度)が差分プライバシー の雑音加算されずに、正確に知られてしまうと、 
•太郎がopt-outする以前と以後の太郎を含む数 名の居た領域がAからA’に変化してしまい 
•結果として、太郎がA-A’に居たことが漏洩してし い、かえって危険なことになります。 
A 
A‘ 
太郎がopt-out 
太郎が居た領域
QuadTree(領域4分割木)に基づく 差分プライバシーのアルゴリズム 
•入力:滞留点の集合S, 平面領域R,閾値T 
•出力:分割された領域の集合P, Spの部分集合の集合 
•初期化: P={},Sp={} 
•BuildDPQuadTree(S,R,T) 
1.S’=|S|+Lap(σqt) 
2.if S’>T then 
3. if S’≤3T then 
4. P=P∪{R};Sp=Sp ∪{S}; 
5. return 
6. else 
7. Split:Rを4個の領域に分割してBuildDPQuadTreeを 
再帰呼び出し 
8. end if 
9.else P=P;Sp=Sp; 
10. return 
11.end if
アルゴリズムの補遺と説明 
•入力Pはこれからアルゴリズムを適用する対象 領域です。 
•QuadTree: 右図のような階層的に4分割されて いく木。 
•左上大きな をRとすると、その4分割領域は Rnw,Rne,Rsw,Rseとなる。 
•その内部の滞留点集合をSnw,Sne,Ssw,Sseとす る 
Rnw 
Rsw 
Rne 
Rse 
これらの4個の領域に対してline 7. では BuildDPQuadTree (Rnw,Snw,T); BuildDPQuadTree (Rne,Sne,T); BuildDPQuadTree (Rsw,Ssw,T); BuildDPQuadTree (Rse,Sse,T) ; を再帰的に呼んでいます。 
line 1, line 2によれば、領域中のデータ点数+ Lap(σqt) 雑音がT個以下の場合は分割 せず、そのまま結果領域とする。 
line 4, line 5の終了条件によれば、最も細分された4分割領域に入っているデータ点数 +Lap雑音=|S|+Lap(σqt)は T< |S|+Lap(σqt)<3T となる。
アルゴリズムの補遺と説明 
•T< |S|+Lap(σqt)<3T という条件から、4分割領域中のデータ数の sensitibity 
Δ푓=푚푎푥퐷1,퐷2푓퐷1−푓퐷21 
に対応するΔ푓푞푡=3T 
•Δ푓푞푡は分割の任意のレベルにおける全分割領域における滞留点数の 固定された上界です。 
–Δ푓푞푡 が固定されているので、計算が楽になっています。 
•よってラプラス分布Lap휎푞푡のパラメタ휎푞푡= Δ푓푞푡 휀푞푡 = 3 휀푞푡 ただし、휀푞푡はこ の分割レベルに割り振当てられた差分プライバシーの量:휀푞푡-DP
差分プライバシーを満たす 重要領域の抽出アルゴリズム 
•入力:処理の対象領域Pにおける滞留点の集合Sp={S1,…,Sk},閾値r’ 
•出力:重要地点(すなわち領域の重心)I, I中の滞留点の数 
1.初期化: I={};Cts’=0;Cg=(0,0); 
2.for i=1 to k do 
3. CL=DBSCAN(Si): 実際はCL={R1,…,Rl}で、 Ri はDBSCANで作ら 
4. れたクラスタ。クラスタRi内の点は{Lat(i),Lon(i)}つまり緯度と経度の組 
5. for j=1 to |CL| do 
6. Cts’=|Rj|+Lap(휎푗cts): クラスタRj 内の滞留点の数+Lap雑音 
7. if Cts’ > r’ then 
8. Cgj= 퐿푎푡푘,퐿표푛푘 |R푗| 푘=1R푗 : r’より多数の地点を含むクラスタの重心計算 
9. Cg’=Cgj+Lap(휎푗cg) : Lap雑音加算(コメント:Cgjは経度、緯度の2要素が あるので、各々に別の雑音を加算すべきかも。後で詳しく述べる) 
10. I=I∪{Cg’}; C=C ∪{Cts’} 
11. end if 
12. Cts’=0, Cg’=(0,0); r’以下の地点しか含まないクラスタのカウントは0にする 
13. end for 
14.end for
アルゴリズムの補遺と説明 
•DBSCANは文献[Ester et al. KDD 1996]で提案された点密度の高さ に基づくクラスタ抽出(=近い点を集めたもの)を行うモジュールで す。抽出されたクラスタはRiです。 
–クラスタRi内の点は{Lat(i),Lon(i)}つまり経度と緯度と組です 
•line 6: クラスタRj内の滞留点の数を|Rj|とします。これに分散휎푗cts のラプラス分布から生成された雑音Lap(휎푗cts)を加算し、Cts’としま す。 
• line 7,8,9: Cts’が予め与えられた閾値r’より大きい、つまり多数の 滞留点を含むクラスタなら、その重心Cgj’を計算します。 
•line 9: Cgj’の経度成分と緯度成分の各々に分散휎푗cgのラプラス分 布から生成された雑音Lap(휎푗cg)を加算し、Cg’とします。 
•このようにして計算されたCg’の集合I、およびIの要素であるクラス タ内の滞留点数(雑音が加算されています)を結果とします。
クラスタRjに加算するラプラス雑音の分散 
•クラスタRjのsensitivityは下の式のように与えら れます。 
•Δ푓푗 푐푡푠=푚푎푥푖∈퐷#푠∈푅푗|푠は個人푖の滞留点 
–Dはデータベース内全個人の集合、 Rjはクラスタj内 の滞留点の集合 
–つまり、Δ푓푗 푐푡푠 はline 4のDBSCANの結果として出力し たクラスタに対する滞留点の個数の最大値 
•よって、雑音を生成するラプラス分布Lap(휎푗cts) の分散휎푗cts=Δ푓푗 푐푡푠 휀푐푡푠
重心Cgに加算するラプラス雑音の分散 
•クラスタCgの重心のsensitivityは下の式のように与えられます。 
•Δ푓푗 푐푔=クラスタ푗内の2点間距離の最大値/2 
–私のコメント:論文ではこのように書いてあるが、重心は経度、緯度の 2成分からなるので、正確には以下のようなことかもしれない。 
–Δ푓푗 푐푔 (経度)=クラスタ푗内の2点間経度方向距離の最大値/2 
–Δ푓푗 푐푔 (緯度)=クラスタ푗内の2点間緯度方向距離の最大値/2 
•よって、経度、緯度の各々に加算する雑音を生成するラプラス分布 は 
–Lap(휎푗cg(経度))の分散휎푗cg(経度)= Δ푓푗 푐푔(経度) 휀푐푡푠−푙푎푡 
–Lap(휎푗cg(緯度))の分散휎푗cg(緯度)= Δ푓푗 푐푔(緯度) 휀푐푡푠−푙표푛
全体に加算するラプラス雑音の分散 
•휀-DPの合成定理 휀= 휀푖 푛푖 =1 より 
•最終結果に加算する雑音を生成するラプラス分 布の分散を生成する휀たちには以下の関係が成 り立つ 
–ℎはQuadTreeにおける分割の回数(=4分木の高さ)と すると 
•閾値r’以下の個数の滞留点しか含まないクラス タでは 
–휀=휀푐푡푠+ 휀푞푡 ℎ푖 =1 
•閾値r’より多い滞留点を含むクラスタでは 
–휀=휀푐푔経度+휀푐푔緯度+휀푐푡푠+ 휀푞푡 ℎ푖 =1
評価 
•Ho and Ruan論文では 
•100x50の領域に5000データ点がランダムに存在する場合、閾値r’=500 
のシミュレーションをしたとき、 
•휀푞푡=5で以下のような結果を得ている 
–個々の領域中の滞留点個数に関して、差分プライバシー(雑音加算)を適用した場合としない場 合の差の絶対値の平均:Mt=300 
–個々の領域の重心に関して差分プライバシー(雑音加算)を適用した場合としない場合の差の 絶対値の平均:Mg=7 
–QuadTreeの各領域で加算する雑音は大きく精度を劣化させる 
–差分プライバシーによって正しい重要点が捉えられた割合(True Positive Rate:TPR)=0.9 
–差分プライバシーによって見逃した需要点の割合(False Negative Rate:FNR)=0.2 
•휀푐푡푠=1で以下のような結果を得ている 
–Mt=340, TPR=0.88, FNR=0.12 
•휀푐푔=1で Mg=5 
•出力への雑音加算による精度劣化小さい 
•一般的傾向としては휀を大きくしてプライバシー保護性能を下げると精度が改善さ れる。
Differentially Private Spatial Decompositions 
•以下では、Cormode, et al.の上記タイトルの論文 (ICDE2012)についてサマリーをします。 
•空間分割をQuadTree、KD-tree、Hilbert-R-treeなどで行っ た場合に、treeの各ノードの配下の部分木含まれるデータ 数に雑音加算する差分プライバシーの性能について調べ ている論文です。 
–QuadTreeはデータの分布と独立に分割法が決まります。 
–KD-treeはデータの分布に依存して分割法がきまります。(領域 中の分割する方向の軸で中央値を分割面にしますから) 
•QuadTreeの分割例を次のスライドに示します。
QuadTreeの分割例 
7 
3 
2 
0 
2 
1 
0 
1 
1 
0 
0 
0 
0 
0 
0 
0 
2 
0 
0 
0 
2 
•左の領域分割QuadTreeを上に示します。 
•○の中の数はその○の支配下にある領 域中のデータ数の総和です。 
•実際は、この○の中の数そのものでは なく、雑音を加算したものを出力します。 例えば、2行目の4つは(3,2,0,2)ではなく 雑音(-1,2,-1,-1)を加算して(2,5,-1,1)にし ます。
準備:評価法 
•質問qに対して差分プライバシーのメカニズムを用いて 得た答えQ は、期待値=0の雑音が加算されています。 
•そこで、qの回答Qの誤差尺度퐸푟푟푄=푉푎푟푄: Q の 分散とします。 
•階層毎(i=1,..,s)に雑音が加算されQ 1,…, Q sが得られた 場合は、 퐸푟푟푄= 퐸푟푟푄푖푠 푠푖 =1 となります。 
•treeの深さ方向のインデクスはiとし、treeの高さをhとしま す。 
•回答Q が含む深さiのノード数をniとします。すると、 Q に 関与するノード数푛푄= 푛푖 푠푖 =1 となります。
푛푄の評価 
•回答Qが含む深さiのノード数をniとします。する と、Qに関与するノード数푛푄= 푛푖 푠푖 =1 となり ます。 
•QuadTreeの場合 
– 푛푖≤8∙2ℎ−푖 ---(q1) 
– 푛푄≤82ℎ+1−1=푂4ℎ/2 
•KD-treeの場合 
–푛푖≤8∙2ℎ−푖+1/2, 
–푛푄≤82ℎ+1/2+1−1=푂2ℎ/2
휀の配分 
•雑音がラプラス分布Lapの場合について検討しま す。 
–パラメタ휀푖のラプラス分布の分散は푉푎푟퐿푎푝휀푖= 2 휀푖 2  퐸푟푟푄= 2푛푖휀푖 2 ℎ푖=0 (1) 
–この定義から分かるようにtreeの高さが大きくなると、各 レベルでの 휀푖 が小さくなって、h個加算されるため、誤 差퐸푟푟푄が大きくなります。 
–つまり、レベル毎に小さな휀푖で保護性能を高めるため、 精度が劣化することになってしまうわけです。
휀の配分:QuadTreeにおける均等分配 
–以下では簡単のためにQuadtreeの場合の結果を示 す。 
•均等分配 
–データ全体に対する휀をQuadTreeの各レベルに均 等分配すると、휀푖=휀ℎ+1 となり、そのときの誤 差は 퐸푟푟푄= 2ℎ+12 휀2 푛푖 ℎ푖 =0≤ 16 휀2ℎ+122ℎ+1−1 
–証明は原論文を読んで欲しいのですが、結果は 푂ℎ2∙2ℎなのでうれしくないものです。
휀の配分:QuadTreeにおける傾斜配分 
•傾斜配分 
–そこで휀푖を푖によって変化させて 퐸푟푟푄を最小化する方法を考えてみま す。 
–QuadTreeの푛푖≤8∙2ℎ−푖 ---(q1)を퐸푟푟푄に代入して最小化する問題と して定式化します。 
–ただし、휀を各レベルに分配しているという制約条件がつきます。 
•最適化問題 Minimize 2ℎ−푖휀푖 2 ℎ푖 =0 
Subject to 휀푖 ℎ푖 =0=ε 
–この最適化問題における퐸푟푟푄の上界は以下で与えられます。 
–퐸푟푟푄≤ 162ℎ+1/3−13 휀22−133≤ 2ℎ+7 휀2 
–ただし、上界は 휀푖=2ℎ−푖/3휀 2−132ℎ+1/3−1 のとき 
–푖が大きくなるにつれて2−푖に比例して小さくなるという휀푖の傾斜配分が良い のです。末端の小さな領域ほど、 휀푖が小さくなりプライバシー保護が厳重 になるというのは、直感にもあっています。
最適化問題の上界の証明 
•証明は以下のようにCauchy-Schwarzの不等式を 使うことが分かれば簡単です。 
• 휀푖 ℎ푖 =0 2ℎ−1휀푖 2 ℎ푖 =0≥ 휀푖2ℎ−푖 휀푖 2 ℎ푖 =02 
•等式が成立するのは定数Cを使うと휀푖=퐶2ℎ−1휀푖 2 つま り휀푖=퐶32ℎ−푖3 のときであり、 
• 휀푖 ℎ푖 =0=ε を使うと、퐶3= 휀23−12ℎ+13 −1 となり、 퐸푟푟푄 の上界 162ℎ+1/3−13 휀22−133が求まります。
論文ではそのほかに以下のような提 案も書かれています 
•分割された領域におけるデータ数だけで휀−差分プライバシーを 実現するのではなく、最終的な回答にも雑音を乗せると誤差はよ り小さくできる。 
–このことは、QuadTreeに限れば、直前に紹介したHo and Ruan の論文 ではすでに取り入れられています。 
•KD-treeの場合は領域分割境界を領域内の中央値(median)にしま すが、中央値に雑音加算した場合の分析がしてあります。 
–Medianに加算する雑音と領域内のデータ個数に加算する雑音との 関係についても述べています。 
•やや詳細に過ぎるので、(ここまでもだいぶ詳細過ぎかも )、 興味のある方は原論文にあたってください。
まとめ 
•多数の個人の滞在場所情報を含むデータベースの利用において、 
•そのデータベースの統計量を質問するような場合に、個人情報を 保護する方法として휀−差分プライバシーを使う方法を紹介しまし た。 
–QuadtreeやKD-treeという領域分割法において分割境界線に雑音を 加算する方法 
–領域内部のデータ数に雑音を加算する方法 
–その両者を組み合わせて휀−퐷푃 を実現する方法の性能評価の話 が主な話題でした。 
•居場所に係わるプライバシー情報の重要度は高く、このようなプラ イバシー保護技術はかなり有用なものになりそうです。
参考文献 
•Shen-Shyang Ho, Shuhua Ruan. Differential Privacy for Location Pattern Mining. ACM SPRINGL ’11 November 1, 2011. Chicago, IL, USA ISBN 978-1-4503-1032-1/11/11 
•Martin Ester, Hans-Peter Kriegel, JZrg Sander and Xiaowei Xu, A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, KDD, pp. 226-231, 1996. 
•Graham Cormode, Magda Procopiuc, Divesh Srivastava, Entong Shen, Ting Yu. Differentially Private Spatial Decompositions. ICDE2012, 2012

More Related Content

What's hot

『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Shohei Hido
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。浩 陳
 
機械学習の未解決課題
機械学習の未解決課題機械学習の未解決課題
機械学習の未解決課題Hiroyuki Masuda
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門Momoko Hayamizu
 
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシープライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシーHiroshi Nakagawa
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」Ken'ichi Matsui
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)西岡 賢一郎
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 

What's hot (20)

『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。
 
機械学習の未解決課題
機械学習の未解決課題機械学習の未解決課題
機械学習の未解決課題
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシープライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
統計分析
統計分析統計分析
統計分析
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 

More from Hiroshi Nakagawa

人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンス人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンスHiroshi Nakagawa
 
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例Hiroshi Nakagawa
 
情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会Hiroshi Nakagawa
 
最近のAI倫理指針からの考察
最近のAI倫理指針からの考察最近のAI倫理指針からの考察
最近のAI倫理指針からの考察Hiroshi Nakagawa
 
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会Hiroshi Nakagawa
 
自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラ自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラHiroshi Nakagawa
 
暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護Hiroshi Nakagawa
 
Defamation Caused by Anonymization
Defamation Caused by AnonymizationDefamation Caused by Anonymization
Defamation Caused by AnonymizationHiroshi Nakagawa
 
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演Hiroshi Nakagawa
 
情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料Hiroshi Nakagawa
 
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」Hiroshi Nakagawa
 
Social Effects by the Singularity -Pre-Singularity Era-
Social Effects by the Singularity  -Pre-Singularity Era-Social Effects by the Singularity  -Pre-Singularity Era-
Social Effects by the Singularity -Pre-Singularity Era-Hiroshi Nakagawa
 

More from Hiroshi Nakagawa (20)

人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンス人工知能学会大会2020ーAI倫理とガバナンス
人工知能学会大会2020ーAI倫理とガバナンス
 
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例信頼できるAI評価リスト パーソナルAIエージェントへの適用例
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
 
NICT-nakagawa2019Feb12
NICT-nakagawa2019Feb12NICT-nakagawa2019Feb12
NICT-nakagawa2019Feb12
 
情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会情報ネットワーク法学会研究大会
情報ネットワーク法学会研究大会
 
最近のAI倫理指針からの考察
最近のAI倫理指針からの考察最近のAI倫理指針からの考察
最近のAI倫理指針からの考察
 
AI and Accountability
AI and AccountabilityAI and Accountability
AI and Accountability
 
AI Forum-2019_Nakagawa
AI Forum-2019_NakagawaAI Forum-2019_Nakagawa
AI Forum-2019_Nakagawa
 
2019 3-9-nakagawa
2019 3-9-nakagawa2019 3-9-nakagawa
2019 3-9-nakagawa
 
CPDP2019 summary-report
CPDP2019 summary-reportCPDP2019 summary-report
CPDP2019 summary-report
 
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
 
Ai e-accountability
Ai e-accountabilityAi e-accountability
Ai e-accountability
 
自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラ自動運転と道路沿い情報インフラ
自動運転と道路沿い情報インフラ
 
暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護暗号化によるデータマイニングと個人情報保護
暗号化によるデータマイニングと個人情報保護
 
Defamation Caused by Anonymization
Defamation Caused by AnonymizationDefamation Caused by Anonymization
Defamation Caused by Anonymization
 
人工知能と社会
人工知能と社会人工知能と社会
人工知能と社会
 
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
 
情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料情報ネットワーク法学会2017大会第8分科会発表資料
情報ネットワーク法学会2017大会第8分科会発表資料
 
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
 
AI社会論研究会
AI社会論研究会AI社会論研究会
AI社会論研究会
 
Social Effects by the Singularity -Pre-Singularity Era-
Social Effects by the Singularity  -Pre-Singularity Era-Social Effects by the Singularity  -Pre-Singularity Era-
Social Effects by the Singularity -Pre-Singularity Era-
 

居場所を隠すために差分プライバシーを使おう

  • 2. ビッグデータにおける 個人の居場所情報を巡る状況 •スマホなどの携帯端末のGPS機能によって、 個人の居場所(ある時刻における滞在位置 情報)を容易にアプリ提供業者が収集できま す。 •個人の居場所情報は様々なビジネスで有用 な情報です。 •多数の業者が使いたい情報であり、収集した 業者から第3の業者への転売も起こりえます。
  • 3. •EUでは個人の居場所は名前、住所などと同様 の個人情報と見なされます。 •パーソナルデータ検討会の大綱(2014年6月19 日発表)では、行動履歴や購買履歴は保護すべ き個人情報から外れています。 –しかし、このような情報を含む個人データのデータ ベース自体が転売されるとなると、悪用される危険が つきまといます。 •データベース自体を転売するのではなく、データ ベースへの質問をさせる使い方が使いやすいか もしれません。
  • 4. •データベース自体を転売するのではなく、データ ベースへの質問をさせる使い方が使いやすいか もしれません。 •理由 –データベース自体が時々刻々と変化しています –データベースを無理矢理改変しなくても、 •質問への答えに雑音を加算する差分プライバシー •質問自体を許可するか否かの質問監査 –によって個人データの漏洩リスクを評価しやすく、「大 綱」にいうところの「個人特定性の低減した」という部 分の「低減」の度合いを評価しやすいようです
  • 5. –データベースを無理矢理改変しなくても、 •質問への答えに雑音を加算する差分プライバシー –によって個人データの漏洩リスクを評価しやすく、 「大綱」にいうところの「個人特定性の低減した」と いう部分の「低減」の度合いを評価しやすいと思 われます。 •そこで、このスライドではデータベースへの質 問に対して •個人の位置情報プライバシー(location privacy)を守る差分プライバシーの手法につ いて説明します。
  • 6. 基本的アイデア データベース:D1 データベース:D2 質問 f: このエリアに何人 いますか? 回答: f(D1)=17人 回答: f(D2)=18人 これでは、 が1名余分に居ることが分かってしまうの で、雑音(平均=0)を加算して質問者に回答します 回答: f(D1)+X=17+2=18人 回答: f(D2)+X’=18-2=16人 これらの答えでは、D1とD2の差が質問からは分かりません。 ですから、質問者には の存在の有無もわかりません。
  • 7. 質問される領域分割と雑音 •上の図のように元の領域aをb、cに分割し、bをd,eに分割し....としていくと、下の木構造になります • a • b c • d e j k • f g h i l m n o • a,b,… ,kの各複合領域に入っている領域数、f,g,…,oの最小領域に入っている人数の各々に雑音を 加算します。 •最小領域や複合領域のいる人数を質問されたときには、加算された雑音の効果で、本当の人数が分 かりませんプライバシー保護 •技術的には、 –どのように領域分割をするか –設定されたプライバシー保護のレベルを達成するには、各複合領域にどのような大きさの雑音を加算するか •が解決すべき問題になります b c d e f g n m l j k h a o i ちなみに、ある軸で分割するとき、 その軸方向の中央値(データ数 を半々の分ける点)を使う場合を KD-treeと言います。
  • 9. 差分プライバシー •D1とD2が質問では区別できない(実際はできにくい)ことを以下の式 で表します。 •まず、質問結果푓퐷に雑音Xを加算した値を푀푓,퐷と書きます。 •任意のD1とD2のペアについて下の式が成り立つときε-差分プライバ シー(以下では、휀−퐷푃 と書きます)が成り立つと定義します。 • 푃푟푀푓,퐷1 푃푟푀푓,퐷2≤푒휀 •雑音Xは期待値=0,パラメタ=σのラプラス分布 퐿푎푝푥;휎= 12휎 푒푥푝− 푥 휎 で、σは以下のようにして決めます。 –なお、このラプラス分布の分散は2휎 2 •Δ푓=푚푎푥퐷1,퐷2푓퐷1−푓퐷21 これをsensitivityと呼びます。 •휎= Δ푓 휀 •実際は、 Δ푓の計算はデータベースの各レコードについて、それが無 かった場合を調べなければならず、計算量が大きいのです。
  • 10. 居場所のプライバシーを “領域分割+差分プライバシー” で実現するとき重要になる定理 •領域分割の階層푖でラプラス分布の雑音加算し휀푖−퐷푃 が成立させると、 全体で푛階層あるとき、 •全体での휀−퐷푃と各階層の휀푖−퐷푃の間に以下の関係が成り立つ。 •휀= 휀푖 푛푖 =1 --(1) •つまり、全体として達成したい휀を各階層の휀푖に分割して総和が휀になるよう に設計すればよいわけです。 •휀が大きいほど加算すべき雑音が大きくなり、回答の精度が落ちることに 気をつけましょう。 . . . . . . . i=1  휀1 i=n  휀푛 휀= 휀푖 푛 푖=1
  • 11. 휀−퐷푃 の合成定理 •前のページの式(1)は以下に示す휀−퐷푃 の合成定理の繰り返しによっ て得られます。 ℕは正の整数全体を表します。 •定理: •Χをレコード全体の集合とする。よってΧはデータベース中のレコード数 •푅1,푅2はレコードであり、푀1:ℕΧ→푅1、 푀2:ℕΧ→푅2は各々휀1−퐷푃、 휀2−퐷푃を満たす雑音加算メカニズムとする。 •푀1,2:ℕΧ→푅1×푅2 、つまり푀1、 푀2を直列に適用する写像とする。この とき、 •푴ퟏ,ퟐ풙=푴ퟏ풙,푴ퟐ풙は(휺ퟏ+휺ퟐ)−푫푷 である。 •証明 •푥,푦∈ℕ푋であり、푥−푦1≤1とし、푟1,푟2∈푅1,푅すると、 • 푃푟푀1,2푥=푟1,푟2 푃푟푀1,2푥=푟1,푟2= 푃푟푀1푥=푟1 푃푟푀1푦=푟1 푃푟푀2푥=푟2 푃푟푀2푦=푟2≤푒휀1 푒휀2= 푒휀1+휀2 •対称性により푃푟푀1,2푥=푟1,푟2 푃푟푀1,2푥=푟1,푟2≥푒−휀1+휀2 □
  • 12. •補遺: •より一般に、下の式を満たす휀,훿−퐷푃となると定 理の証明はかなり難しいです。 •휀,훿−퐷푃: 푃푟푀푓,퐷1≤푒휀푃푟푀푓,퐷2+훿 –“The Algorithmic Foundations of Differential Privacy” Foundations and Trends R in Theoretical Computer Science, Vol. 9, Nos. 3–4 (2013) 211– 407, Dwork and A. Roth, DOI: 10.1561/0400000042 の pp.477-478 に証明が書 かれています。
  • 13. 휀,훿−퐷푃 の合成定理 •푀1퐷 ∈퐶1は휀1,훿1 −퐷푃を満たす雑音加算メカニズム •푀1퐷 の結果푠1∈퐶1を別の휀2훿2−퐷푃である雑音加算メ カニズム푀2の入力に使い、 푀2푠1∈퐶2 •このとき、任意の1レコードだけ異なる隣接データベース퐷,퐷′ に対して •푃푟푀1퐷 ∈퐶1⋀ 푀2푠1∈퐶2≤ 푒휀1+휀2 푃푟푀1퐷′ ∈퐶1⋀ 푀2푠′1∈퐶2+훿1+훿2 –훿1=훿2=0のときには휀−퐷푃の合成定理となる。
  • 14. Differential Privacy for Location Pattern Mining • 以下ではまず Ho and Ruan の上記タイトルの論文を紹介し ます。定義の説明から開始します。              予め決まった値のより多い滞留点を含む領域 重要領域:移動履歴の集合において、         円の中心  下の図の大きな円の中心点に対応         が半径の円の中にとどまっていたときの、 滞留点とは、以上の長さの期間にわたって 移動履歴:      ただし、=経度=緯度=滞在時刻 滞在地点: とする。 (stay point) , , , (stay point) : T , , , , , , , , 1 1 2 1 r TJ traj traj x y traj traj p p p x y t t t p x y t k ks ki ki ki i i i i i i i i i           2δ ( , , ) i i i x y t x y t t t T i k i k i k i k i        ( , , )ただし、 r’以上とい う多数人が 滞留してい る領域
  • 15. 居場所が差分プライバシーで保護さ れていないと •太郎の居場所(緯度、経度)が差分プライバシー の雑音加算されずに、正確に知られてしまうと、 •太郎がopt-outする以前と以後の太郎を含む数 名の居た領域がAからA’に変化してしまい •結果として、太郎がA-A’に居たことが漏洩してし い、かえって危険なことになります。 A A‘ 太郎がopt-out 太郎が居た領域
  • 16. QuadTree(領域4分割木)に基づく 差分プライバシーのアルゴリズム •入力:滞留点の集合S, 平面領域R,閾値T •出力:分割された領域の集合P, Spの部分集合の集合 •初期化: P={},Sp={} •BuildDPQuadTree(S,R,T) 1.S’=|S|+Lap(σqt) 2.if S’>T then 3. if S’≤3T then 4. P=P∪{R};Sp=Sp ∪{S}; 5. return 6. else 7. Split:Rを4個の領域に分割してBuildDPQuadTreeを 再帰呼び出し 8. end if 9.else P=P;Sp=Sp; 10. return 11.end if
  • 17. アルゴリズムの補遺と説明 •入力Pはこれからアルゴリズムを適用する対象 領域です。 •QuadTree: 右図のような階層的に4分割されて いく木。 •左上大きな をRとすると、その4分割領域は Rnw,Rne,Rsw,Rseとなる。 •その内部の滞留点集合をSnw,Sne,Ssw,Sseとす る Rnw Rsw Rne Rse これらの4個の領域に対してline 7. では BuildDPQuadTree (Rnw,Snw,T); BuildDPQuadTree (Rne,Sne,T); BuildDPQuadTree (Rsw,Ssw,T); BuildDPQuadTree (Rse,Sse,T) ; を再帰的に呼んでいます。 line 1, line 2によれば、領域中のデータ点数+ Lap(σqt) 雑音がT個以下の場合は分割 せず、そのまま結果領域とする。 line 4, line 5の終了条件によれば、最も細分された4分割領域に入っているデータ点数 +Lap雑音=|S|+Lap(σqt)は T< |S|+Lap(σqt)<3T となる。
  • 18. アルゴリズムの補遺と説明 •T< |S|+Lap(σqt)<3T という条件から、4分割領域中のデータ数の sensitibity Δ푓=푚푎푥퐷1,퐷2푓퐷1−푓퐷21 に対応するΔ푓푞푡=3T •Δ푓푞푡は分割の任意のレベルにおける全分割領域における滞留点数の 固定された上界です。 –Δ푓푞푡 が固定されているので、計算が楽になっています。 •よってラプラス分布Lap휎푞푡のパラメタ휎푞푡= Δ푓푞푡 휀푞푡 = 3 휀푞푡 ただし、휀푞푡はこ の分割レベルに割り振当てられた差分プライバシーの量:휀푞푡-DP
  • 19. 差分プライバシーを満たす 重要領域の抽出アルゴリズム •入力:処理の対象領域Pにおける滞留点の集合Sp={S1,…,Sk},閾値r’ •出力:重要地点(すなわち領域の重心)I, I中の滞留点の数 1.初期化: I={};Cts’=0;Cg=(0,0); 2.for i=1 to k do 3. CL=DBSCAN(Si): 実際はCL={R1,…,Rl}で、 Ri はDBSCANで作ら 4. れたクラスタ。クラスタRi内の点は{Lat(i),Lon(i)}つまり緯度と経度の組 5. for j=1 to |CL| do 6. Cts’=|Rj|+Lap(휎푗cts): クラスタRj 内の滞留点の数+Lap雑音 7. if Cts’ > r’ then 8. Cgj= 퐿푎푡푘,퐿표푛푘 |R푗| 푘=1R푗 : r’より多数の地点を含むクラスタの重心計算 9. Cg’=Cgj+Lap(휎푗cg) : Lap雑音加算(コメント:Cgjは経度、緯度の2要素が あるので、各々に別の雑音を加算すべきかも。後で詳しく述べる) 10. I=I∪{Cg’}; C=C ∪{Cts’} 11. end if 12. Cts’=0, Cg’=(0,0); r’以下の地点しか含まないクラスタのカウントは0にする 13. end for 14.end for
  • 20. アルゴリズムの補遺と説明 •DBSCANは文献[Ester et al. KDD 1996]で提案された点密度の高さ に基づくクラスタ抽出(=近い点を集めたもの)を行うモジュールで す。抽出されたクラスタはRiです。 –クラスタRi内の点は{Lat(i),Lon(i)}つまり経度と緯度と組です •line 6: クラスタRj内の滞留点の数を|Rj|とします。これに分散휎푗cts のラプラス分布から生成された雑音Lap(휎푗cts)を加算し、Cts’としま す。 • line 7,8,9: Cts’が予め与えられた閾値r’より大きい、つまり多数の 滞留点を含むクラスタなら、その重心Cgj’を計算します。 •line 9: Cgj’の経度成分と緯度成分の各々に分散휎푗cgのラプラス分 布から生成された雑音Lap(휎푗cg)を加算し、Cg’とします。 •このようにして計算されたCg’の集合I、およびIの要素であるクラス タ内の滞留点数(雑音が加算されています)を結果とします。
  • 21. クラスタRjに加算するラプラス雑音の分散 •クラスタRjのsensitivityは下の式のように与えら れます。 •Δ푓푗 푐푡푠=푚푎푥푖∈퐷#푠∈푅푗|푠は個人푖の滞留点 –Dはデータベース内全個人の集合、 Rjはクラスタj内 の滞留点の集合 –つまり、Δ푓푗 푐푡푠 はline 4のDBSCANの結果として出力し たクラスタに対する滞留点の個数の最大値 •よって、雑音を生成するラプラス分布Lap(휎푗cts) の分散휎푗cts=Δ푓푗 푐푡푠 휀푐푡푠
  • 22. 重心Cgに加算するラプラス雑音の分散 •クラスタCgの重心のsensitivityは下の式のように与えられます。 •Δ푓푗 푐푔=クラスタ푗内の2点間距離の最大値/2 –私のコメント:論文ではこのように書いてあるが、重心は経度、緯度の 2成分からなるので、正確には以下のようなことかもしれない。 –Δ푓푗 푐푔 (経度)=クラスタ푗内の2点間経度方向距離の最大値/2 –Δ푓푗 푐푔 (緯度)=クラスタ푗内の2点間緯度方向距離の最大値/2 •よって、経度、緯度の各々に加算する雑音を生成するラプラス分布 は –Lap(휎푗cg(経度))の分散휎푗cg(経度)= Δ푓푗 푐푔(経度) 휀푐푡푠−푙푎푡 –Lap(휎푗cg(緯度))の分散휎푗cg(緯度)= Δ푓푗 푐푔(緯度) 휀푐푡푠−푙표푛
  • 23. 全体に加算するラプラス雑音の分散 •휀-DPの合成定理 휀= 휀푖 푛푖 =1 より •最終結果に加算する雑音を生成するラプラス分 布の分散を生成する휀たちには以下の関係が成 り立つ –ℎはQuadTreeにおける分割の回数(=4分木の高さ)と すると •閾値r’以下の個数の滞留点しか含まないクラス タでは –휀=휀푐푡푠+ 휀푞푡 ℎ푖 =1 •閾値r’より多い滞留点を含むクラスタでは –휀=휀푐푔経度+휀푐푔緯度+휀푐푡푠+ 휀푞푡 ℎ푖 =1
  • 24. 評価 •Ho and Ruan論文では •100x50の領域に5000データ点がランダムに存在する場合、閾値r’=500 のシミュレーションをしたとき、 •휀푞푡=5で以下のような結果を得ている –個々の領域中の滞留点個数に関して、差分プライバシー(雑音加算)を適用した場合としない場 合の差の絶対値の平均:Mt=300 –個々の領域の重心に関して差分プライバシー(雑音加算)を適用した場合としない場合の差の 絶対値の平均:Mg=7 –QuadTreeの各領域で加算する雑音は大きく精度を劣化させる –差分プライバシーによって正しい重要点が捉えられた割合(True Positive Rate:TPR)=0.9 –差分プライバシーによって見逃した需要点の割合(False Negative Rate:FNR)=0.2 •휀푐푡푠=1で以下のような結果を得ている –Mt=340, TPR=0.88, FNR=0.12 •휀푐푔=1で Mg=5 •出力への雑音加算による精度劣化小さい •一般的傾向としては휀を大きくしてプライバシー保護性能を下げると精度が改善さ れる。
  • 25. Differentially Private Spatial Decompositions •以下では、Cormode, et al.の上記タイトルの論文 (ICDE2012)についてサマリーをします。 •空間分割をQuadTree、KD-tree、Hilbert-R-treeなどで行っ た場合に、treeの各ノードの配下の部分木含まれるデータ 数に雑音加算する差分プライバシーの性能について調べ ている論文です。 –QuadTreeはデータの分布と独立に分割法が決まります。 –KD-treeはデータの分布に依存して分割法がきまります。(領域 中の分割する方向の軸で中央値を分割面にしますから) •QuadTreeの分割例を次のスライドに示します。
  • 26. QuadTreeの分割例 7 3 2 0 2 1 0 1 1 0 0 0 0 0 0 0 2 0 0 0 2 •左の領域分割QuadTreeを上に示します。 •○の中の数はその○の支配下にある領 域中のデータ数の総和です。 •実際は、この○の中の数そのものでは なく、雑音を加算したものを出力します。 例えば、2行目の4つは(3,2,0,2)ではなく 雑音(-1,2,-1,-1)を加算して(2,5,-1,1)にし ます。
  • 27. 準備:評価法 •質問qに対して差分プライバシーのメカニズムを用いて 得た答えQ は、期待値=0の雑音が加算されています。 •そこで、qの回答Qの誤差尺度퐸푟푟푄=푉푎푟푄: Q の 分散とします。 •階層毎(i=1,..,s)に雑音が加算されQ 1,…, Q sが得られた 場合は、 퐸푟푟푄= 퐸푟푟푄푖푠 푠푖 =1 となります。 •treeの深さ方向のインデクスはiとし、treeの高さをhとしま す。 •回答Q が含む深さiのノード数をniとします。すると、 Q に 関与するノード数푛푄= 푛푖 푠푖 =1 となります。
  • 28. 푛푄の評価 •回答Qが含む深さiのノード数をniとします。する と、Qに関与するノード数푛푄= 푛푖 푠푖 =1 となり ます。 •QuadTreeの場合 – 푛푖≤8∙2ℎ−푖 ---(q1) – 푛푄≤82ℎ+1−1=푂4ℎ/2 •KD-treeの場合 –푛푖≤8∙2ℎ−푖+1/2, –푛푄≤82ℎ+1/2+1−1=푂2ℎ/2
  • 29. 휀の配分 •雑音がラプラス分布Lapの場合について検討しま す。 –パラメタ휀푖のラプラス分布の分散は푉푎푟퐿푎푝휀푖= 2 휀푖 2  퐸푟푟푄= 2푛푖휀푖 2 ℎ푖=0 (1) –この定義から分かるようにtreeの高さが大きくなると、各 レベルでの 휀푖 が小さくなって、h個加算されるため、誤 差퐸푟푟푄が大きくなります。 –つまり、レベル毎に小さな휀푖で保護性能を高めるため、 精度が劣化することになってしまうわけです。
  • 30. 휀の配分:QuadTreeにおける均等分配 –以下では簡単のためにQuadtreeの場合の結果を示 す。 •均等分配 –データ全体に対する휀をQuadTreeの各レベルに均 等分配すると、휀푖=휀ℎ+1 となり、そのときの誤 差は 퐸푟푟푄= 2ℎ+12 휀2 푛푖 ℎ푖 =0≤ 16 휀2ℎ+122ℎ+1−1 –証明は原論文を読んで欲しいのですが、結果は 푂ℎ2∙2ℎなのでうれしくないものです。
  • 31. 휀の配分:QuadTreeにおける傾斜配分 •傾斜配分 –そこで휀푖を푖によって変化させて 퐸푟푟푄を最小化する方法を考えてみま す。 –QuadTreeの푛푖≤8∙2ℎ−푖 ---(q1)を퐸푟푟푄に代入して最小化する問題と して定式化します。 –ただし、휀を各レベルに分配しているという制約条件がつきます。 •最適化問題 Minimize 2ℎ−푖휀푖 2 ℎ푖 =0 Subject to 휀푖 ℎ푖 =0=ε –この最適化問題における퐸푟푟푄の上界は以下で与えられます。 –퐸푟푟푄≤ 162ℎ+1/3−13 휀22−133≤ 2ℎ+7 휀2 –ただし、上界は 휀푖=2ℎ−푖/3휀 2−132ℎ+1/3−1 のとき –푖が大きくなるにつれて2−푖に比例して小さくなるという휀푖の傾斜配分が良い のです。末端の小さな領域ほど、 휀푖が小さくなりプライバシー保護が厳重 になるというのは、直感にもあっています。
  • 32. 最適化問題の上界の証明 •証明は以下のようにCauchy-Schwarzの不等式を 使うことが分かれば簡単です。 • 휀푖 ℎ푖 =0 2ℎ−1휀푖 2 ℎ푖 =0≥ 휀푖2ℎ−푖 휀푖 2 ℎ푖 =02 •等式が成立するのは定数Cを使うと휀푖=퐶2ℎ−1휀푖 2 つま り휀푖=퐶32ℎ−푖3 のときであり、 • 휀푖 ℎ푖 =0=ε を使うと、퐶3= 휀23−12ℎ+13 −1 となり、 퐸푟푟푄 の上界 162ℎ+1/3−13 휀22−133が求まります。
  • 33. 論文ではそのほかに以下のような提 案も書かれています •分割された領域におけるデータ数だけで휀−差分プライバシーを 実現するのではなく、最終的な回答にも雑音を乗せると誤差はよ り小さくできる。 –このことは、QuadTreeに限れば、直前に紹介したHo and Ruan の論文 ではすでに取り入れられています。 •KD-treeの場合は領域分割境界を領域内の中央値(median)にしま すが、中央値に雑音加算した場合の分析がしてあります。 –Medianに加算する雑音と領域内のデータ個数に加算する雑音との 関係についても述べています。 •やや詳細に過ぎるので、(ここまでもだいぶ詳細過ぎかも )、 興味のある方は原論文にあたってください。
  • 34. まとめ •多数の個人の滞在場所情報を含むデータベースの利用において、 •そのデータベースの統計量を質問するような場合に、個人情報を 保護する方法として휀−差分プライバシーを使う方法を紹介しまし た。 –QuadtreeやKD-treeという領域分割法において分割境界線に雑音を 加算する方法 –領域内部のデータ数に雑音を加算する方法 –その両者を組み合わせて휀−퐷푃 を実現する方法の性能評価の話 が主な話題でした。 •居場所に係わるプライバシー情報の重要度は高く、このようなプラ イバシー保護技術はかなり有用なものになりそうです。
  • 35. 参考文献 •Shen-Shyang Ho, Shuhua Ruan. Differential Privacy for Location Pattern Mining. ACM SPRINGL ’11 November 1, 2011. Chicago, IL, USA ISBN 978-1-4503-1032-1/11/11 •Martin Ester, Hans-Peter Kriegel, JZrg Sander and Xiaowei Xu, A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, KDD, pp. 226-231, 1996. •Graham Cormode, Magda Procopiuc, Divesh Srivastava, Entong Shen, Ting Yu. Differentially Private Spatial Decompositions. ICDE2012, 2012