7. 質問される領域分割と雑音
•上の図のように元の領域aをb、cに分割し、bをd,eに分割し....としていくと、下の木構造になります
• a
• b c
• d e j k
• f g h i l m n o
• a,b,… ,kの各複合領域に入っている領域数、f,g,…,oの最小領域に入っている人数の各々に雑音を 加算します。
•最小領域や複合領域のいる人数を質問されたときには、加算された雑音の効果で、本当の人数が分 かりませんプライバシー保護
•技術的には、
–どのように領域分割をするか
–設定されたプライバシー保護のレベルを達成するには、各複合領域にどのような大きさの雑音を加算するか
•が解決すべき問題になります
b
c
d
e
f
g
n
m
l
j
k
h
a
o
i
ちなみに、ある軸で分割するとき、 その軸方向の中央値(データ数 を半々の分ける点)を使う場合を KD-treeと言います。
14. Differential Privacy for Location Pattern Mining
• 以下ではまず Ho and Ruan の上記タイトルの論文を紹介し
ます。定義の説明から開始します。
予め決まった値のより多い滞留点を含む領域
重要領域:移動履歴の集合において、
円の中心 下の図の大きな円の中心点に対応
が半径の円の中にとどまっていたときの、
滞留点とは、以上の長さの期間にわたって
移動履歴:
ただし、=経度=緯度=滞在時刻
滞在地点: とする。
(stay point)
, ,
,
(stay point) : T
, , ,
, , ,
, ,
1
1 2
1
r
TJ traj traj
x y
traj
traj p p p
x y t t t
p x y t
k ks
ki
ki
ki
i i i i i
i i i i
2δ
( , , ) i i i x y t
x y t t t T i k i k i k i k i ( , , )ただし、
r’以上とい
う多数人が
滞留してい
る領域
19. 差分プライバシーを満たす 重要領域の抽出アルゴリズム
•入力:処理の対象領域Pにおける滞留点の集合Sp={S1,…,Sk},閾値r’
•出力:重要地点(すなわち領域の重心)I, I中の滞留点の数
1.初期化: I={};Cts’=0;Cg=(0,0);
2.for i=1 to k do
3. CL=DBSCAN(Si): 実際はCL={R1,…,Rl}で、 Ri はDBSCANで作ら
4. れたクラスタ。クラスタRi内の点は{Lat(i),Lon(i)}つまり緯度と経度の組
5. for j=1 to |CL| do
6. Cts’=|Rj|+Lap(휎푗cts): クラスタRj 内の滞留点の数+Lap雑音
7. if Cts’ > r’ then
8. Cgj= 퐿푎푡푘,퐿표푛푘 |R푗| 푘=1R푗 : r’より多数の地点を含むクラスタの重心計算
9. Cg’=Cgj+Lap(휎푗cg) : Lap雑音加算(コメント:Cgjは経度、緯度の2要素が あるので、各々に別の雑音を加算すべきかも。後で詳しく述べる)
10. I=I∪{Cg’}; C=C ∪{Cts’}
11. end if
12. Cts’=0, Cg’=(0,0); r’以下の地点しか含まないクラスタのカウントは0にする
13. end for
14.end for