プライバシを考慮した移動系列情報解析のための安全性の提案

プライバシを考慮した
移動系列情報解析のための安全性の提案
◎川本淳平1, 福地一斗2, 照屋唯紀1, 佐久間淳13

1: 筑波大学大学院システム情報工学研究科
2:筑波大学情報学群情報科学類
3: 科学技術振興機構さきがけ

2013/1/23 プライバシを考慮した移動系列情報解析のための安全性の提案 2

移動系列情報の利用
• 携帯やカーナビから収集される移動系列情報(GPS)の利用
• 人々の行動パタンの発見
• 異常行動の発見

• 事故や災害の早期発見や人々を誘導し二次災害を防ぐ


移動系列情報解析におけるプライバシ問題
• 移動系列情報から漏えいしうる情報
• どこにいたのか
• 移動系列情報と個人の結合
• その後どこに向かうのかの推測
• 移動系列情報と個人が結び付くと将来向かうであろう地点が推測され得る
• 背景知識としてある時刻の移動系列情報と個人を結び付けられてしまう危険性

• 移動系列情報を収集者(携帯事業者など) から
外部の解析機関に委譲する場合とくに重要となる


移動系列情報に対するプライバシ保護の難しさ
• 移動系列情報の問題
• 似ている系列を持つ人が少ない
• 系列が長ければ特に顕著
• k-匿名性などの適用が困難
• 既存研究 (LKC-プライバシ†, kmプライバシ‡)
• 考える系列の長さを制限して弱い k-匿名性を実現
• 単一の出力のみを想定しており継続的に公開できない

Pseudo ID 移動系列
A l1 → l2 → l3 → l4 → …
B l1 → l2 → l3 → l5 → …
… …

† Benjamin C. M. Fung, Ming Cao, Bipin C. Desai, Heng Xu, “Privacy Protection for RFID Data Categories
and Subject Descriptors”, Proc. of the 24th ACM Symposium on Applied Computing, pp.1528-1535, 2009.
‡ Manolis Terrovitis, Nikos Mamoulis, Panos Kalnis, “Privacy-preserving anonymization of set-valued data”,
Proc. VLDB Endow., pp.115-125, 2008.


本研究の取り組み
• 移動履歴そのものを公開するのではなくヒストグラムを公開
• 各時間に与えられた POI に滞在している人数のみを出力する
各時刻各 POI の滞在人数
l3
時刻 l1 l2 l3 l4
l2
t1 1人 4人 10人 2人

l1 l4 t2 2人 8人 2人 6人

• 人々はマルコフモデルに従い行動すると仮定
• つまり時刻 t+1 の滞在位置は時刻 t の滞在位置から確率的に決まると仮定
• その上で出力するヒストグラムが満たすべきプライバシーを定義
• POI の nグラムに対するマルコフモデルへの拡張が可能
• 長さ n のパスに対するヒストグラムを公開することと同等
• ヒストグラムの出力問題からパスの出力問題へ拡張可能


基本事項
• L個の POI が与えられているとする出力はヒストグラム π(t)
• 移動系列情報の収集者が集計
• プライバシー定義を満足する形に修正し出力
• N 人分の移動系列情報を収集しているとする
• 攻撃者
• マルコフモデルの遷移確率 P を知っていると仮定
• 時刻 t に攻撃対象が POI li に居たと知っている (背景知識)
• 背景知識を κ(t) で書く: κ(t) = (0, 0, …, 1, 0, …0)t (確信度 = 1.0)
i 番目
• s 時間後の時刻 t+s に対象が滞在している POI を推測する攻撃

GPS 解析者
移動履歴
GPS 収集者
GPS 攻撃者
ヒストグラム π(t)


プライバシ定義のアイデア
• 時刻 t にPOI li にいた対象が t + s に lj にいると推測する確信度
• 出力ヒストグラムを用いない場合
p(lj | κ(t); P)
• 出力ヒストグラムを用いる場合
p(lj | κ(t), π(t), π(t+1), …, π(t+s); P)

• この二つの比が小さければ安全であるとする
• すなわち出力ヒストグラムが攻撃者に与える情報が少ないことを意味する

「ヒストグラムによる攻撃者の確信度に与えるゲイン」として定義


確信度のゲインとプライバシ定義
• 出力ヒストグラムが攻撃者に与える確信度のゲイン
Gain(π(t), π(t+1), …, π(t+s); lj, κ(t), P)
p(l j |  (t ),  (t ),  (t  1),...,  (t  s); P)

p(l j |  (t ); P)

• このゲインが s が ε で抑えられるとき安全という

Gain(π(t), π(t+1), …, π(t+s); lj, κ(t), P) < ε


攻撃者に対する確信度ゲインの評価
0.1
• 攻撃者の背景知識
• 右記のマルコフモデルが公知
0.9 l1 l2 0.5
• 対象が時刻 t で l1 に滞在していた場合
• κ(t) = (1, 0)t 0.5
マルコフモデル例

• ヒストグラムを用いない推測
• 時刻 t+1 に l1 にいると推測する場合
• p(l1 | κ(t); P) = 1 × 0.9 + 0 × 0.5 = 0.9
• 時刻 t+1 に l2 にいると推測する場合
• p(l2 | κ(t); P) = 1 × 0.1 + 0 × 0.5 = 0.1

s = 1 の例


出力ヒストグラムを用いた推測
0.1
• 出力ヒストグラムが次のようであった
時刻 l1 l2
0.9 l1 l2 0.5
t 2人 1人
t+1 1人 2人 0.5
• π(t) = (2, 1)t, π(t+1) = (1, 2)t マルコフモデル例

• ヒストグラムを用いて時刻 t+1 に l1 にいると推測する場合
• ヒストグラムを用いた推測 p(l1 | κ(t), π(t), π(t+1); P) の評価
p( (t ),  (t  1) |  1 ,  (t ); P) p( 1 ,  (t ); P)
p(l1 | κ(t), π(t), π(t+1); P) 
 p( (t ),  (t  1) | ,  (t ); P) p(,  (t ); P)


s = 1 の例


出力ヒストグラム尤度の計算
• p(π(t), π(t+1) | l1, κ(t); P) の評価時刻 l1 l2
• ヒストグラム π(t) 及び π(t + 1) の尤度を表している t 2人 1人
• ３人の移動がどれほど尤もらしいのか？ t+1 1人 2人
• ３人のうち攻撃対象１人は l1 から l1 に移動したと仮定
• 残り２人のヒストグラムに矛盾しない行動は？
攻撃対象: l1 → l 1
X さん: l1 → l 2 このような移動の起きる確率はマルコフモデルより
0.1 × 0.5 = 0.05
Y さん: l2 → l 2
• (X さんと Y さんが逆の場合は対称性より考えなくてよい)
• この３人の行動を A1 と置くと 0.1
p(A1 | l1, κ(t); P) = 0.05
0.9 l1 l2 0.5

0.5


出力ヒストグラム尤度の計算
• p(π(t), π(t+1) | l2, κ(t); P) の評価時刻 l1 l2
• ３人のうち攻撃対象１人は l1 から l2 に移動 t 2人 1人
t+1 1人 2人
• 残り２人のヒストグラムに矛盾しない行動は
攻撃対象: l1 → l2
A2 X さん: l1 → l1
p(A2 | l2, κ(t); P) = 0.9 × 0.5 = 0.045
Y さん: l2 → l2
攻撃対象: l1 → l2
A3 X さん: l1 → l2
p(A3 | l2, κ(t); P) = 0.1 × 0.5 = 0.05
Y さん: l2 → l1
0.1

0.9 l1 l2 0.5

0.5


出力ヒストグラムを用いた推測
• ヒストグラムを用いて時刻 t+1 に l1 にいると推測する場合
p( (t ),  (t  1) |  1 ,  (t ); P) p( 1 ,  (t ); P)
p(l1 | κ(t), π(t), π(t+1); P) 
 p( (t ),  (t  1) | ,  (t ); P) p(,  (t ); P)

• 左辺は
p( A1 |  1 , κ (t ); P) p( 1 , κ (t ); P)
p( A1 |  1 , κ (t ); P) p( 1 , κ (t ); P)  p( A2 |  2 , κ (t ); P) p( 2 , κ (t ); P)  p( A3 |  2 , κ (t ); P) p( 2 , κ (t ); P)
となり 0.47367 と計算できる

• 同様に攻撃対象が時刻 t+1 に l2 にいると推測する場合
• p(l2 | κ(t), π(t), π(t+1); P) = 0.47368

p(A1 | l1, κ(t); P) = 0.05, p(A2 | l2, κ(t); P) = 0.045, p(A3 | l2, κ(t); P) = 0.05


攻撃者に対する確信度ゲインの評価
• 以上より
• ヒストグラムが与える時刻 t+1 に l1 にいる場合のゲインは
• Gain(π(t), π(t+1); l1, κ(t), P) = 0.5263
• ヒストグラムが与える時刻 t+1 に l2 にいる場合のゲインは
• Gain(π(t), π(t+1); l2, κ(t), P) = 4.7368

• このヒストグラムが与えるゲイン時刻 l1 l2

• 最大は 4.7368 t 2人 1人

• ヒストグラムによって確信度が約 5 倍になった t+1 1人 2人

• この値が許容できない場合 0.1
ヒストグラムを書き換える必要がある
0.9 l1 l2 0.5

0.5


攻撃者に対する確信度ゲインの計算
• 先ほどの例では
• ヒストグラムが与える時刻 t+1 に l1 にいる場合のゲイン
• ヒストグラムが与える時刻 t+1 に l2 にいる場合のゲインを計算
• 安全性の判定には最大ゲインが分かれば良い
• 安全性の定義は Gain(π(t), π(t+1), …, π(t+s); lj, κ(t), P) < ε
0.1
• 計算が大変なのは下記の部分
攻撃対象: l1 → l2 l1 l2 0.5
0.9
X さん: l1 → l2
確率 = 0.05 0.5
Y さん: l2 → l1 マルコフモデル例
• 最大値のみで良ければ重み付き二部グラフの最大マッチ問題に帰着可

攻撃対象: l1 0.9
0.1 l1
X さん: 0.9
l1 0.1 重み＝遷移確率
0.5 l2
Y さん: l2 0.5


プライバシと経過時間の関係
• 攻撃者が対象の位置を観測してからの経過時間 s
• s が小さい時、s 時間で到達可能な範囲は小さい
• s が大きい時、到達可能範囲は広く可能な経路も複雑になる

s が大きいほどヒストグラムによるプライバシの侵害度合いは大きい

s = 3 で到達可能な範囲 s = 7 で到達可能な範囲


プライバシ定義の拡張
• 出力ヒストグラムが攻撃者に与える確信度のゲイン
Gain(π(t), π(t+1), …, π(t+s); lj, κ(t), P)
p(l j |  (t ),  (t ),  (t  1),...,  (t  s); P)

p(l j |  (t ); P)

• このゲインが s の単調減少関数 ε(s) で抑えられるとき安全という

Gain(π(t), π(t+1), …, π(t+s); lj, κ(t), P) < ε(s)
• s が大きいほどヒストグラムによるプライバシの侵害度合いは大きいを反映


複雑なモデルへの拡張
• 提案のプライバシ定義の前提はマルコフモデル
• より複雑なモデルに対しても適用できる
今までの議論長さ 2 のパスに対するヒストグラム出力の例
時刻 l1 l2 l3 l4 時刻 l1→l2 l1→l3 l2→l1 …
t1 1人 4人 10人 2人 t1 1人 4人 10人 …
t2 2人 8人 2人 6人 t2 2人 8人 2人 …

• 長さ n のパスに対するヒストグラムを出力する場合
• LKC-プライバシや kmプライバシより公開可能な情報は少ない
• しかしこれらは考えるパスの長さを制限している
• ヒストグラムの出力問題でもこれらに近い情報を公開することが可能


まとめと今後の課題
• 移動系列情報に対するプライバシ定義を提案
• 移動系列情報そのものではなく時間毎の POI 滞在人数を出力
• 人々の行動がマルコフモデルで表現できることを仮定
• マルコフ遷移確率のみを用いた推測とヒストグラムを用いた推測の比較

• 今後の課題
• プライバシ条件を満足するヒストグラム書き換えメカニズム
• 書き換えられたヒストグラムに対する解析結果の精度の評価

プライバシを考慮した移動系列情報解析のための安全性の提案

Recommended

Recommended

More Related Content

More from Junpei Kawamoto

More from Junpei Kawamoto (20)

Recently uploaded

Recently uploaded (8)

プライバシを考慮した移動系列情報解析のための安全性の提案