VLDB09勉強会 Session27 Privacy2

Session 27 : Privacy II 担当：川本淳平（京都大学） Session 27 : Privacy II 担当：川本（京大）【 VLDB2009 勉強会】

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) Set-valued Data に対する匿名性組合せに対する匿名性 Alice が { Wine , Diapers , Brush } を購入攻撃者が Alice の購入商品を知っていると T 2 = Alice と特定可能 Session 27 : Privacy II 担当：川本（京大） Alice の購入商品と一致 T 1 : {Beer, Diapers} T 2 : { Wine , Diapers , Brush } T 3 : {Beer, Wine, Brush} トランザクション DB

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) Terrovitis らの k m -anonymity サイズ m の集合に対し各々 k 個以上の存在を保証下の DB は 2 2 -anonymity になっている ( どのペアも 2 個以上ある ) Session 27 : Privacy II 担当：川本（京大）どっちが Alice か分からない T 1 : {Beer, Diapers} T 2 : { Wine , Diapers , Brush } T 3 : {Beer, Wine, Brush} T 4 : {Beer, Wine , Diapers , Brush } トランザクション DB

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) k m -anonymity の問題点攻撃者がさらに知識を持っている場合防ぎきれない例えば Alice がビールを飲まないと知っていれば T 2 = Alice と特定可能 Session 27 : Privacy II 担当：川本（京大）やっぱり T 2 = Alice と特定可能 T 1 : {Beer, Diapers} T 2 : {Wine, Diapers, Brush} T 3 : {Beer, Wine, Brush} T 4 : { Beer , Wine, Diapers, Brush} トランザクション DB

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) k m -anonymity の問題点攻撃者がさらに知識を持っている場合防ぎきれない例えば Alice がビールを飲まないと知っていれば T 2 = Alice と特定可能 k -anonymity の必要性サイズ m に限定せずあらゆるサイズの集合に対し各々 k 個以上の存在を保証すべき Session 27 : Privacy II 担当：川本（京大）

アルゴリズム ( 一般化とパーティション分割 ) Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) Session 27 : Privacy II 担当：川本（京大）例：下記トランザクションを 2 -anonymity を満たすよう変換 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 } ALL A B a 1 a 2 b 1 b 2 一般化階層構造

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) アルゴリズム ( 一般化とパーティション分割 ) 階層構造をもとにパーティションに分割 ( P A , P B , P AB と三つのパーティション ) 条件を満足する場合 (1) を繰り返す ( 各パーティションとも 2 -anonymity ) Session 27 : Privacy II 担当：川本（京大） P A P B P AB -> { A } -> { A } -> { B } -> { B } -> { A, B } -> { A, B } -> { A, B } T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 } ALL A B a 1 a 2 b 1 b 2 一般化階層構造

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) アルゴリズム ( 一般化とパーティション分割 ) 階層構造をもとにパーティション P A を分割 ( P a1 , P a2 , P a1a2 と三つのパーティション ) 条件を満足しないのでロールバック ( 各パーティションとも 1 -anonymity ) Session 27 : Privacy II 担当：川本（京大） P B P AB -> { a 1 } -> { B } -> { B } -> { A, B } -> { A, B } -> { A, B } P a1a2 -> { a 1 , a 2 } P a1 ALL A B a 1 a 2 b 1 b 2 一般化階層構造 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 }

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) アルゴリズム ( 一般化とパーティション分割 ) 以上の手順を繰り返す最終的には下記の様になる Session 27 : Privacy II 担当：川本（京大） P A P b1b2 P a1a2B -> { A } -> { A } -> { b 1 ,b 2 } -> { b 1 ,b 2 } -> { a 1 , a 2 , B } -> { a 1 , a 2 , B } -> { a 1 , a 2 , B } ALL A B a 1 a 2 b 1 b 2 一般化階層構造 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 }

Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) 実験データセットとして実トランザクション DB を使用 k m -anonymity アルゴリズム (AA) と計算速度を比較 k = 10 , m は DB 中最大の集合サイズ結果どのデータセットでも提案手法の方が速い Session 27 : Privacy II 担当：川本（京大）グラフは著者らのスライドより引用

K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) プライバシに配慮したネットワーク公開マイニング用にネットワークデータを公開公開前にプライベート情報は取り除く必要がある名前などを取り除くだけでは不十分 Identity disclosure 問題ある人が公開されたネットワークのどの頂点に対応するか特定される問題部分グラフ攻撃からの漏洩 Session 27 : Privacy II 担当：川本（京大）唯一 4 本の枝を持つすなわち Bob Bob の友達は 4 人

K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) 既存研究の問題点 1 種類の攻撃にしか対応していない乱数を用いているため解析結果が異なる動的な匿名化に対応していない ( 本スライドでは略 ) 上記問題を解決する K -Automorphism すべてのノードに対して同じ構造のノードが k 個以上存在することを保証グラフ構造によるノードの特定を防ぐ Session 27 : Privacy II 担当：川本（京大） 2 -Automorphism の例

K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) K-Match (KM) アルゴリズム k 個のパーティションに分割それぞれのパーティションが同型になるように調整パーティションをまたぐ枝のコピー Session 27 : Privacy II 担当：川本（京大） k=2 の例手順 1 手順 2 手順 3 本来のグラフ P 12 P 22 P 12 P 22 P 12 P 22

K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) 実験既存手法と部分グラフ攻撃に対する耐性を比較データセットは Prefuse グラフや共著グラフなど提案手法の k = 10 とした結果攻撃者が持っている情報が少ない場合どの手法も複数の候補が見つかり厳密な特定は困難攻撃者が持っている情報が多い場合既存手法では特定されるが提案手法では必ず候補が 10 以上で特定は困難 Session 27 : Privacy II 担当：川本（京大）

Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) 分布ベースのプライバシモデルある分布に従うようにデータを匿名化 ( l -diversity, t -closeness) 匿名化後にも集約演算が可能既存研究の問題条件を満足するグループ化が常に可能とは限らない出力をコントロールできず期待していたグループになっているとは限らない目的希望する属性値でグループ化秘匿したい属性の属性値を希望の分布に従わせる Session 27 : Privacy II 担当：川本（京大）

Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) 提案アルゴリズムの動き Salary の値をすべて 30 K- 60 K としても 4 -diversity ただし情報のロスが大きい Session 27 : Privacy II 担当：川本（京大）階層構造を用いて最適な一般化を行う目標 Zipcode の一桁目でグループ化 Salary が 4 -diversity ID Zipcode Gender Salary 1 91110 F 30K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K 5 52210 F 40K 6 52220 F 40K 7 52240 F 60K 8 52210 M 50K

Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) 提案アルゴリズムの動き始めにグループ化する Session 27 : Privacy II 担当：川本（京大）階層構造を用いて最適な一般化を行う目標 Zipcode の一桁目でグループ化 Salary が 4 -diversity ID Zipcode Gender Salary 1 9 1110 F 30K 2 9 1210 M 50K 3 9 1210 M 60K 4 9 1330 F 30K 5 5 2210 F 40K 6 5 2220 F 40K 7 5 2240 F 60K 8 5 2210 M 50K

Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) 提案アルゴリズムの動き始めにグループ化する分布をそろえる Session 27 : Privacy II 担当：川本（京大）階層構造を用いて最適な一般化を行う 30K 40K 50K 60K 30K -40K 50K -60K 30K-60K Salary の階層構造 ID Zipcode Gender Salary 1 9 1110 F 30K 2 9 1210 M 50K 3 9 1210 M 60K 4 9 1330 F 30K 5 5 2210 F 40K 6 5 2220 F 40K 7 5 2240 F 60K 8 5 2210 M 50K ID Zipcode Gender Salary 1 91110 F 30K-40K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K-40K 5 52210 F 30K-40K 6 52220 F 30K-40K 7 52240 F 60K 8 52210 M 50K

提案アルゴリズムの動き始めにグループ化する分布をそろえる順番をランダム化する Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) Session 27 : Privacy II 担当：川本（京大）階層構造を用いて最適な一般化を行う ID Zipcode Gender Salary 1 91110 F 30K-40K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K-40K 5 52210 F 30K-40K 6 52220 F 30K-40K 7 52240 F 60K 8 52210 M 50K ID Zipcode Gender Salary 1 91110 F 50K 2 91210 M 30K-40K 3 91210 M 30K-40K 4 91330 F 60K 5 52210 F 60K 6 52220 F 50K 7 52240 F 30K-40K 8 52210 M 30K-40K 30K 40K 50K 60K 30K -40K 50K -60K 30K-60K Salary の階層構造

Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) 偽のタプルを追加する改良通常の方法だと集約結果に誤差偽タプルを追加することで解決する Session 27 : Privacy II 担当：川本（京大）通常偽タプルの追加 ID Zipcode Salary 1 91210 40K 2 91220 30K 3 91220 50K ID Zipcode Salary 1 91210 30K-40K 2 91220 30K-60K 3 91220 50K-60K ID Zipcode Salary 1 91210 40K 2 91220 30K 3 91220 50K 60K

Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) 実験データセットは UCI Adult Database 指定した分布と匿名化されたデータの分布を比較 Session 27 : Privacy II 担当：川本（京大）グラフは著者らのスライドより引用

VLDB09勉強会 Session27 Privacy2

More Related Content

Viewers also liked

Similar to VLDB09勉強会 Session27 Privacy2

Recently uploaded

VLDB09勉強会 Session27 Privacy2