VLDB09勉強会 Session27 Privacy2
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

VLDB09勉強会 Session27 Privacy2

  • 1,178 views
Uploaded on

VLDB2009のSession27より, ...

VLDB2009のSession27より,
1) Anonymization of Set-Valued Data via Top-Down, Local Generalization (He and Naughton)
2) K-Automorphism: A General Framework For Privacy Preserving Network Publication (Zou, Chen, and Özsu)
3) Distribution-based Microdata Anonymization (Koudas, Srivastava, Yu, Zhang)
を簡単に紹介.

VLDB2009勉強会: http://qwik.jp/vldb2009-study/

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,178
On Slideshare
1,178
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Session 27 : Privacy II 担当:川本淳平(京都大学) Session 27 : Privacy II 担当:川本(京大) 【 VLDB2009 勉強会】
  • 2. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • Set-valued Data に対する匿名性
      • 組合せに対する匿名性
      • Alice が { Wine , Diapers , Brush } を購入
      • 攻撃者が Alice の購入商品を知っていると T 2 = Alice と特定可能
    Session 27 : Privacy II 担当:川本(京大) Alice の購入商品と一致 T 1 : {Beer, Diapers} T 2 : { Wine , Diapers , Brush } T 3 : {Beer, Wine, Brush} トランザクション DB
  • 3. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • Terrovitis らの k m -anonymity
      • サイズ m の集合に対し各々 k 個以上の存在を保証
      • 下の DB は 2 2 -anonymity になっている ( どのペアも 2 個以上ある )
    Session 27 : Privacy II 担当:川本(京大) どっちが Alice か分からない T 1 : {Beer, Diapers} T 2 : { Wine , Diapers , Brush } T 3 : {Beer, Wine, Brush} T 4 : {Beer, Wine , Diapers , Brush } トランザクション DB
  • 4. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • k m -anonymity の問題点
      • 攻撃者がさらに知識を持っている場合防ぎきれない
      • 例えば Alice がビールを飲まないと知っていれば T 2 = Alice と特定可能
    Session 27 : Privacy II 担当:川本(京大) やっぱり T 2 = Alice と 特定可能 T 1 : {Beer, Diapers} T 2 : {Wine, Diapers, Brush} T 3 : {Beer, Wine, Brush} T 4 : { Beer , Wine, Diapers, Brush} トランザクション DB
  • 5. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • k m -anonymity の問題点
      • 攻撃者がさらに知識を持っている場合防ぎきれない
      • 例えば Alice がビールを飲まないと知っていれば T 2 = Alice と特定可能
    • k -anonymity の必要性
      • サイズ m に限定せずあらゆるサイズの集合に対し 各々 k 個以上の存在を保証すべき
    Session 27 : Privacy II 担当:川本(京大)
  • 6.
    • アルゴリズム ( 一般化とパーティション分割 )
    Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) Session 27 : Privacy II 担当:川本(京大) 例:下記トランザクションを 2 -anonymity を満たすよう変換 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 } ALL A B a 1 a 2 b 1 b 2 一般化階層構造
  • 7. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • アルゴリズム ( 一般化とパーティション分割 )
      • 階層構造をもとにパーティションに分割 ( P A , P B , P AB と三つのパーティション )
      • 条件を満足する場合 (1) を繰り返す ( 各パーティションとも 2 -anonymity )
    Session 27 : Privacy II 担当:川本(京大) P A P B P AB -> { A } -> { A } -> { B } -> { B } -> { A, B } -> { A, B } -> { A, B } T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 } ALL A B a 1 a 2 b 1 b 2 一般化階層構造
  • 8. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • アルゴリズム ( 一般化とパーティション分割 )
      • 階層構造をもとにパーティション P A を 分割 ( P a1 , P a2 , P a1a2 と三つのパーティション )
      • 条件を満足しないので ロールバック ( 各パーティションとも 1 -anonymity )
    Session 27 : Privacy II 担当:川本(京大) P B P AB -> { a 1 } -> { B } -> { B } -> { A, B } -> { A, B } -> { A, B } P a1a2 -> { a 1 , a 2 } P a1 ALL A B a 1 a 2 b 1 b 2 一般化階層構造 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 }
  • 9. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • アルゴリズム ( 一般化とパーティション分割 )
      • 以上の手順を繰り返す
      • 最終的には下記の様になる
    Session 27 : Privacy II 担当:川本(京大) P A P b1b2 P a1a2B -> { A } -> { A } -> { b 1 ,b 2 } -> { b 1 ,b 2 } -> { a 1 , a 2 , B } -> { a 1 , a 2 , B } -> { a 1 , a 2 , B } ALL A B a 1 a 2 b 1 b 2 一般化階層構造 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 }
  • 10. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton )
    • 実験
      • データセットとして実トランザクション DB を使用
      • k m -anonymity アルゴリズム (AA) と計算速度を比較
      • k = 10 , m は DB 中最大の集合サイズ
    • 結果
      • どのデータセットでも 提案手法の方が速い
    Session 27 : Privacy II 担当:川本(京大) グラフは著者らの スライド より引用
  • 11. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu )
    • プライバシに配慮したネットワーク公開
      • マイニング用にネットワークデータを公開
      • 公開前にプライベート情報は取り除く必要がある
      • 名前などを取り除くだけでは不十分
    • Identity disclosure 問題
      • ある人が公開されたネットワークの どの頂点に対応するか特定される問題
      • 部分グラフ攻撃からの漏洩
    Session 27 : Privacy II 担当:川本(京大) 唯一 4 本の枝を持つ すなわち Bob Bob の友達は 4 人
  • 12. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu )
    • 既存研究の問題点
      • 1 種類の攻撃にしか対応していない
      • 乱数を用いているため解析結果が異なる
      • 動的な匿名化に対応していない ( 本スライドでは略 )
    • 上記問題を解決する K -Automorphism
      • すべてのノードに対して 同じ構造のノードが k 個 以上存在することを保証
      • グラフ構造によるノードの特定を防ぐ
    Session 27 : Privacy II 担当:川本(京大) 2 -Automorphism の例
  • 13. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu )
    • K-Match (KM) アルゴリズム
      • k 個のパーティションに分割
      • それぞれのパーティションが同型になるように調整
      • パーティションをまたぐ枝のコピー
    Session 27 : Privacy II 担当:川本(京大) k=2 の例 手順 1 手順 2 手順 3 本来のグラフ P 12 P 22 P 12 P 22 P 12 P 22
  • 14. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu )
    • 実験
      • 既存手法と 部分グラフ攻撃 に対する耐性を比較
      • データセットは Prefuse グラフや共著グラフなど
      • 提案手法の k = 10 とした
    • 結果
      • 攻撃者が持っている情報が 少ない 場合 どの手法も複数の候補が見つかり厳密な特定は困難
      • 攻撃者が持っている情報が 多い 場合 既存手法 では 特定 されるが 提案手法 では必ず 候補が 10 以上 で特定は 困難
    Session 27 : Privacy II 担当:川本(京大)
  • 15. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang )
    • 分布ベースのプライバシモデル
      • ある分布に従うようにデータを匿名化 ( l -diversity, t -closeness)
      • 匿名化後にも集約演算が可能
    • 既存研究の問題
      • 条件を満足するグループ化が常に可能とは限らない
      • 出力をコントロールできず 期待していたグループになっているとは限らない
    • 目的
      • 希望する属性値でグループ化
      • 秘匿したい属性の属性値を希望の分布に従わせる
    Session 27 : Privacy II 担当:川本(京大)
  • 16. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang )
    • 提案アルゴリズムの動き
      • Salary の値をすべて 30 K- 60 K としても 4 -diversity
      • ただし情報のロスが大きい
    Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて 最適な一般化を行う
    • 目標
    • Zipcode の一桁目でグループ化
    • Salary が 4 -diversity
    ID Zipcode Gender Salary 1 91110 F 30K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K 5 52210 F 40K 6 52220 F 40K 7 52240 F 60K 8 52210 M 50K
  • 17. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang )
    • 提案アルゴリズムの動き
      • 始めにグループ化する
    Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて最適な一般化を行う
    • 目標
    • Zipcode の一桁目でグループ化
    • Salary が 4 -diversity
    ID Zipcode Gender Salary 1 9 1110 F 30K 2 9 1210 M 50K 3 9 1210 M 60K 4 9 1330 F 30K 5 5 2210 F 40K 6 5 2220 F 40K 7 5 2240 F 60K 8 5 2210 M 50K
  • 18. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang )
    • 提案アルゴリズムの動き
      • 始めにグループ化する
      • 分布をそろえる
    Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて最適な一般化を行う 30K 40K 50K 60K 30K -40K 50K -60K 30K-60K Salary の階層構造 ID Zipcode Gender Salary 1 9 1110 F 30K 2 9 1210 M 50K 3 9 1210 M 60K 4 9 1330 F 30K 5 5 2210 F 40K 6 5 2220 F 40K 7 5 2240 F 60K 8 5 2210 M 50K ID Zipcode Gender Salary 1 91110 F 30K-40K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K-40K 5 52210 F 30K-40K 6 52220 F 30K-40K 7 52240 F 60K 8 52210 M 50K
  • 19.
    • 提案アルゴリズムの動き
      • 始めにグループ化する
      • 分布をそろえる
      • 順番をランダム化する
    Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて最適な一般化を行う ID Zipcode Gender Salary 1 91110 F 30K-40K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K-40K 5 52210 F 30K-40K 6 52220 F 30K-40K 7 52240 F 60K 8 52210 M 50K ID Zipcode Gender Salary 1 91110 F 50K 2 91210 M 30K-40K 3 91210 M 30K-40K 4 91330 F 60K 5 52210 F 60K 6 52220 F 50K 7 52240 F 30K-40K 8 52210 M 30K-40K 30K 40K 50K 60K 30K -40K 50K -60K 30K-60K Salary の階層構造
  • 20. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang )
    • 偽のタプルを追加する改良
      • 通常の方法だと集約結果に誤差
      • 偽タプルを追加することで解決する
    Session 27 : Privacy II 担当:川本(京大) 通常 偽タプルの追加 ID Zipcode Salary 1 91210 40K 2 91220 30K 3 91220 50K ID Zipcode Salary 1 91210 30K-40K 2 91220 30K-60K 3 91220 50K-60K ID Zipcode Salary 1 91210 40K 2 91220 30K 3 91220 50K 60K
  • 21. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang )
    • 実験
      • データセットは UCI Adult Database
      • 指定した分布と匿名化されたデータの分布を比較
    Session 27 : Privacy II 担当:川本(京大) グラフは著者らの スライド より引用