VLDB09勉強会 Session27 Privacy2

925 views

Published on

VLDB2009のSession27より,
1) Anonymization of Set-Valued Data via Top-Down, Local Generalization (He and Naughton)
2) K-Automorphism: A General Framework For Privacy Preserving Network Publication (Zou, Chen, and Özsu)
3) Distribution-based Microdata Anonymization (Koudas, Srivastava, Yu, Zhang)
を簡単に紹介.

VLDB2009勉強会: http://qwik.jp/vldb2009-study/

  • Be the first to comment

  • Be the first to like this

VLDB09勉強会 Session27 Privacy2

  1. 1. Session 27 : Privacy II 担当:川本淳平(京都大学) Session 27 : Privacy II 担当:川本(京大) 【 VLDB2009 勉強会】
  2. 2. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>Set-valued Data に対する匿名性 </li></ul><ul><ul><li>組合せに対する匿名性 </li></ul></ul><ul><ul><li>Alice が { Wine , Diapers , Brush } を購入 </li></ul></ul><ul><ul><li>攻撃者が Alice の購入商品を知っていると T 2 = Alice と特定可能 </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) Alice の購入商品と一致 T 1 : {Beer, Diapers} T 2 : { Wine , Diapers , Brush } T 3 : {Beer, Wine, Brush} トランザクション DB
  3. 3. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>Terrovitis らの k m -anonymity </li></ul><ul><ul><li>サイズ m の集合に対し各々 k 個以上の存在を保証 </li></ul></ul><ul><ul><li>下の DB は 2 2 -anonymity になっている ( どのペアも 2 個以上ある ) </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) どっちが Alice か分からない T 1 : {Beer, Diapers} T 2 : { Wine , Diapers , Brush } T 3 : {Beer, Wine, Brush} T 4 : {Beer, Wine , Diapers , Brush } トランザクション DB
  4. 4. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>k m -anonymity の問題点 </li></ul><ul><ul><li>攻撃者がさらに知識を持っている場合防ぎきれない </li></ul></ul><ul><ul><li>例えば Alice がビールを飲まないと知っていれば T 2 = Alice と特定可能 </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) やっぱり T 2 = Alice と 特定可能 T 1 : {Beer, Diapers} T 2 : {Wine, Diapers, Brush} T 3 : {Beer, Wine, Brush} T 4 : { Beer , Wine, Diapers, Brush} トランザクション DB
  5. 5. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>k m -anonymity の問題点 </li></ul><ul><ul><li>攻撃者がさらに知識を持っている場合防ぎきれない </li></ul></ul><ul><ul><li>例えば Alice がビールを飲まないと知っていれば T 2 = Alice と特定可能 </li></ul></ul><ul><li>k -anonymity の必要性 </li></ul><ul><ul><li>サイズ m に限定せずあらゆるサイズの集合に対し 各々 k 個以上の存在を保証すべき </li></ul></ul>Session 27 : Privacy II 担当:川本(京大)
  6. 6. <ul><li>アルゴリズム ( 一般化とパーティション分割 ) </li></ul>Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) Session 27 : Privacy II 担当:川本(京大) 例:下記トランザクションを 2 -anonymity を満たすよう変換 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 } ALL A B a 1 a 2 b 1 b 2 一般化階層構造
  7. 7. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>アルゴリズム ( 一般化とパーティション分割 ) </li></ul><ul><ul><li>階層構造をもとにパーティションに分割 ( P A , P B , P AB と三つのパーティション ) </li></ul></ul><ul><ul><li>条件を満足する場合 (1) を繰り返す ( 各パーティションとも 2 -anonymity ) </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) P A P B P AB -> { A } -> { A } -> { B } -> { B } -> { A, B } -> { A, B } -> { A, B } T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 } ALL A B a 1 a 2 b 1 b 2 一般化階層構造
  8. 8. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>アルゴリズム ( 一般化とパーティション分割 ) </li></ul><ul><ul><li>階層構造をもとにパーティション P A を 分割 ( P a1 , P a2 , P a1a2 と三つのパーティション ) </li></ul></ul><ul><ul><li>条件を満足しないので ロールバック ( 各パーティションとも 1 -anonymity ) </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) P B P AB -> { a 1 } -> { B } -> { B } -> { A, B } -> { A, B } -> { A, B } P a1a2 -> { a 1 , a 2 } P a1 ALL A B a 1 a 2 b 1 b 2 一般化階層構造 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 }
  9. 9. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>アルゴリズム ( 一般化とパーティション分割 ) </li></ul><ul><ul><li>以上の手順を繰り返す </li></ul></ul><ul><ul><li>最終的には下記の様になる </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) P A P b1b2 P a1a2B -> { A } -> { A } -> { b 1 ,b 2 } -> { b 1 ,b 2 } -> { a 1 , a 2 , B } -> { a 1 , a 2 , B } -> { a 1 , a 2 , B } ALL A B a 1 a 2 b 1 b 2 一般化階層構造 T 1 : { a 1 } T 2 : { a 1 , a 2 } T 3 : { b 1 ,b 2 } T 4 : { b 1 , b 2 } T 5 : { a 1 , a 2 , b 2 } T 6 : { a 1 , a 2 , b 2 } T 7 : { a 1 , a 2 , b 1 , b 2 }
  10. 10. Anonymization of Set-Valued Data via Top-Down, Local Generalization ( He and Naughton ) <ul><li>実験 </li></ul><ul><ul><li>データセットとして実トランザクション DB を使用 </li></ul></ul><ul><ul><li>k m -anonymity アルゴリズム (AA) と計算速度を比較 </li></ul></ul><ul><ul><li>k = 10 , m は DB 中最大の集合サイズ </li></ul></ul><ul><li>結果 </li></ul><ul><ul><li>どのデータセットでも 提案手法の方が速い </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) グラフは著者らの スライド より引用
  11. 11. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) <ul><li>プライバシに配慮したネットワーク公開 </li></ul><ul><ul><li>マイニング用にネットワークデータを公開 </li></ul></ul><ul><ul><li>公開前にプライベート情報は取り除く必要がある </li></ul></ul><ul><ul><li>名前などを取り除くだけでは不十分 </li></ul></ul><ul><li>Identity disclosure 問題 </li></ul><ul><ul><li>ある人が公開されたネットワークの どの頂点に対応するか特定される問題 </li></ul></ul><ul><ul><li>部分グラフ攻撃からの漏洩 </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) 唯一 4 本の枝を持つ すなわち Bob Bob の友達は 4 人
  12. 12. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) <ul><li>既存研究の問題点 </li></ul><ul><ul><li>1 種類の攻撃にしか対応していない </li></ul></ul><ul><ul><li>乱数を用いているため解析結果が異なる </li></ul></ul><ul><ul><li>動的な匿名化に対応していない ( 本スライドでは略 ) </li></ul></ul><ul><li>上記問題を解決する K -Automorphism </li></ul><ul><ul><li>すべてのノードに対して 同じ構造のノードが k 個 以上存在することを保証 </li></ul></ul><ul><ul><li>グラフ構造によるノードの特定を防ぐ </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) 2 -Automorphism の例
  13. 13. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) <ul><li>K-Match (KM) アルゴリズム </li></ul><ul><ul><li>k 個のパーティションに分割 </li></ul></ul><ul><ul><li>それぞれのパーティションが同型になるように調整 </li></ul></ul><ul><ul><li>パーティションをまたぐ枝のコピー </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) k=2 の例 手順 1 手順 2 手順 3 本来のグラフ P 12 P 22 P 12 P 22 P 12 P 22
  14. 14. K-Automorphism: A General Framework For Privacy Preserving Network Publication ( Zou , Chen , and Özsu ) <ul><li>実験 </li></ul><ul><ul><li>既存手法と 部分グラフ攻撃 に対する耐性を比較 </li></ul></ul><ul><ul><li>データセットは Prefuse グラフや共著グラフなど </li></ul></ul><ul><ul><li>提案手法の k = 10 とした </li></ul></ul><ul><li>結果 </li></ul><ul><ul><li>攻撃者が持っている情報が 少ない 場合 どの手法も複数の候補が見つかり厳密な特定は困難 </li></ul></ul><ul><ul><li>攻撃者が持っている情報が 多い 場合 既存手法 では 特定 されるが 提案手法 では必ず 候補が 10 以上 で特定は 困難 </li></ul></ul>Session 27 : Privacy II 担当:川本(京大)
  15. 15. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) <ul><li>分布ベースのプライバシモデル </li></ul><ul><ul><li>ある分布に従うようにデータを匿名化 ( l -diversity, t -closeness) </li></ul></ul><ul><ul><li>匿名化後にも集約演算が可能 </li></ul></ul><ul><li>既存研究の問題 </li></ul><ul><ul><li>条件を満足するグループ化が常に可能とは限らない </li></ul></ul><ul><ul><li>出力をコントロールできず 期待していたグループになっているとは限らない </li></ul></ul><ul><li>目的 </li></ul><ul><ul><li>希望する属性値でグループ化 </li></ul></ul><ul><ul><li>秘匿したい属性の属性値を希望の分布に従わせる </li></ul></ul>Session 27 : Privacy II 担当:川本(京大)
  16. 16. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) <ul><li>提案アルゴリズムの動き </li></ul><ul><ul><li>Salary の値をすべて 30 K- 60 K としても 4 -diversity </li></ul></ul><ul><ul><li>ただし情報のロスが大きい </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて 最適な一般化を行う <ul><li>目標 </li></ul><ul><li>Zipcode の一桁目でグループ化 </li></ul><ul><li>Salary が 4 -diversity </li></ul>ID Zipcode Gender Salary 1 91110 F 30K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K 5 52210 F 40K 6 52220 F 40K 7 52240 F 60K 8 52210 M 50K
  17. 17. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) <ul><li>提案アルゴリズムの動き </li></ul><ul><ul><li>始めにグループ化する </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて最適な一般化を行う <ul><li>目標 </li></ul><ul><li>Zipcode の一桁目でグループ化 </li></ul><ul><li>Salary が 4 -diversity </li></ul>ID Zipcode Gender Salary 1 9 1110 F 30K 2 9 1210 M 50K 3 9 1210 M 60K 4 9 1330 F 30K 5 5 2210 F 40K 6 5 2220 F 40K 7 5 2240 F 60K 8 5 2210 M 50K
  18. 18. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) <ul><li>提案アルゴリズムの動き </li></ul><ul><ul><li>始めにグループ化する </li></ul></ul><ul><ul><li>分布をそろえる </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて最適な一般化を行う 30K 40K 50K 60K 30K -40K 50K -60K 30K-60K Salary の階層構造 ID Zipcode Gender Salary 1 9 1110 F 30K 2 9 1210 M 50K 3 9 1210 M 60K 4 9 1330 F 30K 5 5 2210 F 40K 6 5 2220 F 40K 7 5 2240 F 60K 8 5 2210 M 50K ID Zipcode Gender Salary 1 91110 F 30K-40K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K-40K 5 52210 F 30K-40K 6 52220 F 30K-40K 7 52240 F 60K 8 52210 M 50K
  19. 19. <ul><li>提案アルゴリズムの動き </li></ul><ul><ul><li>始めにグループ化する </li></ul></ul><ul><ul><li>分布をそろえる </li></ul></ul><ul><ul><li>順番をランダム化する </li></ul></ul>Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) Session 27 : Privacy II 担当:川本(京大) 階層構造を用いて最適な一般化を行う ID Zipcode Gender Salary 1 91110 F 30K-40K 2 91210 M 50K 3 91210 M 60K 4 91330 F 30K-40K 5 52210 F 30K-40K 6 52220 F 30K-40K 7 52240 F 60K 8 52210 M 50K ID Zipcode Gender Salary 1 91110 F 50K 2 91210 M 30K-40K 3 91210 M 30K-40K 4 91330 F 60K 5 52210 F 60K 6 52220 F 50K 7 52240 F 30K-40K 8 52210 M 30K-40K 30K 40K 50K 60K 30K -40K 50K -60K 30K-60K Salary の階層構造
  20. 20. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) <ul><li>偽のタプルを追加する改良 </li></ul><ul><ul><li>通常の方法だと集約結果に誤差 </li></ul></ul><ul><ul><li>偽タプルを追加することで解決する </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) 通常 偽タプルの追加 ID Zipcode Salary 1 91210 40K 2 91220 30K 3 91220 50K ID Zipcode Salary 1 91210 30K-40K 2 91220 30K-60K 3 91220 50K-60K ID Zipcode Salary 1 91210 40K 2 91220 30K 3 91220 50K 60K
  21. 21. Distribution-based Microdata Anonymization ( Koudas , Srivastava , Yu , Zhang ) <ul><li>実験 </li></ul><ul><ul><li>データセットは UCI Adult Database </li></ul></ul><ul><ul><li>指定した分布と匿名化されたデータの分布を比較 </li></ul></ul>Session 27 : Privacy II 担当:川本(京大) グラフは著者らの スライド より引用

×