Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
情報開示におけるプライバシ保護
2014/2/5
理化学研究所情報基盤センター 基礎科学特別研究員 荒井ひろみ	

1
Agenda
} 
} 
} 

プライバシ保護データマイニング
匿名化
出力プライバシ
} 差分プライバシ
} 出版監査
データプライバシとは	
} 

プライバシ権とは	
  
} 

} 

個人が自己に関する情報をコントロールできる権利	
  

技術的な話題でプライバシ保護という場合	
  
} 
} 

他者に渡す情報をある要求を満たすようにコ...
秘密を含むデータ例	
•  個人情報	
  
–  診療履歴	
  
–  SNSの登録情報	
  
–  検索ログ	
  
–  移動履歴	
  
–  ゲノム情報	
  

利活用における期待とリスク	
  
テーラーメイド医療	
  
個...
データ利活用とプライバシのトレードオフ	
•  各情報所有者に分散保持されている情報を共有,利活用したい	

データベース問い合わせ	

データの共同分析	

B社	
C社	

クラウドへの保管,分析の委託	

データの開示	

ユーザーに公開...
データ利活用とプライバシのトレードオフ	
•  一方、秘密情報を含むデータの共有は難しい	
カルテの情報を問
い合わせたいが	
データベース問い合わせ	
研究ターゲットを
知られたくない..	
B社	
C社	

クラウドへの保管,分析の委託	
...
データ利活用とプライバシのトレードオフ	
•  一方、秘密情報を含むデータの共有は難しい	
カルテの情報を問
い合わせたいが	
データベース問い合わせ	
研究ターゲットを
知られたくない..	
秘密検索による
B社	
C社	
クエリの秘匿	

...
秘密分散情報利用のための技術	
秘匿分散計算

mining process	
data owners	
 raw data	

output	

プライバシ保護データ開示(出力プライバシの保護の一種)	

<private>	
<public...
秘密分散情報利用のための技術	
パーティー{p1…pn}が存在し,各パーティーpiが秘密情報 xi	
  を持つ	
  
•  計算過程の安全	
  
各パーティーの持つを秘匿したまま関数 f(x1,…,xn)を評価したい	
  
–  第三者...
Secure Multi-Party Computation	
} (Secure)

Multi-Party Computation(MPC)とは

} 秘密のデータを持つ複数の参加者が,自分のデータを秘匿し

たままそれらを入力とするあ...
SMCの実用例	
•  プラットフォーム	
  
–  Sharemind	
  

•  GWAS/ロケット衝突リスク計算などの実証実験	
  

–  SecureSCM	
  

•  サプライチェーンマネジメント	
  

–  SEP...
• 

プライバシ保護化合物データベース検索	
  
(joint	
  work	
  w/	
  AIST)	
計算量も含めた現実的な秘匿検索プロトコルを提案

–  定式化の工夫 (計算コストを下げ、かつプライバシ保護のために既存の化合物...
情報開示とプライバシ保護	
•  秘密を含むデータ由来の情報の開示(データマイニングの結果
やクエリ応答など)	
  
–  データ保持者はユーザーにとって有益な情報を開示したい	
  
–  開示情報はあるプライバシ保護基準を満たしていてほし...
出力プライバシ保護	
•  出力を用いたプライベート情報の攻撃	
  
•  データxを入力とし,ある関数f(x)が出力されるとする.
攻撃者Aがf(x)を用いてデータベースに推測攻撃を行う.	
  
•  出力プライバシの保護	
  
•  ...
出力プライバシ保護:既存の主要なアプローチ	
アプローチ	
 匿名化
差分プライベート[Dwork06]な
[Sweeny02]etc.	
 ランダムノイズ	

クエリ監査
[Nabar08]	

基準	

出力からの推定
確率が基準以下	

...
プライバシを保護したデータ出版(匿名化)	
•  Microdata(個票)の開示において,プライバシを
保護したい	
  
–  何をどうすればプライバシ保護?	
  
–  プライバシ保護の方法,安全性の保証は?	
  
例:カルテ情報を出...
既存の主な匿名化技術	
「匿名化」とは:テーブルをある匿名化基準を満
たすように改変すること	
  
•  単純匿名化(すみ塗り匿名化)	
  
–  Iden7fierの削除	
  

•  高度匿名化	
  
–  k-­‐匿名	
  
– ...
単純匿名化	
•  明示的な識別情報(氏名など)の削除	
  

<private>	
<public>	

名前を消した
からOK!!	

raw data	
sanitized data	
data
Inference attack	
ow...
単純匿名化データのプライバシ漏洩例	
•  Id墨塗りによるデータ出版におけるプライバシ漏えい	
  
Link attack [Sweeny02]
}  Massachussetts州知事の医療記録が   
医療データ(氏名は排除)と選挙の...
単純匿名化データのプライバシ漏洩例	
•  Id墨塗りによるデータ出版におけるプライバシ漏えい	
  
Link attack [Sweeny02]
}  Massachussetts州知事の医療記録が   
医療データ(氏名は排除)と選挙の...
単純匿名化の脅威	
Link	
  aaackされる要因は何か?	
  
	
  -­‐(明示的な)iden7fierではないと思っていたも
のを突き合わせることで個々のmicrodataがリン
クされてしまう	
  
•  Quasi-­‐id...
K匿名化	
•  k-­‐匿名化:	
  同じquasi-­‐iden7fierを持つレコード
がk個以上存在するようにレコードを一般化/
削除	
  
3匿名	

4匿名	
3匿名	
削除	
 抽象化	
quasi-­‐iden7fier
K匿名化のプライバシ保護の限界	
•  背景知識を考慮していない	
  
•  Sensi7ve情報は保護されていない	
  
–  Homogeneityなどによる(対策としてl多様性など)	
  

3匿名	
女性は胃潰瘍になりにくい
と知...
匿名化の難しさ	
•  Quasi-­‐iden7fierの多いデータだと匿名化が困
難	
  
•  データ件数が多いと匿名化の計算が重くなる	
  
•  何がquasi-­‐iden7fierか?	
  
•  外部知識を用いた攻撃が多岐にわ...
例:ゲノム情報のプライバシの難しさ	
•  識別子であり秘匿情報も含む	
  
•  未だにゲノム情報から引き出せる個人に関する情報が未知数	
  
•  サイズが大きい	
  

識別子を削除/加工し個人の特定を防ぐ	

[Malin05]よ...
出力プライバシ	
•  匿名化の特徴	
  
–  匿名化では守ることのできる情報は限られている	
  
–  データの抽象化とプライバシ保護のトレードオフ
がある	
  

•  これまで,統計値は安全と考えられてきた	
  
•  では,そ...
クエリ応答におけるプライバシ保護方法	
•  ランダム化	
  
–  差分プライバシを満たすノイズなど	
  

•  クエリ監査	
  
–  クエリ応答内容を監査,秘密情報を高い確率で
推測できる応答をするクエリを評価,拒否	
  
– ...
例:集約クエリ応答	
•  集約クエリ	
  
–  実数値DBにおいて,あるレコードサブセットについて
のsum/max/median などの問い合わせ	
  

ある集団につい
ての問い合わせ	
Item	
  
B	

Item	
  
...
プライバシ漏洩例:集約クエリ応答	
•  漏洩がおきうるクエリの例	
  
–  特定の個人に関するクエリ	
  
–  少人数の集団に関するクエリ	
  
–  差分がわずかな2つのクエリ	
  

Item	
  
B	

Item	
  ...
ランダム化によるプライバシ保護	
  
•  単純なノイズはプライバシ保護が困難	
  
–  クエリの繰り返し➡ノイズの確率分布が推定	
  

•  攻撃者が外部知識をもつとさらに攻撃耐性が
低くなる...	
  
•  では,どのようなノ...
差分プライバシの方針	
  
•  レコードが1つ異なるあらゆる2対のデータベースの応答が
ほとんど区別がつかない 	
  
w/	
  
Alice	

w/o	
  
Alice	
似たような応答	

	
  
ある応答Xについて、	
  ...
差分プライバシ(定義)	
「ある出力Dを出す元のDBの確率の比がある基準を満たす」がrandomized	
  
func7on	
  K	
  によって実現される場合のフォーマルな定義	
  

[Dwork06]より	
DB	

Rando...
差分プライバシを実現する関数例:	
  
ラプラスノイズ	
1レコード異なる2つのDBの出力f(x)の最大の差をsensi7vity	
  Δf 
とし,下記のノイズをのせるとε-­‐差分プライバシが達成される	
  
	
  
f (x) +...
ノイズ幅と安全性	
•  センシティビティ:1レコードのによる出力の差の最大値Δf	
  
•  セキュリティパラメータε:小さいほどプライバシが保護され
るが,ノイズは大きい	
  

ノイズの確率分布例、Δf=1,	
  ε=ln2の場合	...
差分プライバシの特徴	
•  ノイズを加えるのでu7lity-­‐privacyトレードオフ
がある	
  
–  できるだけトレードオフを解消したいというのが一
つのトピック	
  

•  連続値出力の場合はセンシティビティを評価
できれば...
まとめ	
•  情報出版の際のプライバシ保護のために,匿名
化,といった方式が存在	
  
•  特定リスクが不確か/高次元,多件数なデータに
ついて匿名化は困難	
  
•  一般的な出版タスクについてのプライバシ保護
は差分プライバシと出版...
Upcoming SlideShare
Loading in …5
×

PPDM解説-short

2,470 views

Published on

PPDM解説-short

  1. 1. 情報開示におけるプライバシ保護 2014/2/5 理化学研究所情報基盤センター 基礎科学特別研究員 荒井ひろみ 1
  2. 2. Agenda }  }  }  プライバシ保護データマイニング 匿名化 出力プライバシ } 差分プライバシ } 出版監査
  3. 3. データプライバシとは }  プライバシ権とは   }  }  個人が自己に関する情報をコントロールできる権利   技術的な話題でプライバシ保護という場合   }  }  他者に渡す情報をある要求を満たすようにコントロールすることを指 すことが多い (個人情報だけでなく企業の知財なども想定)   プライバシ保護の欲求は様々   }  レコードと人物の紐付け不可能性   – 例:ID  xxx  のデータは荒井の検体由来   }  知られたくない(センシティブ)情報の特定不可能性   }  }  例:荒井は疾患xxxを持つ   アクセス権の制御   }  例:荒井の戸籍は許可なく閲覧できない  
  4. 4. 秘密を含むデータ例 •  個人情報   –  診療履歴   –  SNSの登録情報   –  検索ログ   –  移動履歴   –  ゲノム情報   利活用における期待とリスク   テーラーメイド医療   個人に最適化した広告   期待 共同研究による研究費 の削減   など   •  知的財産など   –  研究ノート   –  営利企業の検索ログ   –  企業の取引履歴 個人情報漏洩   差別等の被害   リスク 検索履歴による戦略の 漏洩  
  5. 5. データ利活用とプライバシのトレードオフ •  各情報所有者に分散保持されている情報を共有,利活用したい データベース問い合わせ データの共同分析 B社 C社 クラウドへの保管,分析の委託 データの開示 ユーザーに公開 統計情報
  6. 6. データ利活用とプライバシのトレードオフ •  一方、秘密情報を含むデータの共有は難しい カルテの情報を問 い合わせたいが データベース問い合わせ 研究ターゲットを 知られたくない.. B社 C社 クラウドへの保管,分析の委託 データの管理,分析を 委託したいけれど,   個人情報が含まれて いるから渡せない... SNPと病気の因果関係を 知りたいが   データの共同分析 個人の病歴を他機関に 知られてはいけない.. データの開示 集めたデータから得ら れる知見を開示したい. でも開示内容からの   ウェブサイトで開 個人情報漏洩が心配 統計情報
  7. 7. データ利活用とプライバシのトレードオフ •  一方、秘密情報を含むデータの共有は難しい カルテの情報を問 い合わせたいが データベース問い合わせ 研究ターゲットを 知られたくない.. 秘密検索による B社 C社 クエリの秘匿 SNPと病気の因果関係を 知りたいが   データの共同分析 個人の病歴を他機関に 知られてはいけない.. 秘密計算   /匿名化 プライバシ保護データマイニング技術   (実際には法律、制度、運用と協力)で   クラウドへの保管,分析の委託 データの開示 データを安全に効率よく利用したい   データの管理,分析を 暗号化DB 委託したいけれど,   個人情報が含まれて いるから渡せない... 出力プライバシ保護 集めたデータから得ら れる知見を開示したい. でも開示内容からの   ウェブサイトで開 個人情報漏洩が心配 統計情報
  8. 8. 秘密分散情報利用のための技術 秘匿分散計算 mining process data owners raw data output プライバシ保護データ開示(出力プライバシの保護の一種) <private> <public> data owner raw data sanitized data mining process Inference attack output 出力プライバシの保護 raw data mining process raw output sanitized output Inference attack
  9. 9. 秘密分散情報利用のための技術 パーティー{p1…pn}が存在し,各パーティーpiが秘密情報 xi  を持つ   •  計算過程の安全   各パーティーの持つを秘匿したまま関数 f(x1,…,xn)を評価したい   –  第三者機関の利用   –  Secure  Mul7party  Computa7on   •  秘密情報を含むデータが分散しているとき,これらの秘密を保ったまま,それ らを共有してデータマイニングを行った場合と同じ結果を得るための技術   •  出力情報の安全   関数 f(x1,…,xn)の値から xi   (またはその部分情報)を秘匿したい   –  プライバシ保護データ出版   •  データ公開に際し個々のデータを匿名化する方法   –  出力プライバシ   •  出力から秘密情報の推定を防ぐ方法  
  10. 10. Secure Multi-Party Computation } (Secure) Multi-Party Computation(MPC)とは } 秘密のデータを持つ複数の参加者が,自分のデータを秘匿し たままそれらを入力とするある関数の値だけ得ることができる ようなプロトコル } 達成すべき安全性は暗号学的にはいろいろと種類がありま すが今回は立ち入りません } 実現できること(fが何か) } 一般の関数 or 特定の関数 Alice xA,xBを入力とし f(xA,xB)=(yA,yB)を出力とす るMPC Bob xB xA yA MPC yB
  11. 11. SMCの実用例 •  プラットフォーム   –  Sharemind   •  GWAS/ロケット衝突リスク計算などの実証実験   –  SecureSCM   •  サプライチェーンマネジメント   –  SEPIA   –  MEVAL  (NTT)   –  Fairy  ring  (筑波大)   •  アプリケーション   –  Genodroid(UC  Irvine)   •  個人ゲノムを秘匿した簡単なゲノム検査   –  化合物検索  
  12. 12. •  プライバシ保護化合物データベース検索   (joint  work  w/  AIST) 計算量も含めた現実的な秘匿検索プロトコルを提案 –  定式化の工夫 (計算コストを下げ、かつプライバシ保護のために既存の化合物検索を 個数のカウント問題に書き換える) –  加法準同型暗号のみで目的の計算を達成する方式の提案 •  商用アプリケーションの数少ない例 –  化合物検索としては世界初 クエリー 暗号化 送信 暗号化状態の検索結 果を受信後,復号化 a80511de ab252354 c1f04cc1d 1a194 送信 b96c0546a 202207f5c 834d44de 7ad1 ・・・   暗号文の状 態で類似検 索 詳しくは...    荒井ら 検索行動におけるプライバシ保護 第26回人工知能学会全国大会    縫田ら 加法準同型暗号を用いた化合物データベースの秘匿検索プロトコル コンピュータセキュリティシ ンポジウム 2012  (CSS2012)  など  
  13. 13. 情報開示とプライバシ保護 •  秘密を含むデータ由来の情報の開示(データマイニングの結果 やクエリ応答など)   –  データ保持者はユーザーにとって有益な情報を開示したい   –  開示情報はあるプライバシ保護基準を満たしていてほしい   トレードオフをできるだけ解消したい   Recall:出力プライバシの保護 raw data mining process raw output sanitized output Inference attack
  14. 14. 出力プライバシ保護 •  出力を用いたプライベート情報の攻撃   •  データxを入力とし,ある関数f(x)が出力されるとする. 攻撃者Aがf(x)を用いてデータベースに推測攻撃を行う.   •  出力プライバシの保護   •  f(x)にプライバシ保護処理を施したf’(x)を出力   •  ある事前知識を持つ攻撃者Aに対して,何らかの基 準   •  レコードの匿名性 など   推測攻撃を防ぐ例 A record A'r  A A'r  B A'r  C … 1 0 1 … B 0 1 1 … … A f’(x) プライベートな情報 はわからない
  15. 15. 出力プライバシ保護:既存の主要なアプローチ アプローチ 匿名化 差分プライベート[Dwork06]な [Sweeny02]etc. ランダムノイズ クエリ監査 [Nabar08] 基準 出力からの推定 確率が基準以下 匿名性/センシ ノイズをのせるメカニズムが  ティブ情報保護 差分プライバシを満たす 対応する データテーブル 統計量,データテーブル,   出力形式 PCAやItem  set  miningなど 集約クエリ   SQLクエリ 出力抑制 操作 一般化,削除 Exponen7al   mechanism[Mcsherry06]に   従うランダムノイズ 利点 ノイズが入らな い データ内容によらず操作可能   ノイズが入らない (ドメインとクエリ形式を使用)   連続値の場合計算量が小さい 弱点 高次元データ に対する有用 性の低下   計算量大 ノイズによる不正確な応答   離散値の場合,計算量   入力データの性質による安全 性低下の問題(NFL定理) 対応可能な問題 が少ない   頻繁な抑制
  16. 16. プライバシを保護したデータ出版(匿名化) •  Microdata(個票)の開示において,プライバシを 保護したい   –  何をどうすればプライバシ保護?   –  プライバシ保護の方法,安全性の保証は?   例:カルテ情報を出版するようなときに   DBは「誰がどの病気か」は知られたくない   ユーザーは患者についてDMしたい.   例えば「性別,年齢と病気の関連」等   <private> <public> raw data sanitized data data Inference attack owner
  17. 17. 既存の主な匿名化技術 「匿名化」とは:テーブルをある匿名化基準を満 たすように改変すること   •  単純匿名化(すみ塗り匿名化)   –  Iden7fierの削除   •  高度匿名化   –  k-­‐匿名   –  l多様性 ...などなど   •  特徴   –  推定攻撃に弱い  
  18. 18. 単純匿名化 •  明示的な識別情報(氏名など)の削除   <private> <public> 名前を消した からOK!! raw data sanitized data data Inference attack owner
  19. 19. 単純匿名化データのプライバシ漏洩例 •  Id墨塗りによるデータ出版におけるプライバシ漏えい   Link attack [Sweeny02] }  Massachussetts州知事の医療記録が    医療データ(氏名は排除)と選挙の投票者 名簿から特定可能 }  両者の共有属性をつきあわせると   知事の医療記録が一意に特定  }  1990年のthe US 1990 census dataによれば87% の人が (zipcode, 性別, 生年月日)によって一意特定可能 }    高梨さん   心臓病だ..
  20. 20. 単純匿名化データのプライバシ漏洩例 •  Id墨塗りによるデータ出版におけるプライバシ漏えい   Link attack [Sweeny02] }  Massachussetts州知事の医療記録が    医療データ(氏名は排除)と選挙の投票者 す 人に関    名簿から特定可能 よって個 り,    に NSなど なってお S }  両者の共有属性をつきあわせると   測 会では rchableに 的な推 化社 情報 知事の医療記録が一意に特定 積極 くがsea る」など ている  の多 す る情報 }  1990年のthe US 1990 census dataによれば87% の人が とリンク になってき 情報 の生年月日)によって一意特定可能  「他 (zipcode, 性別, んどん強力 撃がど 攻   }  高梨さん   心臓病だ..
  21. 21. 単純匿名化の脅威 Link  aaackされる要因は何か?    -­‐(明示的な)iden7fierではないと思っていたも のを突き合わせることで個々のmicrodataがリン クされてしまう   •  Quasi-­‐iden7fier:複数の組み合わせによって iden7fierとして機能する情報   •  何がQuasi-­‐iden7fierか,link  aaackを防ぐ匿名 化を行うにはどうしたらよいか?  
  22. 22. K匿名化 •  k-­‐匿名化:  同じquasi-­‐iden7fierを持つレコード がk個以上存在するようにレコードを一般化/ 削除   3匿名 4匿名 3匿名 削除 抽象化 quasi-­‐iden7fier
  23. 23. K匿名化のプライバシ保護の限界 •  背景知識を考慮していない   •  Sensi7ve情報は保護されていない   –  Homogeneityなどによる(対策としてl多様性など)   3匿名 女性は胃潰瘍になりにくい と知られているとすると,   4匿名 2匿名に近い 3匿名 削除 抽象化 結局40代関東の人は糖尿 業だとばれてしまう
  24. 24. 匿名化の難しさ •  Quasi-­‐iden7fierの多いデータだと匿名化が困 難   •  データ件数が多いと匿名化の計算が重くなる   •  何がquasi-­‐iden7fierか?   •  外部知識を用いた攻撃が多岐にわたる
  25. 25. 例:ゲノム情報のプライバシの難しさ •  識別子であり秘匿情報も含む   •  未だにゲノム情報から引き出せる個人に関する情報が未知数   •  サイズが大きい   識別子を削除/加工し個人の特定を防ぐ [Malin05]より ゲノム情報からquasi-­‐ iden7fierとなりうる身体的/ 社会的特徴を推定   ➡   De-­‐iden7fica7onが   可能?  
  26. 26. 出力プライバシ •  匿名化の特徴   –  匿名化では守ることのできる情報は限られている   –  データの抽象化とプライバシ保護のトレードオフ がある   •  これまで,統計値は安全と考えられてきた   •  では,そもそもある程度処理したデータ(統計 値など)の出版は安全だろうか?どうやったら 安全に扱えるだろうか?
  27. 27. クエリ応答におけるプライバシ保護方法 •  ランダム化   –  差分プライバシを満たすノイズなど   •  クエリ監査   –  クエリ応答内容を監査,秘密情報を高い確率で 推測できる応答をするクエリを評価,拒否   –  拒否から情報が漏洩することも   クエリ監査   さっき20代の購入 する洗剤を答えた から拒否 Decide  respond  or  refuse queries 20代女性の購入する 洗剤は? 顧客 a b c w/  Yoko 42 3 89
  28. 28. 例:集約クエリ応答 •  集約クエリ   –  実数値DBにおいて,あるレコードサブセットについて のsum/max/median などの問い合わせ   ある集団につい ての問い合わせ Item   B Item   C … A 1 0 1 … B 0 1 1 … … 顧客 Item   A 20代の購入す る商品は? 統計量を開示 顧客 a b c 20代 女 3 89 42
  29. 29. プライバシ漏洩例:集約クエリ応答 •  漏洩がおきうるクエリの例   –  特定の個人に関するクエリ   –  少人数の集団に関するクエリ   –  差分がわずかな2つのクエリ   Item   B Item   C … A 1 0 1 … B 0 1 1 … … 顧客 Item   A ある集団につい ての問い合わせ 20代男性はBさんだけ だからBさんはaとcを 買ったんだな... 20代の購 入する商 品は? 20代女性 の購入する 商品は? 顧客 統計量を開示 a b c Group  20 42 3 89 Group  20  w/o  B 41 3 88
  30. 30. ランダム化によるプライバシ保護   •  単純なノイズはプライバシ保護が困難   –  クエリの繰り返し➡ノイズの確率分布が推定   •  攻撃者が外部知識をもつとさらに攻撃耐性が 低くなる...   •  では,どのようなノイズをのせればよいか?   –  最近のトレンドは”差分プライバシ”  
  31. 31. 差分プライバシの方針   •  レコードが1つ異なるあらゆる2対のデータベースの応答が ほとんど区別がつかない    w/   Alice w/o   Alice 似たような応答   ある応答Xについて、      DB  w/Alice がXを出力する確率と   DB  w/o  Alice がXを出力する確率の     確率の比がある基準を満たす     ➡データを登録してもよい気にさせる   ➡データを受け取った人が何を学んだかは気にしていない    
  32. 32. 差分プライバシ(定義) 「ある出力Dを出す元のDBの確率の比がある基準を満たす」がrandomized   func7on  K  によって実現される場合のフォーマルな定義   [Dwork06]より DB Randomized  func7on … D  (w/  Alice) output S Κ(D)  ∈S … Κ(D)  ∈S D’  (w/o  Alice) / Κ(D)  ∈S ほぼ同じ確率   (比でバウンド)
  33. 33. 差分プライバシを実現する関数例:   ラプラスノイズ 1レコード異なる2つのDBの出力f(x)の最大の差をsensi7vity  Δf  とし,下記のノイズをのせるとε-­‐差分プライバシが達成される     f (x) +Y,Y ~ (Lap(Δf / ε )) (一般にはexponen7al  mechanism[Mcsherry07]で実現)   ノイズの確率分布例、Δf=1,  ε=ln2の場合    f(x)=101 の場合     f(x)=100の場合 のDB出力の   確率分布   D  (w/  Alice) at  most      7mes D’  (w/o  Alice)
  34. 34. ノイズ幅と安全性 •  センシティビティ:1レコードのによる出力の差の最大値Δf   •  セキュリティパラメータε:小さいほどプライバシが保護され るが,ノイズは大きい   ノイズの確率分布例、Δf=1,  ε=ln2の場合    f(x)=101 の場合     f(x)=100の場合 のDB出力の   確率分布   D  (w/  Alice) at  most      7mes D’  (w/o  Alice)
  35. 35. 差分プライバシの特徴 •  ノイズを加えるのでu7lity-­‐privacyトレードオフ がある   –  できるだけトレードオフを解消したいというのが一 つのトピック   •  連続値出力の場合はセンシティビティを評価 できれば処理が楽(ラプラスノイズをのせるだ け)   •  離散の場合はランダム化の計算量が多くなる 場合も.  
  36. 36. まとめ •  情報出版の際のプライバシ保護のために,匿名 化,といった方式が存在   •  特定リスクが不確か/高次元,多件数なデータに ついて匿名化は困難   •  一般的な出版タスクについてのプライバシ保護 は差分プライバシと出版監査が主   •  差分プライバシは強力な手法だがノイズをのせ る必要がある   •  出版監査はリスク評価はできるがプライバシ保 護方式が確立していない  

×