Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

差分プライベート最小二乗密度比推定

2,171 views

Published on

2016年6月6日に人工知能学会大会で発表する予定です。個人情報を含むデータベースからデータマイニングするときプライバシー漏洩の危険があるので、それを防ぐ方法です。構造が同じの別のデータベースをもってきて、これが元のデータベースと類似の性質を持つように重み付けを学習します(最小二乗密度比推定:杉山先生のチームが提案したものです)。その上で重み付け関数を基底関数の線形和で表わし、その関数あるいは線形和に重みに差分プライバシーで雑音加算します。この結果にSVMを適用して分類器を作ったところ、UCIAdultデータベースで差分プライバシーを適用しない場合と遜色ない正解率を得ることができました。

Published in: Data & Analytics

差分プライベート最小二乗密度比推定

  1. 1. 差分プライベート 最小二乗密度比推定 中川裕志 高林裕太、荒井ひろみ 東京大学 2016/6/4 人工知能学会大会
  2. 2. データマイニング+プライバシー保護 データマイニングD
  3. 3. データマイニング+プライバシー保護 データマイニング データマイニングの結果が似た ような結果を得るにはEはDに似 たものでないといけない D そこで、Dを直接使わず、公開さ れたデータベースEを使えばよ いが E
  4. 4. 密度比推定 E pE(x) D pD(x) w(x)の推定法がキモ
  5. 5. 最小二乗密度比推定: uLSIF
  6. 6. ところが世の中そう甘くない • 最小二乗密度比推定で、Dに似たEに変換し てしまったので、Dのプライバシーもまだ漏洩 する可能性あり。 • そこで、差分プライバシーを使って解決を図 る! – 差分プライバシーは大雑把に雑音加算と考えて おけばよいでしょう
  7. 7. 差分プライバシー:DPと略記
  8. 8. で、本題に戻りましょう。 密度比推定にDPを適用
  9. 9. 方法1:基底関数の重みαに雑音加算 
  10. 10. Sensitivityを求めるプロセス
  11. 11. 方法2:基底関数自体にも雑音加算
  12. 12. n個のデータ点からなるデータベース D からラン ダムにb個の点を選択してガウスカーネル関数の中 心点として用いる。
  13. 13. サンプリング率b/nとεの関係 • b個のガウシアンカーネル関数をDからランダムにサン プリングする。 • カーネル関数の中心 にε-差分プライバシー( ε-D P)を実現するためにLap(ε)から生成した雑音を加算 • 定理 Sample Rate – 元のデータベースで質問fがε’-DPを満たすなら、 サンプリング率b/nでサンプリングしたデータベースは ε-DPを 満たす。ただし、 • つまり、サンプリング率が低くなると、εが小さくなり守り が強い。よって、同じプライバシー強度を実現するため に加算する雑音は小さくてすむ  データマイニング 精度向上  b llC 1     nb 1exp 1exp    
  14. 14. 実験 • UCI Machine Learning Repository の Adultデータセットを用い た • 男性90%、女性10%を非公開データベースD • データ数=19320 • 残りを公開データベースE • データ数=10842 • データベース全体に主成分分析PCAを作用し、第k主成分ま で利用 • 差分プライバシーのε=1.0 • Dの収入属性値≥$15Kを判定する分類器をSVMで学習
  15. 15. 次元数 k 元データにPCAを適用 し、15次元くらい使うと、 提案手法DPuLSIFは 元データDあるいは最 小 二 乗 密 度 比 推 定 uLSIFと変わらない分 類精度を出した。 正 解 率 公開データ ベース E • 横軸kはDにPCAを作用させ、実際に使ったデータの次元数 • 縦軸は正解率 • Dは元データ、Eは公開データ、uLSIFは雑音加算なし • DPuLSIFが提案手法
  16. 16. 次元数 k 正 解 率 公開データ ベース E 1. 定理 Sample Rate により k ↑  加算する雑音も↑  データマイニングの精度低下 2. k ↓  使う情報 ↓  データマイニングの精度低下 3. よって、最適なkがあるはず  k=10~20がよさそう。
  17. 17. まとめ • プライバシー保護したい元データと異なる公 開データを使って学習 • 公開データは最小二乗密度比推定で元デー タに近い性質とする • 推定結果の基底関数の値とガウシアンカー ネルの中心に差分プライバシーで雑音加 – (差分プライバシー) • 分類問題では差分プライバシーをしても正答 率は元データに近かった

×