[DLHacks]Privacy-preserving generative deep neural networks support clinical data sharing

Privacy-preserving generative deep
neural networks support clinical data
sharing
Brett K. Beaulieu-Jones, Zhiwei Steven Wu, Chris Williams,
James Brian Byrd, Casey S. Greene
2018/6/10
DL Hacks研究タスク発表
古賀樹

目次
• 論文紹介
• 実装紹介
• 評価
• まとめ

書誌情報
• 著者
• Brett K. Beaulieu-Jones (UPenn, Medicine)
• Zhiwei Steven Wu (UPenn, Engineering and
Applied Sciences)
• Chris Williams (UPenn, Medicine)
• James Brian Byrd (Michigan, Medicine)
• Casey S. Greene (UPenn, Medicine)
• Preprint ( https://www.biorxiv.org/content/early/
2018/06/05/159756 )

書誌情報
• Ian Goodfellow が Twitterで言及

要点
• GAN (Generative Adversarial Network) を用いて個人が
特定できない医療データを生成することに成功した。
これにより医療データシェアが促進される。
• データ生成に伴うプライバシーリスクを差分プライバシー
により定量化した。

医療データ
• 臨床データ (病院での検査結果等)
• 欠損値の多い時系列データ
• 画像データ
• ゲノムデータ

医療データのシェア
• 個人と紐づく医療データは一般公開されない
• 従来の匿名化手法では不十分 (k匿名化など)
• プライバシー / データの質
• データシェアのためには同意書、倫理審査が必要
• 医療データを題材にしたコンペも開催され始める 
(ex: SPRINT Data Analysis Challenge)
GANを用いて個人情報を含まないデータを生成

GAN (AC-GAN)
• Conditional Image
Synthesis With Auxiliary
Classiﬁer GANs (ICML
2017) 
https://arxiv.org/abs/
1610.09585
• 通常のGANにClassの情報
を付与する

GAN (AC-GAN)
• Discriminator:
• Generator:
max LS + LC
min LC − LS

差分プライバシー (定義)
* Neighboring dataset: あるデータセットと1要素のみ異なるデータセット
が小さいほど、プライバシーは保護されている✏, δ

差分プライバシー (気持ち)
https://www.slideshare.net/kentarominami39/ss-64088396

GANと差分プライバシーとの橋渡し
• 勾配のL2ノルムでclip
• clipの閾値の大きさに比例し
た分散を持つ正規分布のノ
イズを勾配に加える
Deep Learning with Differential Privacy
Martin Abdi et al.
Differential Private SGD Algorithm

GANと差分プライバシーとの橋渡し
• 従来の手法(strong composition thorem)よりもタイトな上限を
得た
• 実装には確率分布のモーメント( )を用いた定理を利用
Deep Learning with Differential Privacy
Martin Abdi et al.
The Moments Accountant
λ 5 32

評価
• データの分布が似ている
• データの代表値を比較
• データ内での相関係数を比較
• 医者が生成データを不自然だと思わない
• 医者による真偽判定テスト
• 機械学習の学習データとして使用できる
• 機械学習タスクの性能を比較
• 十分なプライバシー保護がなされているか
• 差分プライバシー

学習データ
• SPRINT Clinical Trail Data
• 患者の収縮期血圧、拡張期血圧、薬の処方回数 
を12計測分(3ヶ月毎) (3 x 12)
• 患者の治療グループ
• Intensive treatment group
• Standard treatment group
• データ数: 6502 (train: 6000, test: 502)

実装紹介
• ipynbファイルで紹介

評価 (再掲)
• データの分布が似ている
• データの代表値を比較
• データ内での相関係数を比較
• 医者が生成データを不自然だと思わない
• 医者による真偽判定テスト
• 機械学習の学習データとして使用できる
• 機械学習タスクの性能を比較
• 十分なプライバシー保護がなされているか
• 差分プライバシー

(注) Multi-epoch Model (top10)
• 1-500 epochの全てのGeneratorのモデルを保存しておく
• それぞれのGeneratorの生成データでLogistic Regression
とRandom Forestのスコア(treatment groupの分類)が良
い、top5のepochをそれぞれについて算出
• この時ラプラスメソッドを用いて、(0.5,0)-dpとなる 
(top5の算出のために生データに触るためプライバシー保
護を考慮)

データの代表値
Paper 再現実験
Multi-epochが最も良い

データ内での相関係数
Paper 再現実験
ある程度傾向が同じである 
少々ノイズあり

医者による真偽判定テスト
Paper 再現実験
医者に頼めず
臨床医に本物に見えるかどうかを0-10点で評価

機械学習タスクの性能
Paper 再現実験
Paper: ほぼ同等なスコア
再現実験: Logistic Regression以外は同等のスコア

機械学習モデルへの変数の貢献度
Paper 再現実験
貢献度は生成方法や真偽によってあまり変わらない

差分プライバシー
Paper 再現実験
Multi-epoch Modelの算出の際と合わせて
(2.5, 10−5
) − dp を達成

まと
• GAN (Generative Adversarial Network) を用いて個人が
特定できない医療データを生成することに成功した。
これにより医療データシェアが促進される。
• データ生成に伴うプライバシーリスクを差分プライバシー
により定量化した。 
　　　　　　　　を達成。(2.5, 10−5
) − dp

[DLHacks]Privacy-preserving generative deep neural networks support clinical data sharing

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (10)

[DLHacks]Privacy-preserving generative deep neural networks support clinical data sharing