Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1 
パーソナルゲノムと 
プライバシー保護 
データマイニング技術 
2014/10/3 
東京大学情報基盤センター 
理化学研究所 
荒井ひろみ 
パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
Agenda 
• パーソナルゲノムのプライバシ 
• パーソナルゲノム情報利用におけるプラ 
イベート情報漏洩 
• プライバシ保護技術とゲノムプライバシ 
保護の試み 
• プライバシ保護技術の普及,利用に向け 
て 
2 パーソナルゲノム...
パーソナルゲノムの 
プライバシ 
3 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
What is genomic privacy? 
ゲノムには個人を識別する情報や個人の 
sensitive情報がエンコードされている 
Sensitive情報 
遺伝病因子 
疾患リスク 
人種 
家系 
さまざまな形質 
(Quasi-)...
ゲノムのプライバシ保護の難しさ 
識別子とsensitive informationと利用したい 
情報を同時に含む 
例:SNPsによる疾患リスク評価/個人照合 
Personal SNP 
DBとの照合ゲノム検査 
Pattern of p...
パーソナルゲノム情報利用に 
おけるプライベート情報漏洩 
6 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
パーソナルゲノムの共有 
For research, business, social networking, … 
データの共同分析 
匿名化テーブル/統計量等の開示 
解析結果 
データ共有とアクセスコントロールデータベース問い合わせ型情報...
典型的なデータ共有 
• 個人データの共有 
– 匿名化医療データの共有など 
• 統計データ等の2次情報の開示 
– 研究論文や成果公表DB 
• 複数のデータを入力とするデータ分析 
– 病院と研究機関が連携したデータ解析 
– データベー...
情報開示/共有における漏洩 
情報を得た人がプライベート情報を推定 
成果公開genome DB 
・・・ 
・ 
統計処理等 
問い合わせ 
DB responses 
元データの個人ゲノム 
情報を推定 
9 パーソナルゲノムとプライバシー...
例:研究論文からの推定 
GWASの成果からターゲット人物のゲノムが 
GWASに用いられたかを推定[Homer 06] 
GWAS study 成果公開 
Caseに含まれるか? 
統計処理を行ったデータから個人情報が漏 
れないとは限らない...
例:開示情報からの推定 
Jim Watsonのゲノムを当時知られ 
ていたAlzheimerリスク因子APOE 
部分を削除し公開 
周辺のSNPsとAPOEのリスクSNPの 
連鎖(r2>0.6)が発見 
Alzheimerリスクを評価[N...
例:類似検索からの推定 
類似検索クエリの複数問い合わせにおいて 
類似度の情報のみから元の配列が推定される 
可能性[Goodrich 09] 
Bob : querer 
Queries {Vi} 
Alice : DB 
genetic ...
例:外部情報を利用した攻撃 
Surname inference from Y-chromosome 
[Gymrek 2013] 
Y染色体は父から息子に必ず継承される 
➡おおよそ姓と同じように継承される 
家系-haplotypeの関連デ...
マーカーが合致する 
姓を検索 
Dr,Yaniv Erlich の講演より 
14 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
SNS等による情報収集.公開 
• phenotypeつきの家系図をSNS(Geni.com) 
とY-STRなどの情報から作成(ASGH2013) 
• OpenSNP などの公開レポジトリ 
• Exogen などのデータ収集企業 
• 2...
一般人参加型ゲノムプロジェクト 
Exogen:DNAの損傷度合いのデータを収集 
16 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
その他のプライバシリスク 
• システム利用者による漏洩 
– PGPのDBにユーザーがupした圧縮ファイルに 
うっかりidentifierが入っていた(現在は警告 
済) 
• DBのIDのランダム化に失敗 
– 公開マイクロデータに振られ...
攻撃の大まかな分類 
プライバシ保護が不十分なデータを攻撃 
単純匿名化,統計値など 
ゲノム情報の特徴を利用 
連鎖不均衡 
外部情報の利用 
遺伝と家系図 
高度な推定 
一見難解な問題を解くアルゴリズム 
18 パーソナルゲノムとプライバ...
プライバシ保護技術と 
ゲノム情報保護の試み 
19 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
プライバシ保護データマイニング 
Output Privacy 
raw data mining process raw output sanitized output 
Inference attack 
ある基準以上の攻撃は不可能にしたい ...
プライバシを守るには? 
ある能力の攻撃者を想定し,攻撃者に対し 
ある基準で情報が守られると保証する 
APOE 
ゲノムの知識は 
全くない... 
周辺との連鎖を 
知っている 
いくつかのケースでプライバシ保護を検討する 
21 パーソ...
匿名化は安全か? 
単純匿名化 
氏名などの明示的識別情報(identiier)の削除 
連番氏名性別年齢病歴 
1 田村孝之男21 皮膚炎 
2 高梨栞菜女24 心臓病 
3 大貫秀雄男27 糖尿病 
4 石沢雅保男31 胃潰瘍 
5 落合正...
単純匿名化は安全ではない 
Link attack [Sweeny02] 
単純匿名医療データ 
と選挙の投票者名をつ 
きあわせるとある個人 
の医療記録が一意に特 
定 
高梨さん 
心臓病だ.. 
連番氏名性別年齢住所登録年月日 
1 田...
Quasi-identifiers 
複数の組み合わせで 
identifierとなる情報 
SAFE HARBOR では,匿名化は, 
法によって決められている18 
の個人認識項目(名前、住所、 
出生日などの(quasi- 
)ident...
高度匿名化 
K匿名化ー同じquasi-identifierを持つレコード 
がk個以上存在するようにレコードを一般化/ 
削除 
連番氏名性別年齢住所病歴 
1 田村孝之男21 東京都皮膚炎 
2 高梨栞菜女24 東京都心臓病 
3 大貫秀雄...
K匿名化の限界 
背景知識を用いた攻撃ゲノムの場合はLD等 
Sensitive情報への推測攻撃対策はl多様性など 
レコードの情報が落ちてしまう 
連番氏名性別年齢住所病歴 
1 田村孝之男2x 関東皮膚炎 
2 高梨栞菜女2x 関東心臓病 ...
二次情報のプライバシ 
集約情報も外部情報や複数回の 
データ開示によって情報が漏洩 
する可能性 
顧客Item 
A 
Item 
B 
Item 
C 
… 
A 1 0 1 … 
B 0 1 1 … 
… 
20代男性はBさんだけ 
だ...
二次情報のプライバシ保護(1) 
適当にノイズをのせる 
➡安全性を保証できない 
差分プライバシ[Dwork 06]の導入 
レコードが1つ異なるあらゆる2対のデータベース 
の応答がほとんど区別がつかないようなノイズを 
のせる 
w/ 
...
差分プライバシを実現するには 
1レコード異なる2つのDBの出力f(x)の最大の差をsensitivity 
Δf とし,下記のノイズをのせるとε-差分プライバシが達 
成される 
f (x)+Y,Y ~ (Lap(Df /e )) 
(一般に...
二次情報のプライバシ保護(2) 
二次情報開示のリスク評価 
クエリ監査[Nabar 08] 
– クエリ応答(=ある出版タスク)の内容を監 
査,秘密情報を高い確率で推測できる応答を 
するクエリを評価,拒否 
– 拒否から情報が漏洩すること...
二次情報のプライバシ保護の課題 
プライバシ保護とユーティリティーのト 
レードオフ 
差分プライバシ等:データにノイズがのる 
クエリ監査:開示情報が限定される 
データを再利用する度プライバシ保護が難 
しくなることに注意 
31 パーソナ...
Multi Party Computation (MPC) 
データを持つ複数の参加者が,自分のデータを秘 
匿したままそれらを入力とするある関数の値だけ 
得ることができるようなプロトコル 
xA,xBを入力とし 
何らかのデータ利用 
f(...
MPCのアプローチ(1) 
暗号プロトコル 
目的のデータ処理タスクに応じて暗号文の操作, 
やり取りのみで演算を達成するプロトコルの作 
成 
ビルディングブロック:準同型性公開鍵暗号 
等 
加法または乗法について準同型(暗号文のま 
ま平...
MPCのアプローチ(2) 
秘密分散法 
秘密分散法のアプローチ:データを複数個に分 
割し,それぞれを異なるパーティーに渡す(分 
散)ことで秘密にする 
分散データを用いて基礎的な演算及びその組み 
合わせを可能にする 
– (n,k)-閾...
例:プライバシ保護遺伝子検査 
秘密鍵を持っていないので 
盗聴しても何もわからない... 
GenoDroid[De Cristofaro 
2012]など 
暗号化ゲノム情報 
..5478297342.. 
秘密計算で 
遺伝子検査暗号化...
例:プライバシ保護化合物DB検索 
検索者の問い合わせ内容および化合物DBの 
中身を秘匿したマッチングを可能に 
クエリー 
暗号化 
送信 
a80511dea 
b252354c1 
f04cc1d1a 
194 
・・・ 
送信 
b9...
例:秘匿GWAS 
秘密分散ベースのフレームワークsharemind 
を用いGWASタスクの一部を実現 
[Kamm 2013]等 
ID ゲノム情報 
1 ..GATTACA.. 
2 ..GATAACA.. 
3 ..GGATACA.. ...
MPCの課題 
計算コストが高くなりがち 
暗号化による計算時間やデータ量の増大 
可能な演算が制限 
出力プライバシは保証していない 
ゲノム情報の分析に使うには? 
➡ 暗号部分の演算を少なく/単純に 
38 パーソナルゲノムとプライバシー...
プライバシ保護の利点 
プライバシ保護技術を使うと情報漏洩リス 
クが低下する 
同意,SAFE HARBORなどの協定のためには 
プライバシ保護が有利/必要 
➡利用できる情報が増えると期待 
39 パーソナルゲノムとプライバシー保護データ...
プライバシ保護技術の普及、 
利用に向けて 
40 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
ゲノム情報利用の難しさ 
個人 
研究機関/事業者 
個人 
データ 
二次情報の開示 
二次 
分析情報 
公共 
にリスク 
公開 
ゲノム情報 
医療情報 
健康情報 
? 
ゲノム検査 
結果等 
匿名 
加工データ 
研究者 
(事業...
プライバシ保護における課題 
総てのリスクをなくすことは不可能(特に 
データの相関を考えた場合).データ利用と 
のトレードオフをどう取るか?そのために 
ユーザーに教育を行うのはどうか? 
(KDD2014 Panel “Does Soci...
ゲノム情報利用における課題 
ゲノム情報利用におけるリスクの認識 
システム設計/プライバシ保護/同意に必要 
日々強くなる攻撃者にどう対応する? 
情報共有時のプライバシ保護方法の確立 
利用者の納得するユーティリティとプライバシ 
保護のト...
技術普及への取り組み 
欧米を中心とした研究活動 
セキュリティ,生命情報,医療情報,倫理 
学術分野の盛り上がり 
AAAS2014にて匿名化,プライバシのセッション 
GenoPri2014 (workshop w/ PETS2014) 
...
おわりに 
ゲノム情報の利用,共有にはプライバシ漏 
洩のリスクが存在する 
プライバシ保護技術利用によりリスクを減 
らすことができる 
ゲノムデータを用いた学術,ビジネスが競 
争力を持つためのアシストとなるよう期待 
45 パーソナルゲノ...
参考文献 
[Angrist2013] Misha Angrist. Genetic privacy needs a more nuanced approach. 
Nature, 494:7,2013. 
[De Cristofaro et ...
参考文献 
[Gymrek et al.2013] Melissa Gymrek, Amy L McGuire, David Golan, Eran 
Halperin, and Yaniv Erlich. Identifying person...
参考文献 
[Goodlich 2009] Goodrich, M.T., The Mastermind Attack on Genomic Data, 
Security and Privacy, 2009 30th IEEE Symposi...
Upcoming SlideShare
Loading in …5
×

Hiromi arai jsbi personalgenome

3,403 views

Published on

  • Be the first to comment

Hiromi arai jsbi personalgenome

  1. 1. 1 パーソナルゲノムと プライバシー保護 データマイニング技術 2014/10/3 東京大学情報基盤センター 理化学研究所 荒井ひろみ パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  2. 2. Agenda • パーソナルゲノムのプライバシ • パーソナルゲノム情報利用におけるプラ イベート情報漏洩 • プライバシ保護技術とゲノムプライバシ 保護の試み • プライバシ保護技術の普及,利用に向け て 2 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  3. 3. パーソナルゲノムの プライバシ 3 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  4. 4. What is genomic privacy? ゲノムには個人を識別する情報や個人の sensitive情報がエンコードされている Sensitive情報 遺伝病因子 疾患リスク 人種 家系 さまざまな形質 (Quasi-)Identifiers 社会的な情報と結び つく情報 linkable linkable 目や髪の色等の形質 人種 ゲノム自身の多様性 個人 4 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  5. 5. ゲノムのプライバシ保護の難しさ 識別子とsensitive informationと利用したい 情報を同時に含む 例:SNPsによる疾患リスク評価/個人照合 Personal SNP DBとの照合ゲノム検査 Pattern of personal SNPs 潜在的なリスクが存在 血縁者間で共有されている 5 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  6. 6. パーソナルゲノム情報利用に おけるプライベート情報漏洩 6 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  7. 7. パーソナルゲノムの共有 For research, business, social networking, … データの共同分析 匿名化テーブル/統計量等の開示 解析結果 データ共有とアクセスコントロールデータベース問い合わせ型情報開示 7 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  8. 8. 典型的なデータ共有 • 個人データの共有 – 匿名化医療データの共有など • 統計データ等の2次情報の開示 – 研究論文や成果公表DB • 複数のデータを入力とするデータ分析 – 病院と研究機関が連携したデータ解析 – データベース問い合わせ(DBと質問者) – ゲノム情報を用いた遺伝子診断(ゲノム情報所 有者と医師) 8 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  9. 9. 情報開示/共有における漏洩 情報を得た人がプライベート情報を推定 成果公開genome DB ・・・ ・ 統計処理等 問い合わせ DB responses 元データの個人ゲノム 情報を推定 9 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  10. 10. 例:研究論文からの推定 GWASの成果からターゲット人物のゲノムが GWASに用いられたかを推定[Homer 06] GWAS study 成果公開 Caseに含まれるか? 統計処理を行ったデータから個人情報が漏 れないとは限らない! 10 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  11. 11. 例:開示情報からの推定 Jim Watsonのゲノムを当時知られ ていたAlzheimerリスク因子APOE 部分を削除し公開 周辺のSNPsとAPOEのリスクSNPの 連鎖(r2>0.6)が発見 Alzheimerリスクを評価[Nyholt 09] 公開データの周辺領域を削除 APOE APOE部分は非公開 APOE 周辺領域と連鎖 APOE 周辺領域から APOEを推定 11 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  12. 12. 例:類似検索からの推定 類似検索クエリの複数問い合わせにおいて 類似度の情報のみから元の配列が推定される 可能性[Goodrich 09] Bob : querer Queries {Vi} Alice : DB genetic string Q V1, V2, … Similarity scores Between Q and V1, V2, … 差分からQを推定 12 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  13. 13. 例:外部情報を利用した攻撃 Surname inference from Y-chromosome [Gymrek 2013] Y染色体は父から息子に必ず継承される ➡おおよそ姓と同じように継承される 家系-haplotypeの関連データから,haplotype から祖先を推定する方法を構築 13 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  14. 14. マーカーが合致する 姓を検索 Dr,Yaniv Erlich の講演より 14 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  15. 15. SNS等による情報収集.公開 • phenotypeつきの家系図をSNS(Geni.com) とY-STRなどの情報から作成(ASGH2013) • OpenSNP などの公開レポジトリ • Exogen などのデータ収集企業 • 23andMe, Sophia geneticsなどのゲノム検査 サービス ➡実名と結びついたゲノムや家系情報の収 集が進行,今後利用されうる 15 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  16. 16. 一般人参加型ゲノムプロジェクト Exogen:DNAの損傷度合いのデータを収集 16 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  17. 17. その他のプライバシリスク • システム利用者による漏洩 – PGPのDBにユーザーがupした圧縮ファイルに うっかりidentifierが入っていた(現在は警告 済) • DBのIDのランダム化に失敗 – 公開マイクロデータに振られた疑似IDが元の DBの特徴を保持[Kaufman 2011] • ゲノム以外の分子生物学的個人情報 – ExpressionからSNPを推定[Shadt 2012] 17 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  18. 18. 攻撃の大まかな分類 プライバシ保護が不十分なデータを攻撃 単純匿名化,統計値など ゲノム情報の特徴を利用 連鎖不均衡 外部情報の利用 遺伝と家系図 高度な推定 一見難解な問題を解くアルゴリズム 18 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  19. 19. プライバシ保護技術と ゲノム情報保護の試み 19 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  20. 20. プライバシ保護データマイニング Output Privacy raw data mining process raw output sanitized output Inference attack ある基準以上の攻撃は不可能にしたい MultiPartyComputation raw data mining process output data owners Dataを開示せずに目的の演算結果を得たい 20 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  21. 21. プライバシを守るには? ある能力の攻撃者を想定し,攻撃者に対し ある基準で情報が守られると保証する APOE ゲノムの知識は 全くない... 周辺との連鎖を 知っている いくつかのケースでプライバシ保護を検討する 21 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  22. 22. 匿名化は安全か? 単純匿名化 氏名などの明示的識別情報(identiier)の削除 連番氏名性別年齢病歴 1 田村孝之男21 皮膚炎 2 高梨栞菜女24 心臓病 3 大貫秀雄男27 糖尿病 4 石沢雅保男31 胃潰瘍 5 落合正三郎男24 胃潰瘍 6 高松正浩男38 糖尿病 7 浅井華蓮女38 心臓病 8 佐竹翼男42 糖尿病 9 金田直樹男43 糖尿病 10 永田満里奈女47 糖尿病 <private> <public> 連番氏名性別年齢病歴 1 田村孝之男21 皮膚炎 2 高梨栞菜女24 心臓病 3 大貫秀雄男27 糖尿病 4 石沢雅保男31 胃潰瘍 5 落合正三郎男24 胃潰瘍 6 高松正浩男38 糖尿病 7 浅井華蓮女38 心臓病 8 佐竹翼男42 糖尿病 9 金田直樹男43 糖尿病 10 永田満里奈女47 糖尿病 data raw data sanitized data owner 名前を消したInference attack からOK!! 22 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  23. 23. 単純匿名化は安全ではない Link attack [Sweeny02] 単純匿名医療データ と選挙の投票者名をつ きあわせるとある個人 の医療記録が一意に特 定 高梨さん 心臓病だ.. 連番氏名性別年齢住所登録年月日 1 田村孝之男21 東京都H25 2 高梨栞菜女24 東京都H23 3 大貫秀雄男27 埼玉県H23 4 石沢雅保男31 東京都H22 5 落合正三郎男24 千葉県H25 6 高松正浩男38 埼玉県H24 7 浅井華蓮女38 東京都H25 8 佐竹翼男42 東京都H25 連番氏名性別年齢住所病歴 1 田村孝之男21 東京都皮膚炎 2 高梨栞菜女24 東京都心臓病 3 大貫秀雄男27 埼玉県糖尿病 4 石沢雅保男31 東京都胃潰瘍 5 落合正三郎男24 千葉県胃潰瘍 6 高松正浩男38 埼玉県糖尿病 7 浅井華蓮女38 東京都心臓病 8 佐竹翼男42 東京都糖尿病 23 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  24. 24. Quasi-identifiers 複数の組み合わせで identifierとなる情報 SAFE HARBOR では,匿名化は, 法によって決められている18 の個人認識項目(名前、住所、 出生日などの(quasi- )identifier)の除去が欲求され ている 連番氏名性別年齢住所病歴 1 田村孝之男21 東京都皮膚炎 2 高梨栞菜女24 東京都心臓病 3 大貫秀雄男27 埼玉県糖尿病 4 石沢雅保男31 東京都胃潰瘍 5 落合正三郎男32 千葉県胃潰瘍 6 高松正浩男38 埼玉県糖尿病 7 浅井華蓮女38 東京都心臓病 8 佐竹翼男42 東京都糖尿病 9 金田直樹男43 埼玉県糖尿病 10 永田満里奈女47 千葉県糖尿病 quasi-identifier 24 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  25. 25. 高度匿名化 K匿名化ー同じquasi-identifierを持つレコード がk個以上存在するようにレコードを一般化/ 削除 連番氏名性別年齢住所病歴 1 田村孝之男21 東京都皮膚炎 2 高梨栞菜女24 東京都心臓病 3 大貫秀雄男27 埼玉県糖尿病 4 石沢雅保男31 東京都胃潰瘍 5 落合正三郎男32 千葉県胃潰瘍 6 高松正浩男38 埼玉県糖尿病 7 浅井華蓮女38 東京都心臓病 8 佐竹翼男42 東京都糖尿病 9 金田直樹男43 埼玉県糖尿病 10 永田満里奈女47 千葉県糖尿病 連番氏名性別年齢住所病歴 1 田村孝之男2x 関東皮膚炎 2 高梨栞菜女2x 関東心臓病 3 大貫秀雄男2x 関東糖尿病 4 石沢雅保男3x 関東胃潰瘍 5 落合正三郎男3x 関東胃潰瘍 6 高松正浩男3x 関東糖尿病 7 浅井華蓮女3x 関東心臓病 8 佐竹翼男4x 関東糖尿病 9 金田直樹男4x 関東糖尿病 10 永田満里奈女4x 関東糖尿病 quasi-identifier 削除抽象化 3匿名 4匿名 3匿名 25 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  26. 26. K匿名化の限界 背景知識を用いた攻撃ゲノムの場合はLD等 Sensitive情報への推測攻撃対策はl多様性など レコードの情報が落ちてしまう 連番氏名性別年齢住所病歴 1 田村孝之男2x 関東皮膚炎 2 高梨栞菜女2x 関東心臓病 3 大貫秀雄男2x 関東糖尿病 4 石沢雅保男3x 関東胃潰瘍 5 落合正三郎男3x 関東胃潰瘍 6 高松正浩男3x 関東糖尿病 7 浅井華蓮女3x 関東心臓病 8 佐竹翼男4x 関東糖尿病 9 金田直樹男4x 関東糖尿病 10 永田満里奈女4x 関東糖尿病 削除抽象化 3匿名 4匿名 3匿名 女性は胃潰瘍になりにくい と知られているとすると, 2匿名に近い 結局40代関東の人は糖尿 業だとばれてしまう 26 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  27. 27. 二次情報のプライバシ 集約情報も外部情報や複数回の データ開示によって情報が漏洩 する可能性 顧客Item A Item B Item C … A 1 0 1 … B 0 1 1 … … 20代男性はBさんだけ だからBさんはaとcを 買ったんだな... 20代の購 入する商 品は? 20代女性 の購入する 商品は? 顧客a b c Group 20 42 3 89 Group 20 w/o B 41 3 88 ある集団につい ての問い合わせ 統計量を開示 27 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  28. 28. 二次情報のプライバシ保護(1) 適当にノイズをのせる ➡安全性を保証できない 差分プライバシ[Dwork 06]の導入 レコードが1つ異なるあらゆる2対のデータベース の応答がほとんど区別がつかないようなノイズを のせる w/ Alice w/o Alice 似たような応答 28 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  29. 29. 差分プライバシを実現するには 1レコード異なる2つのDBの出力f(x)の最大の差をsensitivity Δf とし,下記のノイズをのせるとε-差分プライバシが達 成される f (x)+Y,Y ~ (Lap(Df /e )) (一般にはexponential mechanism[Mcsherry 07]で実現) ノイズの確率分布例、Δf=1, ε=ln2の場合 f(x)=101 の場合 at most times f(x)=100の場合 のDB出力の 確率分布 D (w/ Alice) D’ (w/o Alice) 29 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  30. 30. 二次情報のプライバシ保護(2) 二次情報開示のリスク評価 クエリ監査[Nabar 08] – クエリ応答(=ある出版タスク)の内容を監 査,秘密情報を高い確率で推測できる応答を するクエリを評価,拒否 – 拒否から情報が漏洩することも さっき20代の購入 する洗剤を答えた から拒否 Decide respond or refuse queries 20代女性の購入する 洗剤は? 顧客a b c w/ Yoko 42 3 89 30 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  31. 31. 二次情報のプライバシ保護の課題 プライバシ保護とユーティリティーのト レードオフ 差分プライバシ等:データにノイズがのる クエリ監査:開示情報が限定される データを再利用する度プライバシ保護が難 しくなることに注意 31 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  32. 32. Multi Party Computation (MPC) データを持つ複数の参加者が,自分のデータを秘 匿したままそれらを入力とするある関数の値だけ 得ることができるようなプロトコル xA,xBを入力とし 何らかのデータ利用 f(xA,xB)=(yA,yB)を出力とす るMPC の際に共有する情報 Alice Bob を減らせる! MPC xA xB yA yB 32 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  33. 33. MPCのアプローチ(1) 暗号プロトコル 目的のデータ処理タスクに応じて暗号文の操作, やり取りのみで演算を達成するプロトコルの作 成 ビルディングブロック:準同型性公開鍵暗号 等 加法または乗法について準同型(暗号文のま ま平文の加算や乗算が可能) 33 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  34. 34. MPCのアプローチ(2) 秘密分散法 秘密分散法のアプローチ:データを複数個に分 割し,それぞれを異なるパーティーに渡す(分 散)ことで秘密にする 分散データを用いて基礎的な演算及びその組み 合わせを可能にする – (n,k)-閾値法n個のデータを分散,そのうちk個以上 集めると復元可能 – 実現可能な演算:足し算,掛け算など 34 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  35. 35. 例:プライバシ保護遺伝子検査 秘密鍵を持っていないので 盗聴しても何もわからない... GenoDroid[De Cristofaro 2012]など 暗号化ゲノム情報 ..5478297342.. 秘密計算で 遺伝子検査暗号化 検査結果 ゲノム情報 ..GATTACA.. 検査結果 暗号化 復号 公開鍵秘密鍵 遺伝子検査 アルゴリズム ユーザー 暗号文のままの加算が可能 例: paillier暗号の場合 “5”の暗号文* “3”の暗号文 → “8”の暗号文 35 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  36. 36. 例:プライバシ保護化合物DB検索 検索者の問い合わせ内容および化合物DBの 中身を秘匿したマッチングを可能に クエリー 暗号化 送信 a80511dea b252354c1 f04cc1d1a 194 ・・・ 送信 b96c0546a 202207f5c 834d44de7 ad1 暗号化状態の検索結 果を受信後,復号化 暗号文の状 態で類似検 索 詳しくは... 荒井ら検索行動におけるプライバシ保護第26回人工知能学会全国大会 縫田ら加法準同型暗号を用いた化合物データベースの秘匿検索プロトコルコンピュータセキュリティシ ンポジウム2012 (CSS2012) など 36 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  37. 37. 例:秘匿GWAS 秘密分散ベースのフレームワークsharemind を用いGWASタスクの一部を実現 [Kamm 2013]等 ID ゲノム情報 1 ..GATTACA.. 2 ..GATAACA.. 3 ..GGATACA.. ゲノムDB 無情報な乱数に ID 暗号化ゲノム情報 1 ..5478297342.. 2 ..3545628904.. 3 秘..08密42分894散578ゲ.. ノム DB(1) 秘密分散ゲノム DB(2) 秘密分散ゲノム DB(5) 暗号化 秘密計算 分析アルゴリズム をリクエスト) 分析結果だけ 返します ゲノムDB 複数のDBが 参加できる 37 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  38. 38. MPCの課題 計算コストが高くなりがち 暗号化による計算時間やデータ量の増大 可能な演算が制限 出力プライバシは保証していない ゲノム情報の分析に使うには? ➡ 暗号部分の演算を少なく/単純に 38 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  39. 39. プライバシ保護の利点 プライバシ保護技術を使うと情報漏洩リス クが低下する 同意,SAFE HARBORなどの協定のためには プライバシ保護が有利/必要 ➡利用できる情報が増えると期待 39 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  40. 40. プライバシ保護技術の普及、 利用に向けて 40 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  41. 41. ゲノム情報利用の難しさ 個人 研究機関/事業者 個人 データ 二次情報の開示 二次 分析情報 公共 にリスク 公開 ゲノム情報 医療情報 健康情報 ? ゲノム検査 結果等 匿名 加工データ 研究者 (事業者?) 利用申請 守秘義務 開示 知りたくない かもしれない医療に関する 遺伝情報 ? 遺伝情報に 基づいた 診断 医療機関 個人データの 推定を防ぎたい (何を防ぎたい?) 推定攻撃を補助する 外部知識: SNS等から収集した 個人情報 41 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  42. 42. プライバシ保護における課題 総てのリスクをなくすことは不可能(特に データの相関を考えた場合).データ利用と のトレードオフをどう取るか?そのために ユーザーに教育を行うのはどうか? (KDD2014 Panel “Does Social Good Justify Risking Personal Privacy?”) 法律,倫理,技術等多様な分野の各国の研 究者が話し合って行く必要がある (GenoPri2014 Panel) 42 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  43. 43. ゲノム情報利用における課題 ゲノム情報利用におけるリスクの認識 システム設計/プライバシ保護/同意に必要 日々強くなる攻撃者にどう対応する? 情報共有時のプライバシ保護方法の確立 利用者の納得するユーティリティとプライバシ 保護のトレードオフを達成できるか 標準化などの制度整備 43 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  44. 44. 技術普及への取り組み 欧米を中心とした研究活動 セキュリティ,生命情報,医療情報,倫理 学術分野の盛り上がり AAAS2014にて匿名化,プライバシのセッション GenoPri2014 (workshop w/ PETS2014) KDD2015 system designの提案 iDASH(UCSD) いくつかの記事/コンセプトペーパー データの有用性を考えれば保護は不要?[Angrist 2013] 何らかのプライバシ保護の工夫が必要/有用.秘密計算や 差分プライバシなどの活用の提言[Greenbaum 2011,Erlich 2013] 44 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  45. 45. おわりに ゲノム情報の利用,共有にはプライバシ漏 洩のリスクが存在する プライバシ保護技術利用によりリスクを減 らすことができる ゲノムデータを用いた学術,ビジネスが競 争力を持つためのアシストとなるよう期待 45 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  46. 46. 参考文献 [Angrist2013] Misha Angrist. Genetic privacy needs a more nuanced approach. Nature, 494:7,2013. [De Cristofaro et al.2012] Emiliano De Cristofaro, Sky Faber, Paolo Gasti, and Gene Tsudik. Genodroid: are privacy-preserving genomic tests ready for prime time? In Proceedings of the 2012 ACM workshop on Privacy in the electronic society, pages 97–108. ACM, 2012. [Dwork et al.2006] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. Theory of Cryptography, pages 265–284, 2006. [Erlich and Narayanan2013] Yaniv Erlich and Arvind Narayanan. Routes for breaching and protecting genetic privacy. arXiv preprint arXiv:1310.3197, 2013. [Greenbaum et al.2011] Dov Greenbaum, Andrea Sboner, Xinmeng Jasmine Mu, and Mark Gerstein. Genomics and privacy: implications of the new reality of closed data for the field. PLoS computational biology, 7(12), 2011. 46 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  47. 47. 参考文献 [Gymrek et al.2013] Melissa Gymrek, Amy L McGuire, David Golan, Eran Halperin, and Yaniv Erlich. Identifying personal genomes by surname inference. Science, 339(6117):321–324, 2013.[ Homer et al.2008] Nils Homer, Szabolcs Szelinger, Margot Redman, David Duggan, Waibhav Tembe, Jill Muehling, John V Pearson, Dietrich A Stephan, Stanley F Nelson, and David W Craig. Resolving individuals contributing trace amounts of dna to highly complex mixtures using high-density snp genotyping microarrays. PLoS genetics, 4(8):e1000167, 2008. [Kamm et al.2013] Liina Kamm, Dan Bogdanov, Sven Laur, and Jaak Vilo. A new way to protect privacy in large-scale genome-wide association studies. Bioinformatics, 29(7):886–893, 2013. [Nabar et al.2008] S.U. Nabar, K. Kenthapadi, N. Mishra, and R. Motwani. A survey of query auditing techniques for data privacy. Privacy-Preserving Data Mining, pages 415–431, 2008. 47 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014
  48. 48. 参考文献 [Goodlich 2009] Goodrich, M.T., The Mastermind Attack on Genomic Data, Security and Privacy, 2009 30th IEEE Symposium on , vol., no., pp.204,218, 17- 20 May 2009 [Nyholt et al.2009] DR Nyholt, CE Yu, and PM Visscher. On jim watson’s apoe status: genetic information is hard to hide. European journal of human genetics: EJHG, 17(2):147–149, 2009. [Schadt et al.2012] Eric E Schadt, SangsoonWoo, and Ke Hao. Bayesian method to predict individual snp genotypes from gene expression data. Nature genetics, 44(5):603–608, 2012. [Sweeney2002] L. Sweeney. Achieving k-anonymity privacy protection using generalization and suppression. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 10(5):571–588, 2002. 48 パーソナルゲノムとプライバシー保護データマイニング技術荒井ひろみ@ IIBMP2014

×