SlideShare a Scribd company logo
安全なデータ公開のために 
- Statistical Disclosure Control - 
Twitter ID @Wakamatz
ものまね鳥をまねる会 
 「ものまね鳥をまねる」という論理パズルの本の読書会を主宰し 
ている。 
 論理パズルを解きながらSKIコンビネータ論理を学ぶ。
1.オープンデータの隆盛 
 近年、ビッグデータ活用の合言葉のもとにオー 
プンデータがあちこちでなされるようになりま 
した。 
 データの開示には個人情報漏えいのリスクが伴 
います。 
 データ開示リスクを防ぐための手法としてSDC 
(Statistical Disclosure Control)を紹介します。
2.SDCの対象 
microdata: 
- 個別の情報(個人、世帯、組織別の情報) 
- 対義語:aggregated macrodata(全体の統計情報)
3.データの種類 
 Direct Identity: 
- 単体で個人、世帯、組織を正確に識別できる情報 
- 例)社会保障番号、個人名、会社名、住所など 
 Key variables: 
- 組み合わせることで個人、世帯、組織を正確に識別できる情報 
- 例)性別、年齢、地域、職業など 
 Non-identifying variables 
- 上記の2つ以外のデータ
4.SDCのトピック 
1.開示リスクの計測 
k-Anonimity, l-Diversity, etc 
2.microdataの匿名化手法 
Recoding, Local Suppression, Post-randomization, etc 
3.元のデータと修正後のデータの比較
5.開示リスクの計測 
開示リスクを評価するためには、評価に直接影響 
を与える key variables を適切に選択することが 
不可欠である。
5.1.頻度カウント 
Key Variablesの組合せについての発生頻度からリ 
スクを計算する。 
年齢地域性別学歴リスクFk 
1 1 2 2 1 0.017 110.0 
2 1 2 1 1 0.022 84.5 
3 3 3 1 5 0.177 17.0 
4 4 3 1 4 0.012 541.0 
5 4 3 1 1 0.297 8.0 
6 6 2 1 5 0.402 5.0
5.2.k-匿名性(k-Anonimity) 
Key Variablesの組合せごとの頻度の最小値 
性別人種Fk 
1 1 1 3 
2 1 1 3 
3 1 1 3 
4 2 2 2 
5 2 2 2 
6 2 1 2 
7 2 1 2 
性別人種Fk 
1 1 1 3 
2 1 1 3 
3 1 1 3 
4 2 2 4 
5 2 2 4 
6 2 2 4 
7 2 2 4 
3-anonimity 2-anonimity 
※ Key Variables の組合せに対する識別リスクを評価する。 
k が大きいほど識別リスクが低い。
5.3.l-多様性(l-Diversity) 
Key Variablesの組合せごとのsensitive variablesの数 
性別人種Sen Fk ldiv 
1 1 1 50 3 2 
2 1 1 50 3 2 
3 1 1 42 3 2 
性別人種Sen Fk ldiv 
1 2 2 62 2 1 
2 2 2 62 2 1 
2-diversity 1-diversity 
※ Key Variablesの組合せに対する属性のあいまい性を評価する。 
l が大きいほど多様性が増すため、属性漏えいの可能性が低い。
5.4.連続値をとるKey Variablesに対する 
リスクの計測 
・外部データベースとのマッチングにより個人識 
別が可能になる可能性がある。 
・距離ベースでリスクを計測する。
6.匿名化手法 
匿名化手法として、一般的に次の2種類がある。 
1.決定的手法 
Recoding, Local Suppression, etc 
2.確率的手法 
Swapping, PRAM
6.1.Recoding 
複数のカテゴリーを組み合わせてより情報の少ない 
カテゴリーにまとめる。 
例)年齢 
10代、20代、・・・、70代、80代以上 
よく使われるのが上と下でRecodingをすること。 
たとえば年齢では、下は20歳未満、上は80代以上
6.2.Local Suppression 
k-anonimityを実現するために用いられる。 
k-anonimityを達成するために、達成できないグ 
ループのデータを隠蔽する
6.3.Post-randomization 
Key variablesの各カテゴリー間を一定の確率で移 
動させる。 
たとえば男と女の間で移動する確率を次のように 
する。 
男→男:0.85 男→女:0.15 
女→男:0.20 女→女:0.80
6.4.連続値をとるKey Variablesに対す 
る 
匿名化手法 
1. Microaggregation 
適当なクラスタリングによりグループ分けしてそれぞれ 
のグループ内の平均値でデータを更新する。 
2. Adding Noise 
2. Shuffling 
Num1 Num2 Num3 Mic1 Mic2 Mic3 
1 0.30 0.400 4 0.65 0.850 8.5 
2 0.12 0.220 22 0.15 0.510 15.0 
3 0.18 0.800 8 0.15 0.510 15.0 
4 1.90 9.00 91 1.45 1.150 52.5 
5 1.00 1.300 13 0.65 0.850 8.5 
6 1.00 1.400 14 1.45 1.150 52.5
7.データユーティリティと情報損失の計 
測 
データ匿名化を適用すると、一般的にデータユー 
ティリティが下がり、情報損失が発生する。 
匿名化手法を評価するために、データユーティリ 
ティと情報損失を計測する。。
7.1.一般的な評価法 
1.IL1s 
IL1=1/pΣjΣi|xij-xij'|/√2Sj 
 ただし、xijは変更前、xij'は変更後のkey 
variables、Sj=Σi|xij|
8.ワークフロー
9.参考文献 
CRANのSDCの手法を実装したパッケージ 
http://cran.r-project.org/web/packages/sdcMicro/ 
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC) 
http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf 
東京大学 中山 裕志 「プライバシー保護データマイニング」 
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf 
東京大学 竹村 彰通 「統計的開示抑制について」 
http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf

More Related Content

Similar to 安全なデータ公開のために

学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
 
最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策
itforum-roundtable
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
 
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシープライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
Hiroshi Nakagawa
 
情報セキュリティの概要
情報セキュリティの概要情報セキュリティの概要
情報セキュリティの概要
Tokai University
 
6 1security3
6 1security36 1security3
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
Eiji Sasahara, Ph.D., MBA 笹原英司
 
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシーUEHARA, Tetsutaro
 

Similar to 安全なデータ公開のために (8)

学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
 
最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
 
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシープライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
 
情報セキュリティの概要
情報セキュリティの概要情報セキュリティの概要
情報セキュリティの概要
 
6 1security3
6 1security36 1security3
6 1security3
 
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
 
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
 

安全なデータ公開のために