安全なデータ公開のために

安全なデータ公開のために
- Statistical Disclosure Control -
Twitter ID @Wakamatz

ものまね鳥をまねる会
 「ものまね鳥をまねる」という論理パズルの本の読書会を主宰し
ている。
 論理パズルを解きながらSKIコンビネータ論理を学ぶ。

１．オープンデータの隆盛
 近年、ビッグデータ活用の合言葉のもとにオー
プンデータがあちこちでなされるようになりま
した。
 データの開示には個人情報漏えいのリスクが伴
います。
 データ開示リスクを防ぐための手法としてSDC
（Statistical Disclosure Control）を紹介します。

２．SDCの対象
microdata：
- 個別の情報（個人、世帯、組織別の情報）
- 対義語：aggregated macrodata（全体の統計情報）

３．データの種類
 Direct Identity:
- 単体で個人、世帯、組織を正確に識別できる情報
- 例）社会保障番号、個人名、会社名、住所など
 Key variables：
- 組み合わせることで個人、世帯、組織を正確に識別できる情報
- 例）性別、年齢、地域、職業など
 Non-identifying variables
- 上記の2つ以外のデータ

４．SDCのトピック
1.開示リスクの計測
k-Anonimity, l-Diversity, etc
2.microdataの匿名化手法
Recoding, Local Suppression, Post-randomization, etc
3.元のデータと修正後のデータの比較

５．開示リスクの計測
開示リスクを評価するためには、評価に直接影響
を与える key variables を適切に選択することが
不可欠である。

５．１．頻度カウント
Key Variablesの組合せについての発生頻度からリ
スクを計算する。
年齢地域性別学歴リスクFk
1 1 2 2 1 0.017 110.0
2 1 2 1 1 0.022 84.5
3 3 3 1 5 0.177 17.0
4 4 3 1 4 0.012 541.0
5 4 3 1 1 0.297 8.0
6 6 2 1 5 0.402 5.0

５．２．k-匿名性（k-Anonimity）
Key Variablesの組合せごとの頻度の最小値
性別人種Fk
1 1 1 3
2 1 1 3
3 1 1 3
4 2 2 2
5 2 2 2
6 2 1 2
7 2 1 2
性別人種Fk
1 1 1 3
2 1 1 3
3 1 1 3
4 2 2 4
5 2 2 4
6 2 2 4
7 2 2 4
3-anonimity 2-anonimity
※ Key Variables の組合せに対する識別リスクを評価する。
k が大きいほど識別リスクが低い。

５．３．l-多様性（l-Diversity）
Key Variablesの組合せごとのsensitive variablesの数
性別人種Sen Fk ldiv
1 1 1 50 3 2
2 1 1 50 3 2
3 1 1 42 3 2
性別人種Sen Fk ldiv
1 2 2 62 2 1
2 2 2 62 2 1
2-diversity 1-diversity
※ Key Variablesの組合せに対する属性のあいまい性を評価する。
l が大きいほど多様性が増すため、属性漏えいの可能性が低い。

５．４．連続値をとるKey Variablesに対する
リスクの計測
・外部データベースとのマッチングにより個人識
別が可能になる可能性がある。
・距離ベースでリスクを計測する。

６．匿名化手法
匿名化手法として、一般的に次の2種類がある。
1.決定的手法
Recoding, Local Suppression, etc
2.確率的手法
Swapping, PRAM

６．１．Recoding
複数のカテゴリーを組み合わせてより情報の少ない
カテゴリーにまとめる。
例）年齢
10代、20代、・・・、70代、80代以上
よく使われるのが上と下でRecodingをすること。
たとえば年齢では、下は20歳未満、上は80代以上

６．２．Local Suppression
k-anonimityを実現するために用いられる。
k-anonimityを達成するために、達成できないグ
ループのデータを隠蔽する

６．３．Post-randomization
Key variablesの各カテゴリー間を一定の確率で移
動させる。
たとえば男と女の間で移動する確率を次のように
する。
男→男：０．８５　男→女：０．１５
女→男：０．２０　女→女：０．８０

６．４．連続値をとるKey Variablesに対す
る
匿名化手法
1. Microaggregation
適当なクラスタリングによりグループ分けしてそれぞれ
のグループ内の平均値でデータを更新する。
2. Adding Noise
2. Shuffling
Num1 Num2 Num3 Mic1 Mic2 Mic3
1 0.30 0.400 4 0.65 0.850 8.5
2 0.12 0.220 22 0.15 0.510 15.0
3 0.18 0.800 8 0.15 0.510 15.0
4 1.90 9.00 91 1.45 1.150 52.5
5 1.00 1.300 13 0.65 0.850 8.5
6 1.00 1.400 14 1.45 1.150 52.5

７．データユーティリティと情報損失の計
測
データ匿名化を適用すると、一般的にデータユー
ティリティが下がり、情報損失が発生する。
匿名化手法を評価するために、データユーティリ
ティと情報損失を計測する。。

７．１．一般的な評価法
1.IL1ｓ
IL1=1/pΣjΣi|xij-xij'|/√2Sj
　ただし、xijは変更前、xij'は変更後のkey
variables、Sj=Σi|xij|

９．参考文献
CRANのSDCの手法を実装したパッケージ
http://cran.r-project.org/web/packages/sdcMicro/
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC)
http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf
東京大学中山裕志　「プライバシー保護データマイニング」
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf
東京大学竹村彰通　「統計的開示抑制について」
http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf

安全なデータ公開のために

Recommended

Recommended

More Related Content

Similar to 安全なデータ公開のために

Similar to 安全なデータ公開のために (8)

安全なデータ公開のために