9. microdataのプライバシー
microdataの属性
explicit identifiers は削除
quasi identifiers (QI=擬ID)は個人特定に利用可能
sensitive attributes は sensitive 情報を持つ
identifier quasi identifiers sensitive
Name Birthdate Sex Zipcode Disease
Andre 21/1/79 male 53715 Flu
Beth 10/1/81 female 55410 Hepatitis
Carol 1/10/44 female 90210 Brochitis
Dan 21/2/84 male 02174 Sprained
Ankle
Ellen 19/4/72 female 02237 AIDS
プライバシー保護の目標は、個人をsensitive
情報から特定できないようにすること
11. k-匿名性 の例
匿名化手法
一般化
例えば、対象分野のデータは抽象度によって階層化されているなら、
上の階層のデータを公開
抑圧
特異性のあるデータ項目は削除
original microdata 2-anonymous data
Birthdate Sex Zipcode Birthdate Sex Zipcode
21/1/79 male 53715 */1/79 person 5****
group 1
10/1/79 female 55410 */1/79 person 5****
1/10/44 female 90210 suppressed 1/10/44 female 90210
21/2/83 male 02274 */*/8* male 022**
group 2
19/4/82 male 02237 */*/8* male 022**
12. k-匿名性の問題点
k-匿名性 の例
Homogeneityによる攻撃: 最終グループは全員 cancer
背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知
られていると。。。
microdata 4-anonymous data
∗
id Zipcode Sex National. Disease id Zipcode Sex National. Disease
∗
1 13053 28 Russian Heart Disease 1 130** <30 Heart Disease
∗
2 13068 29 American Heart Disease 2 130** <30 Heart Disease
∗
3 13068 21 Japanese Viral Infection 3 130** <30 Viral Infection
∗
4 13053 23 American Viral Infection 4 130** <30 Viral Infection
∗
5 14853 50 Indian Cancer 5 1485* ≥40 Cancer
∗
6 14853 55 Russian Heart Disease 6 1485* ≥40 Heart Disease
∗
7 14850 47 American Viral Infection 7 1485* ≥40 Viral Infection
∗
8 14850 49 American Viral Infection 8 1485* ≥40 Viral Infection
∗
9 13053 31 American Cancer 9 130** 3∗ Cancer
∗
10 13053 37 Indian Cancer 10 130** 3∗ Cancer
∗
11 13068 36 Japanese Cancer 11 130** 3∗ Cancer
12 13068 35 American Cancer 12 130** 3∗ Cancer
14. t-closeness
l-多様性があっても、ある属性がaの確率99%,bの確率
1%というように偏りが激しいと、プライバシーは危険
2つのグループ(上記a属性のグループとb属性のグルー
プ)は、sensitive データの分布における距離と、全属性
の分布における距離が t 以下であるとき、 t-closeness
である。
上記の分布間の距離としては、属性を各次元としてにお
いてEarth Mover’s distance(EMD)を用いる
P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ), dij = distance between pi and q j : given
fij = flow bewteen pi and q:
j
fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD
m m
EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij
m m
f ij
pi − ∑ j =1 fij + ∑ j =1 f ji = qi
m m
s.t. fij ≥ 0 1 ≤ i ≤ m,1 ≤ j ≤ m ,
∑ ∑ f = ∑i =1 pi = ∑i =1 qi = 1
m m m m
14 i =1 j =1 ij
16. k-anonymity, l-diversity, t-closenessの
参考文献
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain
k-Anonymity. SIGMOD, 2005.
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k-
Anonymity. ICDE, 2006.
• Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE
TKDE, 13(6):1010-1027, 2001.
• Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International
Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
• Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using
Generalization and Suppression. International Journal on Uncertainty,
Fuzziness and Knowledge-based Systems, 2002.
• Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy
Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.
16