Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

マイニング探検会#07

2,377 views

Published on

Published in: Technology
  • Be the first to comment

マイニング探検会#07

  1. 1. 2010年10月22日 @東京大学アントレプレナープラザ会議室 プライバシー保護データマイニング (PPDM): データマイニング研究の 最前線 東京大学情報基盤センター 学術情報研究部門 特任講師/ 株式会社リッテル 最高技術責任者 清田 陽司
  2. 2. データマイニングの現況 • データ蓄積のコストが劇的に低下している – 常時接続はいまや当たり前 – 1TBytesのハードディスクは1万円以下 • コンピューター資源が容易に入手可能 – 市販のPCでもそこそこできたりする – パブリッククラウドも使える • ツールも整備されてきた – オープンソースソフトでもできる (R、GETAssoc、…)
  3. 3. 課題 • 使いやすい形で蓄積するのは簡単ではない – ハードディスクの肥やしでは意味がない – 商用データウェアハウスは超高価 • そんなに簡単に有用な結果は出ない – 大量の試行錯誤必須 • プライバシー保護とどうやって両立する? – トレードオフ問題
  4. 4. そもそも、プライバシー保護って? • 個人情報保護法 (2005年制定) – 個人情報=個人を特定可能な情報 • 氏名、性別、生年月日、住所、電話番号、職業、年収、 家族構成、IPアドレス、メールアドレス… – 「個人情報保護の有益性に配慮しつつ、個人の 権利利益を保護」 • 業界ごとの倫理規程 – cf. 図書館の自由に関する宣言 • プライバシー≠個人情報 – 利用履歴、検索キーワード、メールの内容などは プライバシーに該当
  5. 5. ちょっとした疑問 • 定性的な議論は多くなされている – ○○という情報は公開すべきか否か? • 定量的な議論があまりなされていない? – 「データの有益性」と「個人の権利利益保護」のト レードオフならば、両者の比較のために定量化は 不可欠では? – 飛行機や薬品のリスクも定量的に議論されている • 「個人情報を公開しない」は「プライバシー保 護」の十分条件ではない
  6. 6. link attack の例 • Massachussetts州知事の医療記録が公開情報から特 定可能 – MA では、収集した医療データを サニタイズして公開して いる 左円内 – 一方、選挙の投票者名簿は公開 右円内 • 両者をつきあわせると • 6 人が知事と同じ生年月日 うち3 人が男 うち1 人が同じzipcode • 1990年の the US 1990 census dataによれば – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
  7. 7. プライバシー保護データマイニング (PPDM) • 2002~2006年頃から導入された概念 • キーワード – k-匿名性(k-anonymity) – l -多様性(l-diversity) – t-closeness
  8. 8. 動機 • 複数の組織がプライシーに係わるクリティカルなデー タ を持ち、場合によっては公開している – microdata (vs. aggregated macrodata) と呼ばれる詳細 データが解析やマイニングに利用される状況である。(米 国では公開は法令で義務化 ) • microdata の保護のため sanitized(不要部分の削除な ど) – 例えば、explicit identifiers (Social Security Number, 氏名, 電話番号) の削除 • しかし、それで十分か? • 否! link attacksの脅威 – 公開データからプライバシー情報を推測できる可能性あ り
  9. 9. microdataのプライバシー  microdataの属性  explicit identifiers は削除  quasi identifiers (QI=擬ID)は個人特定に利用可能  sensitive attributes は sensitive 情報を持つ identifier quasi identifiers sensitive Name Birthdate Sex Zipcode Disease Andre 21/1/79 male 53715 Flu Beth 10/1/81 female 55410 Hepatitis Carol 1/10/44 female 90210 Brochitis Dan 21/2/84 male 02174 Sprained Ankle Ellen 19/4/72 female 02237 AIDS プライバシー保護の目標は、個人をsensitive 情報から特定できないようにすること
  10. 10. k-匿名性(k-anonymity)  k-匿名性によるプライバシー保護, Sweeney and Samarati [S01, S02a, S02b]  k-匿名性: 個人を他のk-1 人に紛れさせる  つまり、 公開された microdata においては、Quasi Identifier:QI の値 が同一の個人は少なくともk 人存在することを保証  よって、link attackでも個人特定の確率は 1/k  実現方法  一般化 and 抑圧  当面はデータの値の perturbation(摂動)は考えない。摂動は、後に差 分プライバシーのところで活用されることになる  プライバシーとデータマイニングにおける有用性のトレードオフ  必要以上に匿名化しない
  11. 11. k-匿名性 の例 匿名化手法  一般化  例えば、対象分野のデータは抽象度によって階層化されているなら、 上の階層のデータを公開  抑圧  特異性のあるデータ項目は削除 original microdata 2-anonymous data Birthdate Sex Zipcode Birthdate Sex Zipcode 21/1/79 male 53715 */1/79 person 5**** group 1 10/1/79 female 55410 */1/79 person 5**** 1/10/44 female 90210 suppressed 1/10/44 female 90210 21/2/83 male 02274 */*/8* male 022** group 2 19/4/82 male 02237 */*/8* male 022**
  12. 12. k-匿名性の問題点  k-匿名性 の例  Homogeneityによる攻撃: 最終グループは全員 cancer  背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知 られていると。。。 microdata 4-anonymous data ∗ id Zipcode Sex National. Disease id Zipcode Sex National. Disease ∗ 1 13053 28 Russian Heart Disease 1 130** <30 Heart Disease ∗ 2 13068 29 American Heart Disease 2 130** <30 Heart Disease ∗ 3 13068 21 Japanese Viral Infection 3 130** <30 Viral Infection ∗ 4 13053 23 American Viral Infection 4 130** <30 Viral Infection ∗ 5 14853 50 Indian Cancer 5 1485* ≥40 Cancer ∗ 6 14853 55 Russian Heart Disease 6 1485* ≥40 Heart Disease ∗ 7 14850 47 American Viral Infection 7 1485* ≥40 Viral Infection ∗ 8 14850 49 American Viral Infection 8 1485* ≥40 Viral Infection ∗ 9 13053 31 American Cancer 9 130** 3∗ Cancer ∗ 10 13053 37 Indian Cancer 10 130** 3∗ Cancer ∗ 11 13068 36 Japanese Cancer 11 130** 3∗ Cancer 12 13068 35 American Cancer 12 130** 3∗ Cancer
  13. 13. l-多様性 [MGK+06]  各グループにおいて sensitiveなデータの値がうまく 管理されていることを目指す  homogeneity 攻撃を防ぐ  背景知識攻撃を防ぐ l-多様性 (簡単な定義) あるグループが l-多様性を持つとは、 そのグループ内では少なくともl種類の sensitive なデータ値が存在する • group内にl種類のsensitiveな値があり、できるだけ均等に出現するこ とが望ましい。
  14. 14. t-closeness  l-多様性があっても、ある属性がaの確率99%,bの確率 1%というように偏りが激しいと、プライバシーは危険  2つのグループ(上記a属性のグループとb属性のグルー プ)は、sensitive データの分布における距離と、全属性 の分布における距離が t 以下であるとき、 t-closeness である。  上記の分布間の距離としては、属性を各次元としてにお いてEarth Mover’s distance(EMD)を用いる P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ),  dij = distance between pi and q j : given fij = flow bewteen pi and q:  j fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD m m EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij m m f ij pi − ∑ j =1 fij + ∑ j =1 f ji = qi m m s.t. fij ≥ 0 1 ≤ i ≤ m,1 ≤ j ≤ m , ∑ ∑ f = ∑i =1 pi = ∑i =1 qi = 1 m m m m 14 i =1 j =1 ij
  15. 15. まとめ • プライバシー保護は、「情報を公開しない」こ とで実現されるわけではない – 公益に資するために公開しなければならない情 報もある – ほかの機関の情報とあわせることでプライバシー が侵害されてしまうこともあり得る • 法の精神に従うならば、柔軟に考えてもよい のかも – 「国民の知る自由を守り、ひろげていく」という考 え方に合致する方向であれば、それを推進する 責任がある
  16. 16. k-anonymity, l-diversity, t-closenessの 参考文献 • LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain k-Anonymity. SIGMOD, 2005. • LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k- Anonymity. ICDE, 2006. • Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE TKDE, 13(6):1010-1027, 2001. • Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. • Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using Generalization and Suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. • Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007. 16

×