SlideShare a Scribd company logo
1 of 16
Download to read offline
2010年10月22日
@東京大学アントレプレナープラザ会議室




  プライバシー保護データマイニング
  (PPDM): データマイニング研究の
            最前線
      東京大学情報基盤センター
     学術情報研究部門 特任講師/
    株式会社リッテル 最高技術責任者
          清田 陽司
データマイニングの現況
• データ蓄積のコストが劇的に低下している
 – 常時接続はいまや当たり前
 – 1TBytesのハードディスクは1万円以下
• コンピューター資源が容易に入手可能
 – 市販のPCでもそこそこできたりする
 – パブリッククラウドも使える
• ツールも整備されてきた
 – オープンソースソフトでもできる (R、GETAssoc、…)
課題
• 使いやすい形で蓄積するのは簡単ではない
 – ハードディスクの肥やしでは意味がない
 – 商用データウェアハウスは超高価
• そんなに簡単に有用な結果は出ない
 – 大量の試行錯誤必須
• プライバシー保護とどうやって両立する?
 – トレードオフ問題
そもそも、プライバシー保護って?
• 個人情報保護法 (2005年制定)
 – 個人情報=個人を特定可能な情報
   • 氏名、性別、生年月日、住所、電話番号、職業、年収、
     家族構成、IPアドレス、メールアドレス…
 – 「個人情報保護の有益性に配慮しつつ、個人の
   権利利益を保護」
• 業界ごとの倫理規程
 – cf. 図書館の自由に関する宣言
• プライバシー≠個人情報
 – 利用履歴、検索キーワード、メールの内容などは
   プライバシーに該当
ちょっとした疑問
• 定性的な議論は多くなされている
 – ○○という情報は公開すべきか否か?
• 定量的な議論があまりなされていない?
 – 「データの有益性」と「個人の権利利益保護」のト
   レードオフならば、両者の比較のために定量化は
   不可欠では?
 – 飛行機や薬品のリスクも定量的に議論されている
• 「個人情報を公開しない」は「プライバシー保
  護」の十分条件ではない
link attack の例
• Massachussetts州知事の医療記録が公開情報から特
  定可能
 – MA では、収集した医療データを サニタイズして公開して
   いる 左円内
 – 一方、選挙の投票者名簿は公開 右円内

• 両者をつきあわせると
  • 6 人が知事と同じ生年月日
    うち3 人が男
    うち1 人が同じzipcode

• 1990年の the US 1990 census dataによれば
   – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
プライバシー保護データマイニング
       (PPDM)
• 2002~2006年頃から導入された概念
• キーワード
 – k-匿名性(k-anonymity)
 – l -多様性(l-diversity)
 – t-closeness
動機
• 複数の組織がプライシーに係わるクリティカルなデー
  タ を持ち、場合によっては公開している
  – microdata (vs. aggregated macrodata) と呼ばれる詳細
    データが解析やマイニングに利用される状況である。(米
    国では公開は法令で義務化 )
• microdata の保護のため sanitized(不要部分の削除な
  ど)
  – 例えば、explicit identifiers (Social Security Number, 氏名,
    電話番号) の削除

• しかし、それで十分か?
• 否! link attacksの脅威
  – 公開データからプライバシー情報を推測できる可能性あ
    り
microdataのプライバシー
   microdataの属性
       explicit identifiers は削除
       quasi identifiers (QI=擬ID)は個人特定に利用可能
       sensitive attributes は sensitive 情報を持つ
           identifier             quasi identifiers       sensitive
           Name         Birthdate    Sex        Zipcode   Disease
           Andre        21/1/79      male       53715     Flu
           Beth         10/1/81      female     55410     Hepatitis
           Carol        1/10/44      female     90210     Brochitis
           Dan          21/2/84      male       02174     Sprained
                                                          Ankle
           Ellen        19/4/72      female     02237     AIDS


        プライバシー保護の目標は、個人をsensitive
          情報から特定できないようにすること
k-匿名性(k-anonymity)
   k-匿名性によるプライバシー保護, Sweeney and Samarati [S01,
    S02a, S02b]
   k-匿名性: 個人を他のk-1 人に紛れさせる
       つまり、 公開された microdata においては、Quasi Identifier:QI の値
        が同一の個人は少なくともk 人存在することを保証
       よって、link attackでも個人特定の確率は 1/k

   実現方法
       一般化 and 抑圧
       当面はデータの値の perturbation(摂動)は考えない。摂動は、後に差
        分プライバシーのところで活用されることになる

   プライバシーとデータマイニングにおける有用性のトレードオフ
       必要以上に匿名化しない
k-匿名性 の例
匿名化手法
 一般化
        例えば、対象分野のデータは抽象度によって階層化されているなら、
         上の階層のデータを公開
    抑圧
        特異性のあるデータ項目は削除

              original microdata                      2-anonymous data

    Birthdate    Sex          Zipcode              Birthdate Sex      Zipcode
    21/1/79      male         53715                */1/79    person   5****
                                         group 1
    10/1/79      female       55410                */1/79    person   5****
    1/10/44      female       90210     suppressed 1/10/44   female   90210
    21/2/83      male         02274                */*/8*    male     022**
                                         group 2
    19/4/82      male         02237                */*/8*    male     022**
k-匿名性の問題点
         k-匿名性 の例
         Homogeneityによる攻撃: 最終グループは全員 cancer
         背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知
          られていると。。。


                       microdata                                     4-anonymous data


                                                                              ∗
id       Zipcode Sex     National.      Disease        id   Zipcode Sex   National.        Disease

                                                                              ∗
 1        13053  28       Russian    Heart Disease      1    130**  <30                 Heart Disease

                                                                              ∗
 2        13068  29      American    Heart Disease      2    130**  <30                 Heart Disease

                                                                              ∗
 3        13068   21     Japanese    Viral Infection    3    130**  <30                 Viral Infection

                                                                              ∗
 4        13053  23      American    Viral Infection    4    130**  <30                 Viral Infection

                                                                              ∗
 5        14853  50       Indian         Cancer         5    1485* ≥40                      Cancer

                                                                              ∗
 6        14853  55       Russian    Heart Disease      6    1485* ≥40                  Heart Disease

                                                                              ∗
 7        14850  47      American    Viral Infection    7    1485* ≥40                  Viral Infection

                                                                              ∗
 8        14850  49      American    Viral Infection    8    1485* ≥40                  Viral Infection

                                                                              ∗
 9        13053   31     American        Cancer         9    130**   3∗                     Cancer

                                                                              ∗
10        13053  37       Indian         Cancer        10    130**   3∗                     Cancer

                                                                              ∗
11        13068  36      Japanese        Cancer        11    130**   3∗                     Cancer
12        13068  35      American        Cancer        12    130**   3∗                     Cancer
l-多様性
[MGK+06]

   各グループにおいて sensitiveなデータの値がうまく
    管理されていることを目指す
     homogeneity 攻撃を防ぐ
     背景知識攻撃を防ぐ

                  l-多様性 (簡単な定義)
       あるグループが l-多様性を持つとは、
       そのグループ内では少なくともl種類の
       sensitive なデータ値が存在する

• group内にl種類のsensitiveな値があり、できるだけ均等に出現するこ
  とが望ましい。
t-closeness
    l-多様性があっても、ある属性がaの確率99%,bの確率
     1%というように偏りが激しいと、プライバシーは危険
    2つのグループ(上記a属性のグループとb属性のグルー
     プ)は、sensitive データの分布における距離と、全属性
     の分布における距離が t 以下であるとき、 t-closeness
     である。
    上記の分布間の距離としては、属性を各次元としてにお
     いてEarth Mover’s distance(EMD)を用いる
       P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ),  dij = distance between pi and q j : given
         fij = flow bewteen pi and q: 
                                    j

         fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD
                                 m       m



         EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij
                                     m       m

                          f ij


                                                         pi − ∑ j =1 fij + ∑ j =1 f ji = qi
                                                                 m            m
         s.t.   fij ≥ 0       1 ≤ i ≤ m,1 ≤ j ≤ m    ,

                ∑ ∑           f = ∑i =1 pi = ∑i =1 qi = 1
                   m      m              m       m
    14             i =1   j =1 ij
まとめ
• プライバシー保護は、「情報を公開しない」こ
  とで実現されるわけではない
 – 公益に資するために公開しなければならない情
   報もある
 – ほかの機関の情報とあわせることでプライバシー
   が侵害されてしまうこともあり得る
• 法の精神に従うならば、柔軟に考えてもよい
  のかも
 – 「国民の知る自由を守り、ひろげていく」という考
   え方に合致する方向であれば、それを推進する
   責任がある
k-anonymity, l-diversity, t-closenessの
               参考文献
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain
  k-Anonymity. SIGMOD, 2005.
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k-
  Anonymity. ICDE, 2006.
• Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE
  TKDE, 13(6):1010-1027, 2001.
• Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International
  Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
• Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using
  Generalization and Suppression. International Journal on Uncertainty,
  Fuzziness and Knowledge-based Systems, 2002.
• Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy
  Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.

                                      16

More Related Content

More from Yoji Kiyota

「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーションYoji Kiyota
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討Yoji Kiyota
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析Yoji Kiyota
 
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告Yoji Kiyota
 
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題Yoji Kiyota
 
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―Yoji Kiyota
 
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけIEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけYoji Kiyota
 
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-Yoji Kiyota
 
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みYoji Kiyota
 
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるためにYoji Kiyota
 
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化Yoji Kiyota
 
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組みYoji Kiyota
 
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Yoji Kiyota
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館Yoji Kiyota
 
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組みYoji Kiyota
 
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Yoji Kiyota
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介Yoji Kiyota
 
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜Yoji Kiyota
 
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解Yoji Kiyota
 
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」Yoji Kiyota
 

More from Yoji Kiyota (20)

「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
 
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告
 
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題
 
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
 
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけIEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけ
 
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
 
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組み
 
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために
 
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化
 
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
 
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
 
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
 
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
 
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
 
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
 
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

マイニング探検会#07

  • 1. 2010年10月22日 @東京大学アントレプレナープラザ会議室 プライバシー保護データマイニング (PPDM): データマイニング研究の 最前線 東京大学情報基盤センター 学術情報研究部門 特任講師/ 株式会社リッテル 最高技術責任者 清田 陽司
  • 2. データマイニングの現況 • データ蓄積のコストが劇的に低下している – 常時接続はいまや当たり前 – 1TBytesのハードディスクは1万円以下 • コンピューター資源が容易に入手可能 – 市販のPCでもそこそこできたりする – パブリッククラウドも使える • ツールも整備されてきた – オープンソースソフトでもできる (R、GETAssoc、…)
  • 3. 課題 • 使いやすい形で蓄積するのは簡単ではない – ハードディスクの肥やしでは意味がない – 商用データウェアハウスは超高価 • そんなに簡単に有用な結果は出ない – 大量の試行錯誤必須 • プライバシー保護とどうやって両立する? – トレードオフ問題
  • 4. そもそも、プライバシー保護って? • 個人情報保護法 (2005年制定) – 個人情報=個人を特定可能な情報 • 氏名、性別、生年月日、住所、電話番号、職業、年収、 家族構成、IPアドレス、メールアドレス… – 「個人情報保護の有益性に配慮しつつ、個人の 権利利益を保護」 • 業界ごとの倫理規程 – cf. 図書館の自由に関する宣言 • プライバシー≠個人情報 – 利用履歴、検索キーワード、メールの内容などは プライバシーに該当
  • 5. ちょっとした疑問 • 定性的な議論は多くなされている – ○○という情報は公開すべきか否か? • 定量的な議論があまりなされていない? – 「データの有益性」と「個人の権利利益保護」のト レードオフならば、両者の比較のために定量化は 不可欠では? – 飛行機や薬品のリスクも定量的に議論されている • 「個人情報を公開しない」は「プライバシー保 護」の十分条件ではない
  • 6. link attack の例 • Massachussetts州知事の医療記録が公開情報から特 定可能 – MA では、収集した医療データを サニタイズして公開して いる 左円内 – 一方、選挙の投票者名簿は公開 右円内 • 両者をつきあわせると • 6 人が知事と同じ生年月日 うち3 人が男 うち1 人が同じzipcode • 1990年の the US 1990 census dataによれば – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
  • 7. プライバシー保護データマイニング (PPDM) • 2002~2006年頃から導入された概念 • キーワード – k-匿名性(k-anonymity) – l -多様性(l-diversity) – t-closeness
  • 8. 動機 • 複数の組織がプライシーに係わるクリティカルなデー タ を持ち、場合によっては公開している – microdata (vs. aggregated macrodata) と呼ばれる詳細 データが解析やマイニングに利用される状況である。(米 国では公開は法令で義務化 ) • microdata の保護のため sanitized(不要部分の削除な ど) – 例えば、explicit identifiers (Social Security Number, 氏名, 電話番号) の削除 • しかし、それで十分か? • 否! link attacksの脅威 – 公開データからプライバシー情報を推測できる可能性あ り
  • 9. microdataのプライバシー  microdataの属性  explicit identifiers は削除  quasi identifiers (QI=擬ID)は個人特定に利用可能  sensitive attributes は sensitive 情報を持つ identifier quasi identifiers sensitive Name Birthdate Sex Zipcode Disease Andre 21/1/79 male 53715 Flu Beth 10/1/81 female 55410 Hepatitis Carol 1/10/44 female 90210 Brochitis Dan 21/2/84 male 02174 Sprained Ankle Ellen 19/4/72 female 02237 AIDS プライバシー保護の目標は、個人をsensitive 情報から特定できないようにすること
  • 10. k-匿名性(k-anonymity)  k-匿名性によるプライバシー保護, Sweeney and Samarati [S01, S02a, S02b]  k-匿名性: 個人を他のk-1 人に紛れさせる  つまり、 公開された microdata においては、Quasi Identifier:QI の値 が同一の個人は少なくともk 人存在することを保証  よって、link attackでも個人特定の確率は 1/k  実現方法  一般化 and 抑圧  当面はデータの値の perturbation(摂動)は考えない。摂動は、後に差 分プライバシーのところで活用されることになる  プライバシーとデータマイニングにおける有用性のトレードオフ  必要以上に匿名化しない
  • 11. k-匿名性 の例 匿名化手法  一般化  例えば、対象分野のデータは抽象度によって階層化されているなら、 上の階層のデータを公開  抑圧  特異性のあるデータ項目は削除 original microdata 2-anonymous data Birthdate Sex Zipcode Birthdate Sex Zipcode 21/1/79 male 53715 */1/79 person 5**** group 1 10/1/79 female 55410 */1/79 person 5**** 1/10/44 female 90210 suppressed 1/10/44 female 90210 21/2/83 male 02274 */*/8* male 022** group 2 19/4/82 male 02237 */*/8* male 022**
  • 12. k-匿名性の問題点  k-匿名性 の例  Homogeneityによる攻撃: 最終グループは全員 cancer  背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知 られていると。。。 microdata 4-anonymous data ∗ id Zipcode Sex National. Disease id Zipcode Sex National. Disease ∗ 1 13053 28 Russian Heart Disease 1 130** <30 Heart Disease ∗ 2 13068 29 American Heart Disease 2 130** <30 Heart Disease ∗ 3 13068 21 Japanese Viral Infection 3 130** <30 Viral Infection ∗ 4 13053 23 American Viral Infection 4 130** <30 Viral Infection ∗ 5 14853 50 Indian Cancer 5 1485* ≥40 Cancer ∗ 6 14853 55 Russian Heart Disease 6 1485* ≥40 Heart Disease ∗ 7 14850 47 American Viral Infection 7 1485* ≥40 Viral Infection ∗ 8 14850 49 American Viral Infection 8 1485* ≥40 Viral Infection ∗ 9 13053 31 American Cancer 9 130** 3∗ Cancer ∗ 10 13053 37 Indian Cancer 10 130** 3∗ Cancer ∗ 11 13068 36 Japanese Cancer 11 130** 3∗ Cancer 12 13068 35 American Cancer 12 130** 3∗ Cancer
  • 13. l-多様性 [MGK+06]  各グループにおいて sensitiveなデータの値がうまく 管理されていることを目指す  homogeneity 攻撃を防ぐ  背景知識攻撃を防ぐ l-多様性 (簡単な定義) あるグループが l-多様性を持つとは、 そのグループ内では少なくともl種類の sensitive なデータ値が存在する • group内にl種類のsensitiveな値があり、できるだけ均等に出現するこ とが望ましい。
  • 14. t-closeness  l-多様性があっても、ある属性がaの確率99%,bの確率 1%というように偏りが激しいと、プライバシーは危険  2つのグループ(上記a属性のグループとb属性のグルー プ)は、sensitive データの分布における距離と、全属性 の分布における距離が t 以下であるとき、 t-closeness である。  上記の分布間の距離としては、属性を各次元としてにお いてEarth Mover’s distance(EMD)を用いる P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ),  dij = distance between pi and q j : given fij = flow bewteen pi and q:  j fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD m m EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij m m f ij pi − ∑ j =1 fij + ∑ j =1 f ji = qi m m s.t. fij ≥ 0 1 ≤ i ≤ m,1 ≤ j ≤ m , ∑ ∑ f = ∑i =1 pi = ∑i =1 qi = 1 m m m m 14 i =1 j =1 ij
  • 15. まとめ • プライバシー保護は、「情報を公開しない」こ とで実現されるわけではない – 公益に資するために公開しなければならない情 報もある – ほかの機関の情報とあわせることでプライバシー が侵害されてしまうこともあり得る • 法の精神に従うならば、柔軟に考えてもよい のかも – 「国民の知る自由を守り、ひろげていく」という考 え方に合致する方向であれば、それを推進する 責任がある
  • 16. k-anonymity, l-diversity, t-closenessの 参考文献 • LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain k-Anonymity. SIGMOD, 2005. • LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k- Anonymity. ICDE, 2006. • Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE TKDE, 13(6):1010-1027, 2001. • Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. • Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using Generalization and Suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. • Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007. 16