Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」


日本学術会議情報学委員会 ITの生む諸課題検討分科会主催で2017年8月9日に学術会議講堂で開催された「ITの進展から派生する諸課題に関する学術シンポジウム」における発表「プライバシー保護技術の概観と展望」の資料です。

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」

  1. 1. プライバシー保護技術の 概観と展望 中川裕志 東京大学 情報基盤センター/ 理化学研究所 革新知能総合研究センター 「ITの進展から派生する諸課題に関する学術シンポジウム」 2017年8月9日 日本学術会議講堂
  2. 2. お伝えしたいこと • プライバシーとは何か? – インターネット時代のプライバシーの例をお伝えした い • 保護すべきは誰のプライバシーか • 技術の全体像 • 新しい方向性
  3. 3. 誰のプライバシー? 質問者 DB中に個人データがある個人 準同型公開 鍵暗号 質問の改変 ダミー混ぜ 質問者の位 置、アドレス 意味保存し た変換 秘密計算: 質問者の公開鍵 で質問、DBとも暗 号化し、暗号化し たままで検索 方法? 何に細工をする? DB 応答するか どうか 質問監査 応答 雑音加算 差分プライバシー =雑音の大きさの 数理モデル 同じ属性値 を持つ人が 多数いるよ うに変形 k-匿名化 l-多様化 仮名化:個人IDを乱数化 クラスタリング、シャッフル プライバシー保護技術 見取り図 Tor 位置秘匿 計算量が大きく実用 性が低いのでここで は説明を省略します
  4. 4. 誰のプライバシー? 質問者 DB中に個人データがある個人 準同型公開 鍵暗号 質問の改変 ダミー混ぜ 質問者の位 置、アドレス 意味保存し た変換 秘密計算: 質問者の公開鍵 で質問、DBとも暗 号化し、暗号化し たままで検索 方法? 何に細工をする? DB 応答するか どうか 質問監査 応答 雑音加算 差分プライバシー =雑音の大きさの 数理モデル 同じ属性値 を持つ人が 多数いるよ うに変形 k-匿名化 l-多様化 仮名化:個人IDを乱数化 クラスタリング、シャッフル プライバシー保護技術 見取り図 Tor 位置秘匿
  5. 5. 情報検索における質問者の プライバシー保護
  6. 6. 情報検索における 利用者プライバシー保護の動機  米国では、インターネット企業は利用者プロファイルを法執行 当局に販売している。犯罪、紛争に関して 例えば、AOLは1月あたり、1000件の要求、 Facebookは1日当たり10から20要求に応えている。 米国Yahooは会員のアカウント、電子メール、を1件当たり 30から40ドルで売り渡していた。  こういった販売はインターネット業者にとってかなりの収入で あるが、利用者への見返りはない。
  7. 7. 情報検索における 利用者プライバシー保護の動機  さらに悪徳業者が検索履歴を盗み出す可能性も大 いにあり得ます。  こんな事情なので、検索エンジンに利用者は、自分 のアイデンティを検索エンジンに知られないようにす る技術を研究し実用化する必要が出てきています。
  8. 8. Tor • The Onion Router 玉ねぎノードを通るたびにルーティング情報を玉ねぎの皮を剥くようにして、 受信者から発信者はたどれないようにするルーティングシステム。 TorのソフトをインプリしているPCだけが玉ねぎノードになれる。
  9. 9. ZW データ ZW データZW データ Onion Routing 秘密鍵 公開鍵 秘密鍵 公開鍵 公開鍵で 暗号化 X Y Z W YZ 公開鍵で 暗号化 秘密鍵で復号 秘密鍵で復号 データ YZ
  10. 10. Onion Routingの弱点 • 以下の2点に留意 – オニオン・ルーティングの中継ルータの全ては完全に 信用できるとは限らないことを念頭におくべし。 – 中継ルータは自分の前後のルータだけを知ることがで きる オニオン・ルーティングの経路上のすべての中継 ルータが結託すると発信者が漏洩 中継ルータのトラフィックパタンを解析すると発信 者が特定できる可能性あり
  11. 11. 質問者の発信位置を匿名化 • 位置情報を使ったサービス(地図表示など) において、個人の発信位置をサービスプロバ イダに知られたくないという需要あります。 • 信頼できる仲介者:Tursted Third Party:TPPを 介する方法 • 位置情報を利用する • ユーザ TTP サービスプロバイダ 利用者ID,位置情報 応答 TPPが変換した利用者ID, 位置情報 応答
  12. 12. 位置情報をグループに紛れさせる • 信頼できる仲介者:Tursted Third Party:TPPがいない場合は信頼できる利用者で グループを作ってサービスを利用 ID=1 ID=2 ID=3 ID=4 位置情報を用いる サービスプロバイ ダ ① ② ③ ④ ⑤ ⑥⑦ ⑧
  13. 13. 質問者の検索意図を検索エンジンから保護したい データベース検索で質問者の検索質問を保護 企業研究者の研究開発における検索質問では、質問内 容、or 質問の存在することを隠したい – 例:化合物AとBのペアが質問であること自体。このペアを 知られると、企業の開発目的が推定されてしまいます。 データベース 検索質問 検索者のプライバシー保護 したい 企業研究者の研究開発にお ける検索質問は企業秘密
  14. 14. 質問内容の保護手法 – 文を単語分割して別々の質問に分解 • 別々の質問への応答たちから、適切な結果を切り出す作業 が必要 – 質問に紛らわしい単語(ノイズ)を混ぜる – 質問の単語を意味的に類似した別単語で置き換え – いろいろあるが….. • 参考:Knowledge-based scheme to create privacy-preserving but semantically-related queries for web search engines – David Sanchez, Jordi Castella-Roca, Alexandre Viejo – Information Sciences, http://dx.doi.org/10.1016/j.ins.2012.06.025 あまり効果的でないのが実情
  15. 15. 誰のプライバシー? 質問者 DB中に個人データがある個人 質問の改変 準同型公開 鍵暗号 Private IR ダミー混ぜ Tor 意味保存し た変換 秘密計算: 質問者の公開鍵 で質問、DBとも暗 号化し、暗号化し たままで検索 方法? 何に細工をする? DB 応答するか どうか 質問監査 応答 雑音加算 差分プライバシー =雑音の大きさの 数理モデル 同じ属性値 を持つ人が 多数いるよ うに変形 k-匿名化 l-多様化 仮名化:個人IDを乱数化 クラスタリング、シャッフル プライバシー保護技術 見取り絵図
  16. 16. 元データ べース 暗号化 データ ベース 暗号化さ れた回答 質問者の公開鍵で暗号 化: 元データベースが大きい と、この計算時間が莫大 質問者 公開鍵暗号の公開鍵と 秘密鍵を持っています。 質問者の公開鍵で 暗号化された質問 質問者の秘密鍵で 回答を復号 準同型公開鍵暗号により 暗号化したままデータ ベース検索 公開鍵 準同型公開鍵暗号は暗号化したままで、 加算(乗算)が行えます。 準同型公開鍵暗号による秘密計算で検索 この計算が大変 加算準同型に限 定したことによる 危険性有り
  17. 17. N フィンガープリント フィンガープリント表現された化 合物データベース:元の化合物 データベースがフィンガープ リント化でずいぶん小さくな ります。上の化合物Xを加 法準同型暗号化 2ba34… と公開鍵K データベースをKで暗号化し、 暗号化したままTversky係数を 用いて判定式を計算 暗号化された判定式 復号鍵で判定 式を復号化し てXとの類似 度を入手 企業などの研究者 0 1 1 0 1 1 ・ ・ ・ 0 1 1 ・ ・ ・ 0 0 1 ・ ・ ・ 1 0 1 ・ ・ ・ 産総研で開発された化合物検索の質問秘匿システム
  18. 18. 誰のプライバシー? 質問者 DB中に個人データがある個人 準同型公開 鍵暗号 質問の改変 ダミー混ぜ 質問者の位 置、アドレス 意味保存し た変換 秘密計算: 質問者の公開鍵 で質問、DBとも暗 号化し、暗号化し たままで検索 方法? 何に細工をする? DB 応答するか どうか 質問監査 応答 雑音加算 差分プライバシー =雑音の大きさの 数理モデル 同じ属性値 を持つ人が 多数いるよ うに変形 k-匿名化 l-多様化 仮名化:個人IDを乱数化 クラスタリング、シャッフル プライバシー保護技術 見取り図 Tor 位置秘匿
  19. 19. 仮名化 レコード分割とシャッフリング 仮名 Loc. 1 Loc.2 Loc.3 … A123 東京 渋谷 麻布 … C125 台場 豊洲 新橋 … A234 … … …. …. 345X xy yz zw … B650 • レコードを分割し、分割され た部分ごとに仮名を変更 • 順番もシャッフル • 個人識別は困難 Loc. 1 Loc.2 Loc.3 Loc.4 … 東京 渋谷 … … … 麻布 新宿 … … … 新橋 品川 …. xy yz … … … 台場 豊洲 zw wa 個人識別子(姓名) Loc. 1 Loc.2 Loc.3 … 赤川五郎 東京 渋谷 麻布 … 青山全蔵 台場 豊洲 新橋 … 大岩倉之助 … … …. …. 徳川信長 xy yz zw … 福田幸吉
  20. 20. バラバラ! 個人ID削除なので 匿名加工情報 更新なし 仮名の更新頻度仮名化(更新なし) 匿名加工情報ではない 個人識別が困 難:匿名加工情 報 個人識別可能:匿名 加工情報でない どこかに匿名加工情報の可否を決める 分岐点があるのではないか? 改正個人情報保護法で導入された匿名加工情報: 匿名加工で、個人識別困難にし(容易照合できない)、個人データではな いとみなして、データ主体(個人)の同意なく、自由に流通して利用できる レコードを1データ アイテムごとに分 割
  21. 21. 医療では継続性の価値が高い • 頻繁な仮名変更は匿名化の強化に役立ちます • 患者個人の継続的な個人データが重要 • 例えば、医療データにおいては、特定の個人の医療データ あるいは健康データを継続的に収集し、分析することによっ て病気を特定したり、処方薬を選定したりすることが効果的 あるいは必要です。 – とはいえ、医療関係者も仮名の変更を全く拒否して いるわけではないらしい。 – 疾病毎など変更しても役立つケースあり
  22. 22. 仮名更新頻度とデータ利用可値の関係 • 仮名の更新頻度とデータ利用可値は下の図のよう な関係があります。 • ただし、応用分野によって更新頻度が高くてもそこ そこの価値がある場合もあります。 • 次のスライドに簡単に思いつくケーススタディをまと めてみました。 利用価値 更新頻度 更新なし 低い 高い 1データ毎更新 大雑把ですが、各色の例は 交通 購買 医療
  23. 23. 誰のプライバシー? 質問者 DB中に個人データがある個人 準同型公開 鍵暗号 質問の改変 ダミー混ぜ 質問者の位 置、アドレス 意味保存し た変換 秘密計算: 質問者の公開鍵 で質問、DBとも暗 号化し、暗号化し たままで検索 方法? 何に細工をする? DB 応答するか どうか 質問監査 応答 雑音加算 差分プライバシー =雑音の大きさの 数理モデル 同じ属性値 を持つ人が 多数いるよ うに変形 k-匿名化 l-多様化 仮名化:個人IDを乱数化 クラスタリング、シャッフル プライバシー保護技術 見取り図 Tor 位置秘匿
  24. 24. k-匿名化、l-多様化
  25. 25. Link Attack の古典的例 • Sweeney [S02] によれば、マサチューセッツ州知事の医療記録が 公開情報から特定可能です – MA では、収集した医療データを匿名化して公開している(下図左円 内 – 一方、選挙の投票者名簿は公開 (下図右円内[S02]より) • 両者をつきあわせると • 6 人が知事と同じ生年月日 • うち3 人が男 • うち1 人が同じzipcode • よって、知事の医療記録が特定できてし まいます。 • 1990年の the US 1990 census dataによれば – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能です  この状況を改善するために k-匿名化が提案されました。 [S02] Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
  26. 26. • Link Attack から保護する2つの方法 – 方法1: 全データからランダムサンプリングしたデータベースを使って マイニング処理、あるいは第3者に渡すのが有力。 – 方法2: k-匿名化: 全データから、疑似ID(住所、年齢、性別など)の情 報を粗くして、同じ疑似IDの人がk人以上いるように変換 – 下の図右側では、疑似IDの記述を粗くして、k=3のk-匿名化すなわち 3-匿名化 されています。つまり、「おばあさん」、「お嬢さん」、「少年」の 各3人ずつはその中で区別できません。 3-匿名化されたデータベース サンプリング と k-匿名化
  27. 27. 疑似IDを粗くする例 • 以下の例で考えてみましょう。 • 個人情報の属性 – 個人IDそのもの(explicit identifiers) は削除:匿名化 – 疑似ID(quasi identifiers:QI)は個人特定に利用可能 – 機微情報となるデータベースの属性(病名)の値は知られたくない(保護した い) 個人ID 疑似ID 機微情報 名前 誕生日 性別 Zipcode 病名 太朗 21/1/79 男 53715 エイズ 花子 10/1/81 女 55410 エイズ 光子 1/10/44 女 90210 気管支炎 次郎 21/2/84 男 02174 肺炎 明菜 19/4/72 女 02237 胃炎 プライバシー保護の目標は、個人を疑似IDから特定できないようにすること 削除
  28. 28. 疑似IDを粗くして2-匿名化 でも上の2名の病名は知られる → l-多様性 個人ID 疑似ID 機微情報 名前 誕生 日 性別 Zipco de 病名 太朗 70 53 エイズ 花子 70 53 エイズ 光子 40 90 気管支炎 次郎 80 02 肺炎 明菜 80 02 胃炎 2種類の病名  2-多様性 1種類の病名  病名暴露
  29. 29. 誰のプライバシー? 質問者 DB中に個人データがある個人 準同型公開 鍵暗号 質問の改変 ダミー混ぜ 質問者の位 置、アドレス 意味保存し た変換 秘密計算: 質問者の公開鍵 で質問、DBとも暗 号化し、暗号化し たままで検索 方法? 何に細工をする? DB 応答するか どうか 質問監査 応答 雑音加算 差分プライバシー =雑音の大きさの 数理モデル 同じ属性値 を持つ人が 多数いるよ うに変形 k-匿名化 l-多様化 仮名化:個人IDを乱数化 クラスタリング、シャッフル プライバシー保護技術 見取り図 Tor 位置秘匿
  30. 30. 差分プライバシー
  31. 31. 簡単な例 データベース:D データベース:D’ 上のデータベースD,D’はデータが1個 だけ異なります。  例:男女の人数をD,D’に質問することにします。  まともに応答すると、 Dの応答は 男4人、女3人  D’の応答は 男5人、女3人  D’のほうが1人男が多い の存在に気づくチャンスが生まれます。
  32. 32. 簡単な例:つづき データベース:D データベース:D’  そこで応答に雑音を加えます。Dの応答には(男の人数に+1)、 D’の応答には(男の人数に-1)  すると、 Dの応答は(男5,女3)、 D’の応答は(男4,女3) となり、 の存 在自体が応答からは分からなくなります。  外部からデータベースに質問をして得た応答からD,D’が異なることが分からな いように、応答にこのような雑音を加算する方法が差分プライバシーです。  存在自体が分からないというのは非常に強いプライバシー保護です。
  33. 33. 簡単に言えば、差分プライバシーとは 一番類似したデータベースのペアにおいて、 つまり、1人分のレコードだけしか違わないペア 質問された 属性の値に差の最大値 くらいの大きさの雑音を、質問への応答に加算する 仕掛けのこと。
  34. 34. 雑音の大きさ  では、いったいどのくらいの大きさの雑音加えたらよいのだろう?  上の図でX00 というのは年収(百万円単位)とする。  すると、Dの場合、年収の最高額は800万円、 D’の場合は1500万円。  年収の最高額を質問されると、 D’には高収入者 がいることが判明。  そこで、これを隠すために雑音を加えるとなると、1500万円ー800万円=700 万円くらいの大きさの雑音にしないとだめ。  つまり、 質問対象の属性(この場合は年収)の差の最大値を目安にした乱数に しなければならない。 データベース:D データベース:D’ 1500 500 700 600 800 200 300600 500 700 600 800 200 300600
  35. 35. 差分プライバシーとは雑音加算  属性の差の最大値くらい  = 平均値、分散ともその最大値に比例するような確率分布に したがう雑音  大きな雑音にすれば、プライバシー保護能力はあがりますが、 元のデータの有用性が失われます。  小さな雑音にすると、データの有用性は失われませんが、プラ イバシー保護能力は下がります。  したがって、この比例係数の選び方や雑音の分布に関する数 理モデルは高レベルな数学必要
  36. 36. 全く別の視点からのビジネスモデル • プライバシー保護技術は、顧客から収集した 個人データを囲い込むGAFA型ビジネスモデ ルが念頭 • 個人データを個人で管理して、IT企業に契約 のうえで使わせてやる、というモデルもあるの ではないか?
  37. 37. 個人データ管理は データ主体の個人へ Google, Facebook, Apple, Amazon 雇用 開発者 向けAPI 交通 購買 Web 電力 会社医療 政府 研究 銀行 雇用 開発者 向けAPI 交通 購買 Web 電力 会社医療 政府 研究 銀行 データ主体 個人データを自社に囲 い込んで儲ける 自分の個人データを契 約によって他社に使わ せる
  38. 38. 背景:IT企業と個人データ • 米国のIT企業GAFA: Google Amazon Facebook Apple がパー ソナルデータをどんどん収集して囲い込み、利益を上げてい る現状 • 収奪されるEU、収奪されるデータ主体の個人 • GDPRで反撃しているが、それだけではEUの産業は育たない • EUの個人データのプライバシー(=人権)の危機。だが、産 業は興さないと低落するのみ  個人データはデータ発生源であるデータ主体の個人が管理  その枠組みの標榜と、ビジネス育成がテーマ  2016年8月30日から9月1日 Helsinkiにて MyData2016の会 議開催 (今年も同時期に開催)
  39. 39. 主要な技術的ポイント  パーソナルクラウド  インターネットにおける Identity 認証  個人データのポータビリティ  Block Chain による個人の Identity 認証  プライバシー保護(暗号化,複数当事者による計算: MPC , etc.)  公平性、透明性の確保手段
  40. 40. パーソナル・デー タ・ストレージ パーソナル・データ・ストレージ(PDS) • パーソナル・データ・ストア/ボールト • あるいは • パーソナル・データ・クラウド 個人 データ 個人 データ 個人 データ 個人 データ ITを使ったサービ ス仲介IT業者 (AIを活用) • 自動アップロード • 個人キーで暗号化 • 個人ID認証 • API-of-Me • 利用ログ • 流通経路トレース • 統一データ形式 • ポータビリティ
  41. 41. まとめ • 個人データ囲い込み型ビジネス • 個人データを個人識別が困難なデータに変 換して流通させる技術と法制度(改正個人情 報保護法における匿名加工情報) • 個人データは個人が管理し、契約によって企 業に使わせるビジネスモデル(MyData) – AIを含むいろいろな技術開発が必要

    Be the first to comment

    Login to see the comments

  • hitoakisakamoto

    Aug. 12, 2017
  • yarime

    Aug. 12, 2017
  • tomonarikamba

    Aug. 13, 2017
  • TaichiNakamura4

    Sep. 17, 2017
  • elsergente

    Mar. 21, 2018
  • GopiNaik15

    Mar. 29, 2018
  • SyonSu

    Oct. 1, 2020

日本学術会議情報学委員会 ITの生む諸課題検討分科会主催で2017年8月9日に学術会議講堂で開催された「ITの進展から派生する諸課題に関する学術シンポジウム」における発表「プライバシー保護技術の概観と展望」の資料です。

Views

Total views

2,314

On Slideshare

0

From embeds

0

Number of embeds

37

Actions

Downloads

31

Shares

0

Comments

0

Likes

7

×