Submit Search
Upload
安全なデータ公開のために
•
Download as ODP, PDF
•
0 likes
•
716 views
T
Tsugio Wakamatsu
Follow
安全なデータ公開のために - Statistical Disclosure Control -
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 20
Download now
Recommended
安全なデータ公開のために
安全なデータ公開のために
Wakamatz
安全なデータ公開のために - Statistical Disclosure Control -
潜入 Deep Web 犯罪者の思考を探る
潜入 Deep Web 犯罪者の思考を探る
Noriaki Hayashi
『新潟県サイバーセキュリティフォーラム2016』(第5回反社会的勢力排除分科会), 2016/07/25 http://www.cyber.niigata.jp/html/antisocial.html
Snsプレゼン
Snsプレゼン
lagoon3939
Eic kobe.r9
Eic kobe.r9
florets1
Kobe.R発表資料
PPDM-2006
PPDM-2006
Hiroshi Nakagawa
ビッグデータのうちでもビジネス価値が高いと言われるパーソナルデータの利活用が注目されています。これは個人情報なので、プライバシーに係わるデータです。 Web上に晒されたり、悪用されてはたまりません。このような事態を防ごうとするのが、プライバシ保護データマイニングです。 プライバシ保護データマイニング(Privacy Preserving Data Mining: PPDM)は21世紀に入って発展してきた分野です。 このスライドでは、プライバシー保護データマイニングという技術分野が発生してから2006年ごろまでに提案された基本的アイデアを説明します。 プライバシー周りのことがちょっと気になるという人向けにまとめてみました。 2007年以降、種々の発展があり多数の成果が提案されていますが、このスライドでは、それらを理解する基礎知識として役立つことを期待しています。
会社でPowershell
会社でPowershell
kobexr
powershell
匿名化と自己情報コントロール
匿名化と自己情報コントロール
Hiroshi Nakagawa
パーソナルデータに関する検討会の下に設置された技術検討ワーキングWG報告書が2103年12月10日に公表された。そこでは一般的な匿名化が不可能であることが示された一方、ケースバイケースな対応は可能と書かれているが、その詳細は書かれていない。ここでは、k-匿名化が有効なのは極めて限定されたケースであることを示す。また、もう一つの重要な要素であるセンシティブ情報が、実は非常に定義しにくいことも示した。最期に、パーソナルデータの利活用にあたってはk-匿名化に頼るより、自己情報コントロール権の実効性のある実装と「同意」を組み合わせるほうが有望ではないかという論点を提示する。
匿名化の崩壊
匿名化の崩壊
Hiroshi Nakagawa
パーソナルデータのデータベースは、「個人ID+多数の属性値」というレコードの多数集まったものです。 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評価した商品(映画など)があります。 個人IDを消して匿名化していても、少数の属性値が攻撃者に知られるだけで、個人識別ができてしまいます。稀(rare)な属性値が知られると非常に危険です。 こういった直感をモデル化して数量的に評価した話です。
Recommended
安全なデータ公開のために
安全なデータ公開のために
Wakamatz
安全なデータ公開のために - Statistical Disclosure Control -
潜入 Deep Web 犯罪者の思考を探る
潜入 Deep Web 犯罪者の思考を探る
Noriaki Hayashi
『新潟県サイバーセキュリティフォーラム2016』(第5回反社会的勢力排除分科会), 2016/07/25 http://www.cyber.niigata.jp/html/antisocial.html
Snsプレゼン
Snsプレゼン
lagoon3939
Eic kobe.r9
Eic kobe.r9
florets1
Kobe.R発表資料
PPDM-2006
PPDM-2006
Hiroshi Nakagawa
ビッグデータのうちでもビジネス価値が高いと言われるパーソナルデータの利活用が注目されています。これは個人情報なので、プライバシーに係わるデータです。 Web上に晒されたり、悪用されてはたまりません。このような事態を防ごうとするのが、プライバシ保護データマイニングです。 プライバシ保護データマイニング(Privacy Preserving Data Mining: PPDM)は21世紀に入って発展してきた分野です。 このスライドでは、プライバシー保護データマイニングという技術分野が発生してから2006年ごろまでに提案された基本的アイデアを説明します。 プライバシー周りのことがちょっと気になるという人向けにまとめてみました。 2007年以降、種々の発展があり多数の成果が提案されていますが、このスライドでは、それらを理解する基礎知識として役立つことを期待しています。
会社でPowershell
会社でPowershell
kobexr
powershell
匿名化と自己情報コントロール
匿名化と自己情報コントロール
Hiroshi Nakagawa
パーソナルデータに関する検討会の下に設置された技術検討ワーキングWG報告書が2103年12月10日に公表された。そこでは一般的な匿名化が不可能であることが示された一方、ケースバイケースな対応は可能と書かれているが、その詳細は書かれていない。ここでは、k-匿名化が有効なのは極めて限定されたケースであることを示す。また、もう一つの重要な要素であるセンシティブ情報が、実は非常に定義しにくいことも示した。最期に、パーソナルデータの利活用にあたってはk-匿名化に頼るより、自己情報コントロール権の実効性のある実装と「同意」を組み合わせるほうが有望ではないかという論点を提示する。
匿名化の崩壊
匿名化の崩壊
Hiroshi Nakagawa
パーソナルデータのデータベースは、「個人ID+多数の属性値」というレコードの多数集まったものです。 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評価した商品(映画など)があります。 個人IDを消して匿名化していても、少数の属性値が攻撃者に知られるだけで、個人識別ができてしまいます。稀(rare)な属性値が知られると非常に危険です。 こういった直感をモデル化して数量的に評価した話です。
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
日本学術会議情報学委員会 ITの生む諸課題検討分科会主催で2017年8月9日に学術会議講堂で開催された「ITの進展から派生する諸課題に関する学術シンポジウム」における発表「プライバシー保護技術の概観と展望」の資料です。
最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策
itforum-roundtable
地方自治組織における危機管理【サイバー攻撃対応編】 最近の事例におけるサイバー攻撃の傾向と対策情報連携の役割と取り組みの紹介。 一般社団法人JPCERTコーディネーションセンター常務理事 有村 浩一
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
一橋大学経済学部 経済学のための実践的データ分析/原泰史 3.データの可用性とプライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
Hiroshi Nakagawa
データベース中の個人情報、プライバシー保護のために使うサンプリングやk-匿名化は分かったけど、差分プライバシーはどうも難しくて分からんと思っているみなさん、なんとかこれらをまとめてつないで説明しようとする話です。この元論文は2012年ですが、実は差分プライバシーが提案された2006年に、元データベースからサンプリングされたデータベースのプライバシー保護能力を評価する方法がすでに提案されています。後半では、この評価についても記載しています。事情により、分かり易く書き直した最新版はこちらです。http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/Privacy/Samplimg-K-anon-DP.pdf
情報セキュリティの概要
情報セキュリティの概要
Tokai University
2012/08/23 私立大学情報教育協会 平成24年度(2012年度) 大学情報セキュリティ研究講習会 B.情報セキュリティマネジメントコース http://www.juce.jp/sec2012/
6 1security3
6 1security3
Yuki Fujino Oita Univ.
高度情報化と社会生活6月1日講義資料
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
Eiji Sasahara, Ph.D., MBA 笹原英司
1.創薬バリューチェーンのガバナンス/リスク管理とリスクベースの考え方 2. 個人データ保護とサイバーセキュリティ 3. Precision Medicine実現に向けた ビッグデータ/IoTと個人データ保護 4. まとめ/Q&A
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
UEHARA, Tetsutaro
More Related Content
Similar to 安全なデータ公開のために
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
日本学術会議情報学委員会 ITの生む諸課題検討分科会主催で2017年8月9日に学術会議講堂で開催された「ITの進展から派生する諸課題に関する学術シンポジウム」における発表「プライバシー保護技術の概観と展望」の資料です。
最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策
itforum-roundtable
地方自治組織における危機管理【サイバー攻撃対応編】 最近の事例におけるサイバー攻撃の傾向と対策情報連携の役割と取り組みの紹介。 一般社団法人JPCERTコーディネーションセンター常務理事 有村 浩一
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
一橋大学経済学部 経済学のための実践的データ分析/原泰史 3.データの可用性とプライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
Hiroshi Nakagawa
データベース中の個人情報、プライバシー保護のために使うサンプリングやk-匿名化は分かったけど、差分プライバシーはどうも難しくて分からんと思っているみなさん、なんとかこれらをまとめてつないで説明しようとする話です。この元論文は2012年ですが、実は差分プライバシーが提案された2006年に、元データベースからサンプリングされたデータベースのプライバシー保護能力を評価する方法がすでに提案されています。後半では、この評価についても記載しています。事情により、分かり易く書き直した最新版はこちらです。http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/Privacy/Samplimg-K-anon-DP.pdf
情報セキュリティの概要
情報セキュリティの概要
Tokai University
2012/08/23 私立大学情報教育協会 平成24年度(2012年度) 大学情報セキュリティ研究講習会 B.情報セキュリティマネジメントコース http://www.juce.jp/sec2012/
6 1security3
6 1security3
Yuki Fujino Oita Univ.
高度情報化と社会生活6月1日講義資料
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
Eiji Sasahara, Ph.D., MBA 笹原英司
1.創薬バリューチェーンのガバナンス/リスク管理とリスクベースの考え方 2. 個人データ保護とサイバーセキュリティ 3. Precision Medicine実現に向けた ビッグデータ/IoTと個人データ保護 4. まとめ/Q&A
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
UEHARA, Tetsutaro
Similar to 安全なデータ公開のために
(8)
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
最近の事例におけるサイバー攻撃の傾向と対策
最近の事例におけるサイバー攻撃の傾向と対策
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
情報セキュリティの概要
情報セキュリティの概要
6 1security3
6 1security3
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
安全なデータ公開のために
1.
安全なデータ公開のために - Statistical
Disclosure Control - Twitter ID @Wakamatz
2.
ものまね鳥をまねる会 「ものまね鳥をまねる」という論理パズルの本の読書会を主宰し
ている。 論理パズルを解きながらSKIコンビネータ論理を学ぶ。
3.
1.オープンデータの隆盛 近年、ビッグデータ活用の合言葉のもとにオー
プンデータがあちこちでなされるようになりま した。 データの開示には個人情報漏えいのリスクが伴 います。 データ開示リスクを防ぐための手法としてSDC (Statistical Disclosure Control)を紹介します。
4.
2.SDCの対象 microdata: -
個別の情報(個人、世帯、組織別の情報) - 対義語:aggregated macrodata(全体の統計情報)
5.
3.データの種類 Direct
Identity: - 単体で個人、世帯、組織を正確に識別できる情報 - 例)社会保障番号、個人名、会社名、住所など Key variables: - 組み合わせることで個人、世帯、組織を正確に識別できる情報 - 例)性別、年齢、地域、職業など Non-identifying variables - 上記の2つ以外のデータ
6.
4.SDCのトピック 1.開示リスクの計測 k-Anonimity,
l-Diversity, etc 2.microdataの匿名化手法 Recoding, Local Suppression, Post-randomization, etc 3.元のデータと修正後のデータの比較
7.
5.開示リスクの計測 開示リスクを評価するためには、評価に直接影響 を与える
key variables を適切に選択することが 不可欠である。
8.
5.1.頻度カウント Key Variablesの組合せについての発生頻度からリ
スクを計算する。 年齢地域性別学歴リスクFk 1 1 2 2 1 0.017 110.0 2 1 2 1 1 0.022 84.5 3 3 3 1 5 0.177 17.0 4 4 3 1 4 0.012 541.0 5 4 3 1 1 0.297 8.0 6 6 2 1 5 0.402 5.0
9.
5.2.k-匿名性(k-Anonimity) Key Variablesの組合せごとの頻度の最小値
性別人種Fk 1 1 1 3 2 1 1 3 3 1 1 3 4 2 2 2 5 2 2 2 6 2 1 2 7 2 1 2 性別人種Fk 1 1 1 3 2 1 1 3 3 1 1 3 4 2 2 4 5 2 2 4 6 2 2 4 7 2 2 4 3-anonimity 2-anonimity ※ Key Variables の組合せに対する識別リスクを評価する。 k が大きいほど識別リスクが低い。
10.
5.3.l-多様性(l-Diversity) Key Variablesの組合せごとのsensitive
variablesの数 性別人種Sen Fk ldiv 1 1 1 50 3 2 2 1 1 50 3 2 3 1 1 42 3 2 性別人種Sen Fk ldiv 1 2 2 62 2 1 2 2 2 62 2 1 2-diversity 1-diversity ※ Key Variablesの組合せに対する属性のあいまい性を評価する。 l が大きいほど多様性が増すため、属性漏えいの可能性が低い。
11.
5.4.連続値をとるKey Variablesに対する リスクの計測
・外部データベースとのマッチングにより個人識 別が可能になる可能性がある。 ・距離ベースでリスクを計測する。
12.
6.匿名化手法 匿名化手法として、一般的に次の2種類がある。 1.決定的手法
Recoding, Local Suppression, etc 2.確率的手法 Swapping, PRAM
13.
6.1.Recoding 複数のカテゴリーを組み合わせてより情報の少ない カテゴリーにまとめる。
例)年齢 10代、20代、・・・、70代、80代以上 よく使われるのが上と下でRecodingをすること。 たとえば年齢では、下は20歳未満、上は80代以上
14.
6.2.Local Suppression k-anonimityを実現するために用いられる。
k-anonimityを達成するために、達成できないグ ループのデータを隠蔽する
15.
6.3.Post-randomization Key variablesの各カテゴリー間を一定の確率で移
動させる。 たとえば男と女の間で移動する確率を次のように する。 男→男:0.85 男→女:0.15 女→男:0.20 女→女:0.80
16.
6.4.連続値をとるKey Variablesに対す る
匿名化手法 1. Microaggregation 適当なクラスタリングによりグループ分けしてそれぞれ のグループ内の平均値でデータを更新する。 2. Adding Noise 2. Shuffling Num1 Num2 Num3 Mic1 Mic2 Mic3 1 0.30 0.400 4 0.65 0.850 8.5 2 0.12 0.220 22 0.15 0.510 15.0 3 0.18 0.800 8 0.15 0.510 15.0 4 1.90 9.00 91 1.45 1.150 52.5 5 1.00 1.300 13 0.65 0.850 8.5 6 1.00 1.400 14 1.45 1.150 52.5
17.
7.データユーティリティと情報損失の計 測 データ匿名化を適用すると、一般的にデータユー
ティリティが下がり、情報損失が発生する。 匿名化手法を評価するために、データユーティリ ティと情報損失を計測する。。
18.
7.1.一般的な評価法 1.IL1s IL1=1/pΣjΣi|xij-xij'|/√2Sj
ただし、xijは変更前、xij'は変更後のkey variables、Sj=Σi|xij|
19.
8.ワークフロー
20.
9.参考文献 CRANのSDCの手法を実装したパッケージ http://cran.r-project.org/web/packages/sdcMicro/
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC) http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf 東京大学 中山 裕志 「プライバシー保護データマイニング」 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf 東京大学 竹村 彰通 「統計的開示抑制について」 http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf
Download now