SlideShare a Scribd company logo
移動ログから個人特定が可能か
研究から知るデータ解析とプライバシー
紹介する論文
● タイトル: Unique in the Crowd: The privacy bounds of human mobility
○ 著者: Y.-A. de Montjoye, C.A.Hidalgo, M.Verleysen, V.D.Blondel
○ ジャーナル: Scientific Reports
○ 年: 2013
○ 引用数: 1472(2020/5時点)
● 内容:
○ 大量(150万人×15ヶ月)の匿名化された位置データを使った研究
○ ユーザの行動の軌跡 (移動ログ) は、どのくらいユニークなものなのか?
■ →「1時間ごと×携帯の基地局ごと」の解像度のデータは、
4点あれば、95%の確率で1本の軌跡に特定できてしまう!
プライバシーと科学技術
● privacy(="生活を公開されない権利")は社会を構成する基盤の一つ
● 歴史的には、情報技術の限界によってなんとなく守られてきた。
○ 国王による土地台帳の導入や写真の発明などの度に、その当時に”デファクト”だったプライバ
シーは侵害されてきた。
● 最近は位置データの把握・応用技術が大きく発展している。
○ 米国では、年間655億件ものジオタグ付きの支払いが行われている。
○ ユーザの位置情報をWiFiから把握する技術を開発している会社では、毎日4億人のユーザーの
WiFi位置情報を把握している。
○ AppleのApp Storeで提供されている250億本のアプリケーションのうち、3分の1がユーザー
の地理的な位置情報にアクセスしていると推定されている。
→ 人々の移動を記録したデータは、プライバシーの問題にどう関わるか?
どのくらいのデータで個人特定となるか
● この研究のクエスチョン
○ 匿名の軌跡データは、どのくらいの粒度の位置データのポイントがいくつあれば、一本の軌
跡を特定できるのか?
集めたデータ
● 携帯電話のユーザが通話やテキストメッセージの送受信を行うたびに、1時
間の解像度で位置情報を記録。
● 西欧のある国の、150万人×15ヶ月間(匿名データ)
● 位置情報データの粒度
a. 空間:
6500箇所の基地局エリア(それぞれ、0.15〜15㎢で、最大で2000人の住人のエリアに対応)
b. 時間:
1時間刻み
論文中のFig.1Aより転載
匿名化されたユーザごとに、現在地に
最も近い基地局を約1時間刻みで記録
した。
結果1: 行動の軌跡はかなりユニーク
● ある人の行動軌跡からランダムにn個のポイン
ト
(時刻×位置情報)を選ぶ
→ そのn個の点を共有する行動軌跡が何人分あ
るか?
● 黄緑色の棒グラフ
○ 横軸:ランダムに選んだポイントの数(n)
○ 縦軸:n個のポイントを共有する行動の軌跡が自分のも
のしか無い割合(”軌跡の独自性”)
○ 4つのポイントを選んだ場合、95%の確率で、他の人の
行動軌跡と見分けがついてしまう!!(グラフの赤丸)
○ また、最大でも11点で100%になる。
およそ95%
結果2:時空間の解像度を落としても高いユニーク性がある
● データの時空間解像度を落とす
○ 時間:1時間毎→何時間か毎のデータ
○ 空間:1基地局毎→何基地局か毎のデータ
● グラフは、
4ポイントをランダムに取り出した場合の、軌跡の独自性の
等高線
○ 横軸:時間の解像度
○ 縦軸:空間の解像度
○ 例えば、さっき「1時間×1基地局の解像度のデータか
ら4点とると、95%の確率で軌跡を1本に特定できる」
ことを確認した。→赤丸に対応。
○ 5時間×5基地局に解像度をかなり下げても、4ポイント
あれば、約半分の軌跡は特定できる。(青丸)
およそ95% およそ50%
結果3: ユニーク性を単純な式で表現できる
● 選ぶポイントの数:p
● 軌跡のユニーク性:ε (p個のポイントを選ぶことで一本に特定される軌跡の割合)
● 時間解像度:h (h時間ごと)
● 空間解像度:v (v基地局ごと)
分かること
1. 公式で表せるほど明快なパターンがある
2. 解像度を下げても、ほとんど軌跡のユニーク性は下がらない。
(例えば、4ポイント使う場合、時空間の解像度をそれぞれ半分にしても、特定できる軌跡
の割合はおよそ9%しか下がらない。)
まとめ
● 「1時間ごと×携帯の基地局ごと」の解像度のデータは、4点あれば、
95%の行動軌跡をユニークに特定できてしまう。(@西欧の国)
● つまり、Aさんがいつどこにいたか、4時点のデータを知っていれば、
匿名の行動軌跡データと組み合わせてAさんの軌跡がどれか分かって
しまう可能性が高い。
● しかも、このことは、データの解像度を下げてもユニーク性は下がり
づらい
チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

More Related Content

More from 西岡 賢一郎

Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
西岡 賢一郎
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
西岡 賢一郎
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
西岡 賢一郎
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
西岡 賢一郎
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
西岡 賢一郎
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
西岡 賢一郎
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
西岡 賢一郎
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
西岡 賢一郎
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
西岡 賢一郎
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
西岡 賢一郎
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
西岡 賢一郎
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
西岡 賢一郎
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
西岡 賢一郎
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
西岡 賢一郎
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
西岡 賢一郎
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
西岡 賢一郎
 
H2Oを使ったノーコードのAutoML
H2Oを使ったノーコードのAutoMLH2Oを使ったノーコードのAutoML
H2Oを使ったノーコードのAutoML
西岡 賢一郎
 
AutoGluonではじめるAutoML
AutoGluonではじめるAutoMLAutoGluonではじめるAutoML
AutoGluonではじめるAutoML
西岡 賢一郎
 

More from 西岡 賢一郎 (20)

Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
 
H2Oを使ったノーコードのAutoML
H2Oを使ったノーコードのAutoMLH2Oを使ったノーコードのAutoML
H2Oを使ったノーコードのAutoML
 
AutoGluonではじめるAutoML
AutoGluonではじめるAutoMLAutoGluonではじめるAutoML
AutoGluonではじめるAutoML
 

Recently uploaded

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 

Recently uploaded (8)

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 

移動ログから個人特定が可能か

Editor's Notes

  1. 今回は移動ログから個人特定が可能かというテーマでお話したいと思います。 ここ10年ぐらいで、ほとんどの人がスマートフォンを持ち歩くようになり、一人ひとりが莫大な量のデータを生み出すようになっています。 そして、その莫大なデータを解析することで、プライバシーの侵害につながる可能性があるため、最近はデータの扱いがますます厳しくなっています。 GDPRやサードパーティークッキーやIDFAなど、最近は個人を特定されないように新しい規制が議論されており、プライバシー保護がますます重要視されてきています。 この動画では、個々人が残す莫大なデータの一つである移動ログとプライバシーの関係を調べた論文を紹介します。 この論文では、携帯を持っているユーザが意図せず残してしまっている、いつどのあたりにいたかの情報を持った移動ログ、このログを用いるとどの程度個人が特定されてしまう可能性があるのかが議論されています。 データで個人を特定されてしまう可能性については、ユーザとしてだけでなくサービスを提供する側としても知っておくべき内容なので、ぜひ最後までご視聴ください。 このチャンネルでは、解析や開発や経営の話をしていきます。 週1程度の更新をしていく予定なので、興味のある方はぜひチャンネル登録をお願いします。
  2. 今回紹介する論文は、ユニークinクラウド、人間のモビリティのプライバシーの境界線という論文です。 2013年に発表された論文で、引用数は1500本弱です。 150万人の15ヶ月分の位置データを用いて、移動ログであるユーザの行動の軌跡がどのくらいユニークなものになるか、つまり個人特定につながる可能性があるかを調べた論文です。 もちろんデータの粒度によりユニークになる可能性は変わってくるのですが、例えば1時間ごと携帯の基地局ごとの粒度の行動軌跡がたった4点あれば95%の確率で個人の軌跡に紐付いてしまうことがこの論文の実験結果で示されています。 それでは、内容を解説していきます。
  3. プライバシーと科学技術については、様々な場面で議論されています。 プライバシーとは、生活を公開されない権利で、社会を構成する基盤の一つと言えます。 歴史的に、プライバシーは情報技術の限界などによりなんとなく守られてきていました。 プライバシーを脅かすほどの技術がなかったということですね。 しかし、技術の進歩によりこのプライバシーはどんどん侵害されてきています。 土地台帳や写真などをはじめとして、個人を記録して残すようなシステムがどんどん開発されています。 そして、みなさん御存知の通り、いまや1人1台スマホを持ち歩く時代になっており、そのスマホからプライバシーと関連するデータがどんどん生成されています。 例えば、スマホによる決済では、ジオタグがついており、個人がいつどこで何を買ったかなどが記録として残るようになっています。 米国では、1年でなんと655億件ものジオタグ付きの支払いがされているようです。 他には、WiFiを用いてユーザの位置情報を把握する技術を開発している会社では、毎日4億人のユーザのWifiを使った位置情報の把握しているとのことです。 また、AppleのApp Storeで提供されている250億本のアプリケーションの三分の一がユーザの地理的な位置情報にアクセスしていると推定されています。 iPhoneを使っているユーザは、アプリケーションを開いたときに位置情報の使用許可を求めるポップアップと何回も見たことあるのではないでしょうか。 このように、我々の位置情報が大量に収集されるような時代に変わってきているということです。 では、集められた位置データはどのくらいプライバシーに関連しているものなのでしょうか。
  4. この研究では匿名化された軌跡データの一部が与えられたときに、行動軌跡がユニークになるかどうかを調べています。 行動軌跡がユニークになるということは、個人が特定されるプライバシーの問題に繋がる可能性があるということですね。 もちろん、データの粒度によっては簡単に行動軌跡はユニークになってしまうので、時間軸と空間軸の両方の粒度と使用する位置データのポイントの数を変えて実験を行っています。 ちなみに時間情報と空間情報を持つデータを時空間データと呼んだりします。 時空間データを用いた解析は、スマホが普及し個人に紐付いた大量の時空間データが取れるようになった時代だからこそ、できるようになった研究ですね。
  5. この研究では、携帯電話のユーザが通話やテキストメッセージの送受信を行うたびに保存された時空間データを用いています。 データは西欧のある国で集められたもので、150万人分の15ヶ月の匿名のデータということです。 これだけのデータを研究で使えるのは正直羨ましいですね。 時刻は1時間刻みで、基地局のエリアごとの粒度で位置情報が保存されています。 基地局の範囲は0.15キロ平方メートルから15キロ平方メートルまでと様々で、1つの基地局あたり最大で2000人の住人エリアに対応しています。 時空間データがGPS情報ではなく基地局単位であり、かつ時刻も最も細かくて1時間おきなので、このデータで個人を特定させるのはさすがに難しそうではありますね。 では、気になるこの研究結果はどうなっているのかをこれから紹介します。
  6. まず、時間軸の粒度は1時間ごとのままで、何個のポイントを使うと行動軌跡がユニークになるかの結果です。 実はなんと4つのポイントだけで、95%の軌跡がユニークになるということです。 そして、11個のポイントがあればすべての行動軌跡をユニークなものとして区別できるようになるとのことです。 基地局単位で1時間あたりという粗い粒度でも4つのデータがあれば、95%は人間の行動の軌跡がユニークに判別されてしまうとは驚きの結果です。 個人に紐付いた時空間データが、いかにプライバシーと紐付いた情報なのかということが、この結果から分かりますね。
  7. 次は、時空間の解像度を落としたときにどうなるかの結果です。 右のグラフは4個のポイントをランダムに取り出したときに軌跡の独自性がどうなるかを表したグラフです。 x軸が時間の解像度で、y軸が空間の解像度で、等高線がユニークになっている軌跡の割合を表しています。 さきほどの、1時間かける1基地局のデータは一番左下にある赤い丸で囲まれた部分でとなります。 このグラフで青い点で囲まれている部分は、5時間単位かつ5基地局というかなり粗い解像度で軌跡のユニーク性を調べたものです。 時間と空間の両方の解像度をこのように1/5に下げたとしても4個のポイントを集めれば、おおよそ半分の軌跡はユニークになるということです。 つまり、時空間の解像度を落としても行動軌跡のユニーク性はかなり高いと言えます。
  8. 今回の研究では、行動軌跡のユニーク性が、時間解像度と空間解像度の積のマイナス100分の選ぶポイント数乗に類似するということが発見されています。 複雑であろう行動軌跡のユニーク性が、このような単純な式に当てはめることができるというのは面白いですね。 先程の実験のように4つのポイントと使った場合、時間と空間のそれぞれの解像度を半分にしても、特定できる軌跡の割合は9%程度しか下がらないということです。
  9. 今回のまとめです。 1時間ごと携帯の基地局ごとの粒度の時空間データをユーザごとに4点集めたら、95%の行動軌跡ができたという実験を紹介しました。 特定の人の行動軌跡データが4つあると、その人の軌跡であるとわかってしまう可能性が高いということです。 また、時間や空間の解像度を落としても、行動軌跡のユニーク性は下がりにくいという傾向がありました。 データの解像度を下げたとしても、思ったよりもプライバシー保護には有効ではないということですね。 時空間データが簡単に取れるようになってきた時代だからこそ、時空間データの取扱に気をつけないと簡単にプライバシー侵害をしてしまう可能性があります。 データを出す側だけでなく、データを集める側も時空間データがプライバシー問題につながる可能性を把握し、慎重に取り扱うようにしていかないといけないということですね。s
  10. 最後にチャンネルの紹介をさせてください。 このチャンネルでは、経営やデータサイエンスや開発の話をしていきます。 聞きたい話のリクエストも募集中です。 もし、この動画が役に立ったら高評価とチャンネル登録をお願いいたします。