1 / 41

GISA学術研究発表Web大会

携帯電話のGPSログデータを用いた
人 々 の 行 動 パ タ ーン の 分 類

東京大学大学院
西村隆宏

はじめに

背景

方法

結果

考察

課題
2 / 41

Agenda
・背景
・方法
・結果

: GPSデータを取り巻く環境

・考察
・課題

: 分 析 結 果 か ら 導 ける こ と

はじめに

背景

: 分類に関する既存データの利用
: 分 析 結 果 に つ いて

: 今後研究を進める上での課題
方法

結果

考察

課題
3 / 41

背景

はじめに

背景

方法

結果

考察

課題
4 / 41

社会の変化
既往研究
はじめに

背景

方法

結果

考察

課題
5 / 41

社会の変化
既往研究
はじめに

背景

方法

結果

考察

課題
6 / 41

購入行動の変化
1960 2000
・大量生産大量消費
・実店舗で購入

現在
・少量生産少量消
費
・Web通販で購入

顧客の嗜好は多様化している
はじめに

背景

方法

結果

考察

課題
7 / 41

顧客調査の手法
・アンケート調査
- 訪問調査
- 利点: 回収率が高い
- 欠点: 大量・広域の情報を取得できない
- Web調査
- 利点: 大量に情報を取得できる
- 欠点: サンプルが偏る、回収率が低い
アンケート調査は簡単だが限界もある
はじめに

背景

方法

結果

考察

課題
8 / 41

顧客調査の手法
・POSデータの分析
- 利点
顧客の嗜好傾向が非常にわかりやすい
- 欠点
個人属性がわからないので、調査内容が
限定的になってしまう
POSデータにも調査の限界がある
はじめに

背景

方法

結果

考察

課題
9 / 41

GPSデータの利活用
・GPSデータ
- 利点
ユーザーの行動が明らかになる
様々な調査に応用が可能
- 欠点
非集計かつ空間データのため、扱いが
複雑である
ハンドリングが難しいが、応用性は非常に高い
はじめに

背景

方法

結果

考察

課題
10 / 41

GPSデータの活用例
・モバイル広告代理店
10:00AM

18:00PM

15:00PM
百貨店

ユーザー

広告配信
DB

カフェ
流行もの
レストラン

ユーザーの位置・時間から最適な広告を配信
はじめに

背景

方法

結果

考察

課題
11 / 41

社会の変化
既往研究
はじめに

背景

方法

結果

考察

課題
12 / 41

既往研究
・山本らの研究*
- 研究対象地域を複数のエリアに分割し
被験者の通過状況をもとに
行動パターンの分類を行った。
年齢、グループ構成で
行動パターンに違いがある
行動パターンの分類はGPSデータで可能である
はじめに

背景

方法

結果

考察

課題

*GPSを用いた新宿御苑における利用者の行動パターンに関する研究, 日本造園学会誌 69,601,604
13 / 41

方法

はじめに

背景

方法

結果

考察

課題
14 / 41

使用したデータ
・混雑統計®
・事業所, 企業統計調査
・Cameoコード
対象エリア:東京急行電鉄2km沿線
はじめに

背景

方法

結果

考察

課題
15 / 41

使用したデータ
・混雑統計®
・事業所, 企業統計調査
・Cameoコード
はじめに

背景

方法

結果

考察

課題
16 / 41

混雑統計
id

date

lon

lat

Precision

44

2010/8/1
140.454154 37.683889
0:45

1

239

2010/8/1
140.452909 37.683889
0:45

1

342

2010/8/1
140.456944 37.683889
0:45

1

378

2010/8/1
140.454154 37.683889
0:45

3

精度が悪いデータは
滞留点の計算時に
除外する

本研究で最も重要なデータ
はじめに

背景

方法

結果

考察

課題
17 / 41

使用したデータ
・混雑統計®
・事業所, 企業統計調査
・Cameoコード
はじめに

背景

方法

結果

考察

課題
18 / 41

事業所・企業統計調査
メッシュコード

事業所数

従業員数

533900043

1

6

533900051

1

10

533900053

2

27

533900071

1

221

533900073

2

4

533900074

4

2

533900081

1

76

事業所・企業統計調査表

分類結果表

地域分類のためのデータ
はじめに

背景

方法

結果

考察

課題
19 / 41

使用したデータ
・混雑統計®
・事業所, 企業統計調査
・Cameoコード
はじめに

背景

方法

結果

考察

課題
20 / 41

Cameoコード
グループNo.

特徴

1

裕福な単身・二人世帯の多い都会地域

2

裕福な中高年の多い地域

3

裕福なファミリーの多い地域

4

比較的裕福な単身者の多い地域

5

ホワイトカラー・2世帯住宅の多い地域

6

平均的な中高年の多い地域

はじめに

背景

方法

結果

考察

課題
21 / 41

使用データのまとめ
滞留点
混雑
統計®

はじめに

背景

使用データ

推定居住地

Cameoコード

非推定居住地

事業所・企業
統計調査

方法

結果

考察

課題
22 / 41

解析のフロー
Start

滞留点を推定

混雑統計

Cameo
コード

Cameoコードを
割り当て

500mメッシ
ュに集計

メッシュを
分類

商業コード

滞留点
データ

yes

各Cameoコード
別にユーザー分
類

居住地か
どうか

クラスタ数の
決定

事業所統計

no

滞留点を商業コ
ードに変換し、
集計

クラスタサイ
ズが最大か

no

非標準行動
クラスタと命名

yes

標準行動
クラスタと命名

はじめに

背景

方法

結果

標準行動クラス
タと非標準行動
クラスタの類似
度を計算

考察

End

課題
23 / 41

結果

はじめに

背景

方法

結果

考察

課題
24 / 41

Start

滞留点を推定

混雑統計

Cameo
コード

Cameoコードを
割り当て

500mメッシ
ュに集計

メッシュを
分類

商業コード

滞留点
データ

yes

各Cameoコード
別にユーザー分
類

居住地か
どうか

クラスタ数の
決定

事業所統計

no

滞留点を商業コ
ードに変換し、
集計

クラスタサイ
ズが最大か

no

非標準行動
クラスタと命名

yes

標準行動
クラスタと命名

はじめに

背景

方法

結果

標準行動クラス
タと非標準行動
クラスタの類似
度を計算

考察

End

課題
25 / 41

UserID

lon

lat

flag

358

139.6572145
35.571478

1

528

139.65522 35.570136

1

811

139.65707634.844495

1

1290

135.448560655.167193
3

2

1305

139.80227634.832681

1

2028

137.05060833.527822

0

2069

139.00638336.350873

0

2115

139.00515 36.34136

1

2142

130.09249956.3429395
3

1

3381

130.0924995
33.290681

1

はじめに

背景

方法

     1: 居住地
     2: 勤務地
     3: 駅
     0: その他
のフラグがついており、
このフラグをもとに滞留点を
各データに変換する


結果

考察

課題
26 / 41

Start

滞留点を推定

混雑統計

Cameo
コード

Cameoコードを
割り当て

500mメッシ
ュに集計

メッシュを
分類

商業コード

滞留点
データ

yes

各Cameoコード
別にユーザー分
類

居住地か
どうか

クラスタ数の
決定

事業所統計

no

滞留点を商業コ
ードに変換し、
集計

クラスタサイ
ズが最大か

no

非標準行動
クラスタと命名

yes

標準行動
クラスタと命名

はじめに

背景

方法

結果

標準行動クラス
タと非標準行動
クラスタの類似
度を計算

考察

End

課題
27 / 41
28 / 41

Start

滞留点を推定

混雑統計

Cameo
コード

Cameoコードを
割り当て

500mメッシ
ュに集計

メッシュを
分類

商業コード

滞留点
データ

yes

各Cameoコード
別にユーザー分
類

居住地か
どうか

クラスタ数の
決定

事業所統計

no

滞留点を商業コ
ードに変換し、
集計

クラスタサイ
ズが最大か

no

非標準行動
クラスタと命名

yes

標準行動
クラスタと命名

はじめに

背景

方法

結果

標準行動クラス
タと非標準行動
クラスタの類似
度を計算

考察

End

課題
29 / 41

集計結果
UserID

Cameo

1

358

2

31

528

2

0

811

1

71

1290

1

1305

1

2028

1

2069

2

2115

2

3

4

5

1

2

3

4

5

UserID

Cameo

358

2

4

528

2

32 133 23

58

811

1

0.22 0.1 0.42 0.07 0.18

15

40 484 67

82

1290

1

0.02 0.06 0.7

29

30 136

7

687

1305

1

0.03 0.03 0.15 0.01 0.77

288 205 428

3

171

2028

1

0.26 0.19 0.39

39

69 342 488 404

2069

2

0.03 0.05 0.25 0.36 0.3

4

14

77 664 121 69

2115

4

0.01 0.08 0.7 0.13 0.07

2142

4

14

92 983 635 159

2142

4

0.01 0.05 0.52 0.34 0.08

3381

1

3

14 371 43 274

3381

1

88 214 54 129
7

264 357

頻度表の一部

はじめに

背景

0.06 0.17 0.41 0.1 0.25
0

0

0.01 0.42 0.56 0.01

0.1 0.12

0

0.16

0.02 0.53 0.06 0.39

正規化後の表の一部

方法

結果

考察

課題
30 / 41

Start

滞留点を推定

混雑統計

Cameo
コード

Cameoコードを
割り当て

500mメッシ
ュに集計

メッシュを
分類

商業コード

滞留点
データ

yes

各Cameoコード
別にユーザー分
類

居住地か
どうか

クラスタ数の
決定

事業所統計

no

滞留点を商業コ
ードに変換し、
集計

クラスタサイ
ズが最大か

no

非標準行動
クラスタと命名

yes

標準行動
クラスタと命名

はじめに

背景

方法

結果

標準行動クラス
タと非標準行動
クラスタの類似
度を計算

考察

End

課題
31 / 41

クラスタリング結果
標準行動
クラスタ

495人

138人
非標準行動
クラスタ

179人
330人

C a m e o コ ー ド 1 番 ユー ザー の
クラスタリング結果

はじめに

背景

方法

結果

考察

課題
32 / 41

クラスタリング結果
居住地属性

居住地属性

人数

1-1

495

3-3

17

1-2

138

3-4

15

1-3

179

4-1

54

1-4

330

4-2

95

2-1

153

4-3

31

2-2

163

4-4

78

2-3

87

4-5

54

2-4

169

5-1

21

2-5

82

5-2

48

3-1

20

5-3

44

3-2

はじめに

人数

16

背景

方法

結果

考察

課題
33 / 41

Start

滞留点を推定

混雑統計

Cameo
コード

Cameoコードを
割り当て

500mメッシ
ュに集計

メッシュを
分類

商業コード

滞留点
データ

yes

各Cameoコード
別にユーザー分
類

居住地か
どうか

クラスタ数の
決定

事業所統計

no

滞留点を商業コ
ードに変換し、
集計

クラスタサイ
ズが最大か

no

非標準行動
クラスタと命名

yes

標準行動
クラスタと命名

はじめに

背景

方法

結果

標準行動クラス
タと非標準行動
クラスタの類似
度を計算

考察

End

課題
34 / 41

類似度計算 1/2
・標準行動クラスタ間の類似度を計算する

1

2

3

4

2

0.17

3

0.78

0.58

4

0.98

0.13

0.71

5

0.06

-0.41

-0.25

はじめに

背景

方法

結果

考察

0.16

課題
35 / 41

類似度計算 2/2
・ すべ ての 組 み 合 わ せ に お いて 類 似 度 を 計 算 す る
1

2

3

4

5

1-2

0.44

0.39

0.57

0.45

0.68

1-3

0.61

0.59

0.62

0.75

0.74

1-4

0.64

0.58

0.85

0.63

0.84

2-1

0.63

0.57

0.83

0.64

0.81

2-2

0.75

0.75

0.67

0.85

0.7

2-3

0.37

0.35

0.43

0.56

0.64

2-5

0.54

0.5

0.67

0.58

0.79

3-2

0.57

0.56

0.57

0.72

0.69

3-3

0.47

0.41

0.66

0.5

0.8

3-4

0.89

0.9

0.74

0.86

0.59

4-1

0.88

0.89

0.69

0.85

0.53

4-3

0.52

0.45

0.78

0.51

0.69

4-4

0.59

0.54

0.72

0.68

0.87

4-5

0.49

0.48

0.48

0.66

0.63

5-1

0.44

0.43

0.45

0.62

0.63

5-2

0.9

0.9

0.76

0.88

0.64

1-2
1-3
1-4
2-1
2-2
2-3
2-5
3-2
3-3
3-4
4-1
4-3
4-4
4-5
5-1
5-2

対応表

類似度表

はじめに

背景

5
4
3
3
4
5
5
4
5
2
2
3
5
4
5
4

方法

結果

考察

課題
36 / 41

考察

はじめに

背景

方法

結果

考察

課題
37 / 41

考察
グループNo.

特徴

1

裕福な単身・二人世帯の多い都会地域
1

2

3

4

2

裕福な中高年の多い地域

2

0.17

3

裕福なファミリーの多い地域

3

0.78

0.58

4

0.98

0.13

0.71

5

0.06

-0.41

-0.25

4

比較的裕福な単身者の多い地域

5

ホワイトカラー・2世帯住宅の多い地域

6

平均的な中高年の多い地域

0.16

各標準クラスタ間の相
関

Cameoコードの特徴

年齢によって行動パターンが変化する
はじめに

背景

方法

結果

考察

課題
38 / 41

考察
1-2
1-3
1-4
2-1
2-2
2-3
2-5
3-2
3-3
3-4
4-1
4-3
4-4
4-5
5-1
5-2

5
4
3
3
4
5
5
4
5
2
2
3
5
4
5
4

・居住地のCameoコードと異
 なる地域の標準クラスタと
 類似度が高い

対応表

同地域内居住者で行動が異なる人が一定数いる
はじめに

背景

方法

結果

考察

課題
39 / 41

考察
1

2

3

4

5

居住地属性

人数

居住地属性

人数

1-2

0.44

0.39

0.57

0.45

0.68

1-1

495

3-3

17

1-3

0.61

0.59

0.62

0.75

0.74

1-4

0.64

0.58

0.85

0.63

0.84

1-2

138

3-4

15

2-1

0.63

0.57

0.83

0.64

0.81

1-3

179

4-1

54

2-2

0.75

0.75

0.67

0.85

0.7

1-4

330

4-2

95

2-3

0.37

0.35

0.43

0.56

0.64

2-1

153

4-3

31

2-5

0.54

0.5

0.67

0.58

0.79

3-2

0.57

0.56

0.57

0.72

0.69

2-2

163

4-4

78

3-3

0.47

0.41

0.66

0.5

0.8

2-3

87

4-5

54

3-4

0.89

0.9

0.74

0.86

0.59

2-4

169

5-1

21

4-1

0.88

0.89

0.69

0.85

0.53

4-3

0.52

0.45

0.78

0.51

0.69

2-5

82

5-2

48

4-4

0.59

0.54

0.72

0.68

0.87

3-1

20

5-3

44

4-5

0.49

0.48

0.48

0.66

0.63

3-2

16

5-1

0.44

0.43

0.45

0.62

0.63

5-2

0.9

0.9

0.76

0.88

0.64

各 ク ラ ス タ サイ ズ の 表

類似度表

・例えばCameoコード1番に居住する人のうち、
 中高年者が12%, 裕福なファミリーが15%含ま
 れているとわかる。
はじめに

背景

方法

結果

考察

課題
40 / 41

本研究のまとめ
・GPSデータから滞留点を推定
↓
・居住推定地と非居住地に分類し、
 居住地傾向から各ユーザーの属性を推定

裕福と推定される人々の個人属性は推定可能
はじめに

背景

方法

結果

考察

課題
41 / 41

課題

はじめに

背景

方法

結果

考察

課題
42 / 41

課題
・地域分類がまだ不完全
・日本全国を対象に行う
・滞留点の滞留時間を考慮に入れる
・推定勤務地の情報も追加する
さらに細かく分類する必要がある
はじめに

背景

方法

結果

考察

課題
43 / 41

ご静聴ありがとう
ございました
はじめに

背景

方法

結果

考察

課題

2013 gis学会 発表スライド