バス乗降記録
ビッグデータ分析の試み
荒巻 凌
慶應義塾大学商学部 / 慶應義塾大学 経済学部 星野研究室
理化学研究所AIPセンター 経済経営情報融合分析チーム
~ 公共交通とデータサイエンス ~
実施している/計画中の研究
• GTFSの公開は交通機関の乗客数に影響を与えるのか?
• 位置情報データを用いた需給マッチング
実施している/計画中の研究
• GTFSの公開は交通機関の乗客数に影響を与えるのか?
• 位置情報データを用いた需給マッチング
2019 年3月
公共交通オープンデータ最前線
in IODD 2019
実際に分析しました
GTFSの公開は
交通機関の乗客数に影響を与えるのか?
• 「検索できなければ、バスは走っていないのと同じ」
• では、検索できるようになれば乗客は増えるか?
• 中津川市のアンケート調査はあるが、計量的分析はまだ無い
⇒統計的な分析をやってみよう
皆様のご協力
• 星野先生(慶應大)
• 青森/八戸への出張に同行していただきました
• 伊藤先生(東大生産研)
• 太田さん(トラフィックブレイン)
• 青森市営バス
• 八戸市営バス
(写真は2019年7月)
小田原機器製 運賃箱のデータ
事業者によってデータ構造が違う!?
• 同じ小田原機器の運賃箱ですが、青森市と八戸市で
• テーブル構造が違う
• 保存期間も違う
• そもそも相互運用することは全く想定されていない
• 分析にはおいしいデータだが、取り扱いが結構大変
• 今後ノウハウを共有していきたい
データを抽出して分析用に前処理
• 路線ごとにデータを整理
• SQLで抽出
• 季節変動を除去
分析手法
• 合成コントロール法 (Synthetic Control Method)
• 統計的手法を用いて、特定の施策の影響のみを測定 (Abadieらによる)
• 例:「犯罪件数:防犯灯の整備・補助」
• 「防犯灯を整備した場合(実測)」vs
「もし防犯灯を整備しなかった場合」
• 「もし整備しなかった場合」を統計的
手法を用いて算出する
• その施策の影響のみを評価できる
乗客数の分析は普通に難しい
• 事業者によってデータ形式/内容が微妙に違う
• オープンデータのみが乗客数に影響を与えるわけではない
• 天候、イベント、人口動態変化 etc
• 説明変数が少なすぎた
• データソースとなる事業者がまだ少ない
• 綺麗に合成コントロールできていない状況
合成コントロール法の問題か?
• 別手法(Causal Impact)を用いた分析も実施
• Causal Impactでも同等の結果で、手法に起因するものではない
• 分析の詳細は論文などで公表予定
実施している/計画中の研究
• GTFSの公開は交通機関の乗客数に影響を与えるのか?
• 位置情報データを用いた需給マッチング
位置情報データを用いた需給マッチング
• GTFSの公開は交通機関の乗客数に影響を与えるのか?
• 位置情報データを用いた需給マッチング
位置情報データを用いた需給マッチング
17
位置情報データを用いた需給マッチング
18
果たして、路線網は
交通需要と一致しているのか?
位置情報データを用いた需給マッチング
19
位置情報データを用いた需給マッチング
20
路線網がないが
移動需要がある地域はないか?
データ分析者(データサイエンティスト)から
公共交通機関のみなさんへ
• ビッグデータの分析はマーケティング分野では基本的ツール
• 公共交通でもその潮流を取り込んでいきませんか?
• オープンデータ化とも相性が良いです
• 運賃箱データやGTFSは宝の山です!活用しないと勿体ない!
• 「地方のジリ貧の公共交通」を変えたい
• 長年の課題、そんな簡単には変わらないかも
• それでも、データ分析は交通を変える力になれると信じています

バス乗降記録ビッグデータ分析の試み