Deep Recurrent Neural Networkによる
環境モニタリングデータの予測
国立研究開発法人 情報通信研究機構
杉浦孔明,Ong Bun Theang,是津耕司
背景:大気汚染の予測精度を向上させることで医療コスト
を軽減できる可能性があるが、現状の精度は十分でない
• PM2.5と大気汚染の損失
– 早期死亡者数=330万人/年 [Lelieveld, Nature, 2015]
• PM2.5予測の難しさ
– 政府勧告手法による精度:42%* (福岡, 2014)
• 時系列に特化したdynamic pretrainingを提案し、DRNNと大規模データで
予測モデルを学習 →気象モデルを超える予測精度
*threat score=TP/(TP+FP+FN)
関東エリアの死者
≒6000人(2010年)
[Ong & Sugiura, IEEE BigData 2014]合肥(2015)
スモッグで曇る
環境系オープンデータは時系列学習の応用先になり得る
各国の大気汚染物質のデータは公開され、日々蓄積されて
いる
→大量のデータを用いて精度を向上できる可能性がある
PM2.5
by 環境省 STICKER by NICT
STICKERのデモ
PM2.5予測およびPre-trainingの関連研究
本研究の独自性
• Deep Recurrent Neural Network (DRNN) による環境モニタリングデータ
の予測
• 時系列に特化した変換を用いたpre-training
分類 例
PM2.5の健康影響 アメリカ50都市データで心肺疾患・死亡率に有意な
関連[Pope 95]
PM2.5予測 • 気象モデルベース予測[Wakamatsu 13]
• 国立環境研VENUS、気象協会、独立系アプリ等
Curriculum learning 学習データの提示順の変更による性能向上[Bengio
09]
Auto encoder (AE) Regularized AE[Ranzato 07], Denoising AE[Vincent 08],
Contractive AE[Rifai 11]
提案手法:Deep Recurrent Neural Network (DRNN)に
Dynamic pre-training(DPT)を導入する
特徴量
(PM2.5, 近隣都市
PM2.5, 風速, 風向,
気温, 日射量, 湿度,
降雨量)
@t, t-1, t-2, …
Pre-
Training
(DPT)
DRNN
Fine-
Tuning
学習フェーズ
センサ
学習済
DPT-
DRNN
特徴量
(PM2.5, 近隣都市
PM2.5, 風速, 風向,
気温, 日射量, 湿度,
降雨量)
@t, t-1, t-2, …
出力:
PM2.5予測
@t+1,t+2,…
学習済
DPT-
DRNN
予測フェーズ
提案手法Dynamic pre-training (DPT):学習データを反復係数
に応じて変化させる
時系列に対してweightを割り当て、学習データを変換
t-2PM2.5@t-3 t-1 t
3/1 12:00
3/1 13:00
3/1 14:00
…
Wind@t-3 t-2
提案手法Dynamic pre-training (DPT):学習データを反復係数
に応じて変化させる
時系列に対してweightを割り当て、学習データを変換
weightを以下で定義する
Epoch
η
実験設定:実験にはすべてオープンデータを用いた
• データ
– 国立環境研究所による公開データ
– 日本52都市、約2年分
• 入力
– PM2.5(対象都市)、PM2.5(近隣都市)、
風速、風向、日照量、湿度、降雨量
• Cross-validation
– 学習(モデル構築):60%
– 検証(ハイパーパラメータ):20%
– テスト:20%
Pre-training手法としての比較結果:
提案手法DPTがベースライン手法に比べ優れる
* 時系列予測ベンチマークであるCATS datasetでもDPTが優れることを確認
• 尺度:Root Mean Square Error
• ベースライン
– Canonical AE (CAE)
– Denoising AE (DAE)
CAE DAE 提案
予測誤差(12時間後)
(最適値)
誤差最小
Fine-tuning後の結果:
層数5においてDPT-DRNNが誤差を最小化した
• 日本52都市、10回の実験の平均、中間層ノード数300
• 詳細はOng & Sugiura et al, IEEE Big Data, 2014を参照
DRNN(DPTなし)
DPNN(DPTあり:提案)
フィードフォワードNN(DPTなし)
フィードフォワードNN(DPTあり)
層数
DPT-DRNNが
誤差最小
予測誤差(12時間後)
気象モデルベース手法との比較結果:
提案手法DPT-DRNNがPrecisionとF値について上回った
• ベースライン
– VENUS(国立環境研)
• 12時間後予測の2値分類
問題として比較
*1日平均値の環境基準である35μg/㎥を基準として2値化
DPT-DRNNが
F値で上回る
まとめ
• PM2.5の健康被害による社会損失は大きく、正確な予測
ができればリスクが高い場所を回避できるようになる
• Dynamic pre-trainingを導入したDeep Recurrent Neural
Network(DPT-DRNN)を提案
• 日本52都市・2年間分のデータを学習に用い、ベースラ
イン手法に比べ予測誤差低減

20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測