More Related Content Similar to Lecture materials(20180820v1)
Similar to Lecture materials(20180820v1) (19) Lecture materials(20180820v1)10. 環境分野(大気)で頻出の統計手法
• 平均値を計算する。
• パーセンタイル値を計算する。
• パーセンタイル値?:全体を100として、小さいほうから何番目の数に該
当するか、を示すもの。
• 例えば、98パーセンタイル値というのは、測定値100個のうち小さいほう
から数えて98番目のものがいくらになるか、を示すもの。
• 98パーセンタイル値を、データの最大値のように比較することも多い。
(なぜか?)
環境のデータは様々な要因に左右されるため、統計で扱うにはふさわしく
ない例外的なケースが、ときどき存在するため。
10
12. 平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
12
13. 平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
<平均値を計算> 地点A:99、地点B:87 ⇒ 地点Aの方が汚染されている!!
13
14. 平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
<平均値を計算> 地点A:99、地点B:87 ⇒ 地点Aの方が汚染されている!!
そこで終わって、いいのでしょうか?
例えば、地点Bでは、134という大きな数字が、観測されました。
本当に、地点Bの方が綺麗だと言えるのでしょうか?
14
37. 国語 社会 数学 理科 英語
Aさん 81 72 44 46 71
Bさん 87 77 37 40 73
Cさん 70 62 38 39 62
Dさん 51 44 82 76 61
Eさん 45 38 90 82 59
Fさん 44 37 85 77 56
Gさん 50 43 64 60 54
因子分析による解析
• 因子分析とは多くのデータの背後に潜む少数の原因を導き出す手
法。心理学や社会学などの分野で多く用いられる。
文系科目が得意
⇒文系能力が高そう
理系科目が得意
⇒理系能力が高そう
英語とGさんに対する評価は、不明瞭 37
40. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
40
41. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
41
42. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
42
43. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
43
44. 因子分析による解析
文系能力 理系能力
Aさん 1.40 0.26
Bさん 1.53 0.04
Cさん -1.7 -2.35
Dさん 0.82 1.46
Eさん 0.71 1.72
Fさん -0.46 0.59
Gさん -2.31 -1.71
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○Aさん、Bさん、Cさんは文系能力の方が
理系能力よりも高い。
○Dさん、Eさん、Fさんは、理系能力の方が
文系能力よりも高い。
○Gさんは、やや理系能力の方が高い。
44
45. 因子分析による解析
英語はどちらの能力の影響を受けているのか?
Gさんは、どちらの能力が高そうなのか?
国語 社会 数学 理科 英語
Aさん 83 92 55 61 78
Bさん 95 88 65 63 80
Cさん 79 85 48 70 70
Dさん 63 59 98 89 73
Eさん 67 68 83 79 59
Fさん 72 61 73 94 71
Gさん 75 69 72 65 72
・英語は、文系能力が高いほうが高い
・Gさんは、文系能力と理系能力に差はほ
とんどない。
このようなことを、表を見た直観で理解するのではなく
数学的な理論に基づいて、述べることができます。
45
51. 因子分析の適応
• よく使われるのがPMF(positive matrix factorization)法
• アメリカ合衆国環境保護庁が無料で公開しているソフトを利用
• 因子分析の手法を用いて、環境データの分析に適した形に特化した
もの。
• ただし、あくまでも統計的な推定であり、必ずしも答えが明確に出る
わけではない。
• 成分だけではなく、気象などの条件も踏まえて、多角的に考える必
要がある。
51
71. 頻度論とベイズの比較
ベイズ統計学 1回目:表が出た → 「このコインは表しか出ない!このコインが
“裏しか出ないコインである”確率は消えた。」
2回目:表が出た → 「やっぱり、このコインは表しか出ない!!」
3回目:裏が出た → 「表が出やすいけど、裏が出る場合もある。
“表しか出ない”、という可能性は消えた。」
4回目:裏が出た → 「表と裏が、同じくらい出やすい」
サイコロの目について考える
71
74. 欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
74
75. 欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
75
頻度論的統計学では、解析手法によっては
上の緑の部分が、使えないデータになってしまう。
もったいない!!
76. 欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
76
ベイズ統計学なら、使えないデータは
測定していないところだけ。
データを最大限に生かせる!!
77. 外れ値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 500 92 104 47 111 85 66 69 70 116 64 71
77
500は、おそらく何らかの測定ミスだと考えられるが
もしかしたら、本当に500なのかもしれない。
500は怪しいと思いつつ、一応、データとして
そのまま解析を行うことができるのも
ベイズ統計の特徴
98. 大気環境への機械学習の応用例
• 荒木, et.al., 大気環境学会年会, 2017
土地利用情報や、道路長、排出データや気象データから機械学習を用
いて、NO2濃度を予想。
• D.J.Lary, et.al., Environmental Health Insights, 41-52, 2015
PM2.5の濃度をエアロゾルの光学的厚さと気象データのセットから推定。
その結果を疫学的な調査と照らし合わせて、PM2.5の影響を推定
• Y. Zhan, et.al,. Atmos. Env., 129-139, 2017
エアロゾル光学的厚さと気象データでPM2.5濃度を推定
• B. Pass, et.al., Environments, 1-25, 2017
騒音の測定結果と周辺のPM濃度および気象データから、粒径別のPM
の濃度を推定。
• J. K. Deters, et.al., J. Elect. Comp. Eng., 1-14, 2017
気象データをもとにPMの濃度を推定。
• Yi-C. Wu, et.al., Science & Applications, 1-12, 2017
特殊な可搬式の顕微鏡のデータに機械学習のメソッドを適用することで、
費用対効果の高いPM2.5測定の方法を提案。
104. 教師あり学習(一般論):判別
判定 PM2.5 SO4
2- NO3
- Na+ Ca2+
越境汚染 38 17 5 0.5 0.1
越境汚染 28 11 3 0.5 0.2
越境汚染 31 10 2 0.7 0.1
地域汚染 14 5 3 0.2 0.1
地域汚染 17 9 4 0.1 0.1
地域汚染 8 3 1 0.1 0.1
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
??? 25 10 3 0.3 0.1
機械学習プログラムで学習
105. 教師あり学習(一般論):数値予測
PM2.5 SO4
2- NO3
- Na+ Ca2+
38 17 5 0.5 0.1
28 11 3 0.5 0.2
31 10 2 0.7 0.1
14 5 3 0.2 0.1
17 9 4 0.1 0.1
8 3 1 0.1 0.1
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
??? 10 3 0.3 0.1
機械学習プログラムで学習
ん?
回帰分析?
128. 線形回帰による推定
BMI = (体重 × 0.89) +
(身長 × -0.33) +
0.19
0.2 0.4 0.6 0.8
0.30.50.7
実測値
予測値
相関係数:0.9757
0.2 0.4 0.6 0.8
0.20.40.60.8
身長
BMI
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.20.40.60.8
体重
BMI
129. ANNによる推定
BMI_model <-
neuralnet(BMI ~ Hei + Wei, data = data_train, hidden = 2)
相関係数:0.9998!!
1.4444
-1.33809
Wei
-1.32671-0.80888Hei
1.73822
-1.40576
BMI
-0.54784
-0.27051
1
0.09421
1
Error: 0.003697 Steps: 4493 0.2 0.4 0.6 0.8
0.20.40.60.8
実測値
予測値
関係性のあるデータを指定するだけで
実際の式が分かっていなくても
BMIの数字を、ほぼ正確に予測!
132. まずは、単純な考え
最も単純なモデル
予測値 = 説明変数 + 誤差
説明変数が1つのモデル。 さて・・・・・なにを説明変数にしようか??
PM2.5の時間値は時系列データなのでよくある例は1時間前の値。
時刻 t におけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 (+ 誤差)
この予測の、正しさを評価する方法としては
予測値と実測値の相関係数を用いる。
この場合、相関係数は0.676 ・・・・・結構高いネ。
0.1 0.2 0.3 0.4
0.10.20.30.4
実測値
予測値
135. 重回帰分析
時刻tにおけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 +
気温 + 風速 + 気圧 + 相対湿度 + NO2濃度 + Ox濃度
*話の都合上、多重共線性は、無視しております♪
Rプログラム
regPM_model <- lm(PM_pre ~ PM + temp +
windS + press + hum +
NO2 + Ox, data = PM_train)
0.1 0.2 0.3 0.4
0.10.20.30.4
実測値
予測値
相関係数:0.697 ちょっと改善
137. ニューラルネットワーク(単層)
時刻tにおけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 + 気温 + 風速 + 気圧 + 相対湿度 +
NO2濃度 + Ox濃度
*話の都合上、多重共線性は、無視しております♪
Rプログラム
PM_model <- nuralnet(PM_pre ~ PM + temp +
windS + press + hum +
NO2 + Ox, data = PM_train)
相関係数:0.697 重回帰と変わらず!?
0.1 0.2 0.3 0.4
0.150.200.250.300.350.400.45
実測値
予測値
138. ニューラルネットワーク(多層)
時刻tにおけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 + 気温 + 風速 + 気圧 + 相対湿度 +
NO2濃度 + Ox濃度
*話の都合上、多重共線性は、無視しております♪
Rプログラム
PM_model2 <- nuralnet(PM_pre ~ PM + temp +
windS + press + hum +
NO2 + Ox, data = PM_train, hidden = 4)
相関係数:0.751 けっこう改善!!
0.1 0.2 0.3 0.4
0.100.150.200.250.300.350.40
実測値
予測値
140. PM2.5の予測精度
単純モデル <
重回帰 ≒
単層ニューラルネットワーク <
多層ニューラルネットワーク
(Deep Learning)
今回は、実測値と予測値の相関係数で予測精度としましたがもっと確認すべき部分とか
あります。そういうのは、書籍やWebで出ているんで、参考にしてください。
また、計算手法についても、様々な人が提案しており、今回はそのうちの一つを
採用しただけです。他の手法も存在します。
そのため、手法を変えれば結果が変わる可能性もあります。
142. 大気環境への機械学習の応用例
• 荒木, et.al., 大気環境学会年会, 2017
土地利用情報や、道路長、排出データや気象データから機械学習を用
いて、NO2濃度を予想。
• D.J.Lary, et.al., Environmental Health Insights, 41-52, 2015
PM2.5の濃度をエアロゾルの光学的厚さと気象データのセットから推定。
その結果を疫学的な調査と照らし合わせて、PM2.5の影響を推定
• Y. Zhan, et.al,. Atmos. Env., 129-139, 2017
エアロゾル光学的厚さと気象データでPM2.5濃度を推定
• B. Pass, et.al., Environments, 1-25, 2017
騒音の測定結果と周辺のPM濃度および気象データから、粒径別のPM
の濃度を推定。
• J. K. Deters, et.al., J. Elect. Comp. Eng., 1-14, 2017
気象データをもとにPMの濃度を推定。
• Yi-C. Wu, et.al., Science & Applications, 1-12, 2017
特殊な可搬式の顕微鏡のデータに機械学習のメソッドを適用することで、
費用対効果の高いPM2.5測定の方法を提案。
145. 自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる(高濃度化の要因を探る)。
145
146. 自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる(高濃度化の要因を探る)。
違った視点からの
解析が、できないか?
146
162. 測定値のモデル
ln [PM] d, r, c, p, m ~ N ([mPM] d, r, c, p, m , s )
[mPM] d, r, c, p, m <- [PM.0]m + [a.effect]r, c + [p.effect]p
[a.effect]r, c ~ car.normal(Adj[], Weight[], Num[], s’)
c
c + Δc
r + Δr
r 測定局p
ある日(d) の測定値。
この日はm月であった。
真の値は 、
月平均
地域的な影響
局所的な影響
の合計。
[mPM] d, r, c, p, m
[PM.0] m
[a.effect] r, c
[p.effect] p
162
175. 一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
175
176. 一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
176
177. 一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
177
178. 排出量データ:EAGrid2000-JAPAN1)
とは?
• EAGrid2000-Japanは、2000年度を対象とした大気汚染物質排出デー
タである。
• 日本国内の様々なデータ(固定発生源種類・規模、発電量、廃棄物
処理量、自動車交通量、船舶航行データなど)から、1km2ごとでの
排出量を推定した総合的な排出量データ。
• この中から、今回はPM2.5の排出に係るデータを取り出し、結果の比
較を行った。
1) Kannari, A., Tonooka, Y., Baba, T., Murano, K.:Development of multiple-species
1 km×1 km resolution hourly basis emissions inventory for Japan, Atmospheric
Environment, 41, 3428‒3439 (2007). 178
Editor's Notes CPF解析とは、高濃度が観測されるときの風向を調べ、頻度の高い風向の風上に発生源があると推定する方法で、左下の式のように、風向ごとにすべての風の数を分母とし、高濃度時の風の数を分子として割り算を行います。その割り算の結果を風向ごとに示した例が右のグラフになりますが、赤で囲った凸になった方向は、発生源があると考えられる方向です。 しかし、例えばこの例についてみると、東、西南西、北西はいずれも高い値を示しておりますが、例えば実際の風の数が下のように風向ごとに大きく異なるとすると、それぞれの数値の値の信頼性は風向ごとに異なってしまいます。風の数が少ない風向のデータは“たまたまの結果”である可能性が、高くなってしまい、同列に扱っていいのかどうか、疑問が残ります。 ここから結果の報告に入りますが、まずは、調査地点について述べたいと思います。名古屋市は、左の地図の通り伊勢湾の奥に位置しております。右の地図の黒い線は行政区を、赤い線は市内を通る主要な国道を示しており、2か所の調査地点が黒丸で示してあります。元塩公園は、国道23号という大きな道路に接しています。図では分かりにくいですが、元塩公園のすぐ西を道路が走っている環境です。
こちらが、CPF解析の結果になります。元塩公園では、平成23年度、24年度共に北を中心とした方向から風が吹くときに、高濃度となる傾向が明らかとなりました。また、西の風向でも凸となり、高濃度になりやすいことがわかります。あと、平成23年度では南南西で特徴的に高い割合になりました。八幡中学校でも、年度による大きな差はなく南西を中心とした風向の時に高濃度になる傾向が明らかになった。 まず、それぞれの地点、年度における風配図を示しました。年度、地点によらず名古屋市では、北西側からの風が多く吹いていることがわかります。 しかし、例えばこの例についてみると、東、西南西、北西はいずれも高い値を示しておりますが、例えば実際の風の数が下のように風向ごとに大きく異なるとすると、それぞれの数値の値の信頼性は風向ごとに異なってしまいます。風の数が少ない風向のデータは“たまたまの結果”である可能性が、高くなってしまい、同列に扱っていいのかどうか、疑問が残ります。 そこで今回、ベイズ統計による解析を行い、風向と濃度の関係について調べました。ベイズ解析というのは、ここに示されたベイズの定理を用いた統計学で、従来の統計学とは異なる様々な特徴を持ち、近年、多くの分野で活用さております。 ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。 ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。 ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。 ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。 ベイズ統計はエクセルなどの表計算ソフトで実施するのは困難なため、今回はWinBUGSとRという統計専用のソフトを使用しました。解析にあたり最も重要なのは、PM2.5の質量濃度の変動に対して、何が影響しているのかを自分で見極める必要があるということです。これは、自動的に計算されるのではなく、それまでの知見から自分で設定しなければなりません。いくつかの予備検討を行った結果、今回は、以下の式に示しているような<風向の影響を受けない月ごとの平均値>に<風向の影響値>が加わることで、観測されるPM2.5の質量濃度になると仮定しました。 次に、ベイズ統計よる解析結果を示します。まずは元塩公園について結果を示しました。ベイズ統計では、ある風向の時に、どれくらい濃度が上昇するかを解析し、上昇する濃度の中央値をひし形で、それを中心とした95%確信区間についてバーで示しました。また、先ほどのCPF解析で示しました高濃度の観測される割合については水色の丸印で右側の軸を使って示してあります。全体的な傾向としてひし形マークの増減の動きと丸印の増減の動きは連動しており、北を中心とした方向からの風によって濃度が上昇する傾向がいずれの解析方法でも確認できます。先ほど地図で示しました通り、元塩公園は西に大きな幹線道路があり、そちらからの影響が大きいと推測しておりますが今回は北方向の風の影響が示されました。これは、局所的な建物の影響なども受けている可能性があります。
ベイズ統計の特徴である結果の信頼性に着目すると、例えば平成23年度の南南西や平成24年度の南のデータは、バーの長さが長くなっており、その方向からの風の影響は高い時もあれば低い時もあり、一定の傾向を示さないことがベイズ統計の結果では示されております。他にも、いくつかバーの長さの長い風向があり、そのデータの信頼性は低いことが示されました。 こちらは、八幡中学校のデータの解析結果になります。元塩公園の時と同様に、ひし形と丸印はおおむねその動きが連動して、南西方向からの風により濃度が上昇する傾向を確認することができます。バーの長さについては、元塩公園のグラフと比べると小さくなっており、結果に対する信頼性が全体的に、元塩公園の結果と比較すると高いことが明らかとなりました。測定地点の南に位置する名古屋港周辺は工場地帯で、また船舶なども影響して、濃度上昇に寄与しているのではないかと考えられます。 結果の信頼性については、風向の数と関係があると予測できるので、その関係をグラフにしたのが、こちらになります。横軸に風向の数を対数でとり、縦軸には先ほどのグラフの95%確信区間の幅をとりました。丸印が元塩公園、ひし形が八幡中学校を示し、塗りつぶしてある方が平成24年度の結果です。見ていただきますとわかるとおり、風向の数と95%確信区間には明らかに相関があります。この相関は年度や地点による変化はあまりなく、例えば、おおむね5μg/m3の95%確信区間を得るためには約100サンプルが必要であることが分かります。