SlideShare a Scribd company logo
環境分野における統計学の
活用
名古屋市環境科学調査センター
研究員 久恒 邦裕
平成30年度講義資料
1
*資料の二次配布は禁止します。
*データや結果の正確性には万全を期しておりますが、誤りについてはご容赦ください。
<統計学の基礎>
•統計の役割
•統計データの意味
<環境データの解析>
•因子分析を使用した例
•ベイズ統計を使用した例
•機械学習を使用した例
2
<統計学の基礎>
•統計の役割
•統計データの意味
<環境データの解析>
•因子分析を使用した例
•ベイズ統計を使用した例
•機械学習を使用した例
3
環境問題における統計の役割
その環境は
人が生活するのに
心地よいのか?
人を不快にし
または命を脅かすものは
なにか?
その要因は
人為的なものか
自然のものか?
人為的
(または自然の)
要因について
詳しく知りたい その要因は
人間(生き物)に
どう影響するのか?
その要因の
正体は?
○疫学的な調査
○動物実験 など
○化学分析
○実態調査 など
集められた膨大なデータから
分かったことはなんなのか?
統計が、データの要約を行う
4
公開データの一例
環境展望台(http://tenbou.nies.go.jp/)による
データ公開の一例(PM2.5濃度のマップ)
環境省HPにて公開されている
化学物質の調査結果
http://www.env.go.jp/doc/toukei/contents/pdfdata/H27_7.pdf
大気汚染物質広域監視システム
(通称:そらまめ君)による
リアルタイムな環境データ
http://soramame.taiki.go.jp/Index.php
5
何のための情報か?
もちろん、名古屋市などの地方自治体でも
多くの情報を公開しています。
名古屋市の大気環境状況(PM2.5濃度の時系列グラフ)
http://www.kankyo-net.city.nagoya.jp/taiki/Graph/OyWbGra200101.htm
・今、どうなっているかを知りたい。
・過去、どうだったかを知りたい。
⇒公開されているデータを見ればOK
・そのような環境になった、原因はなんなのか。
・これから、どうなっていくことが予想されるのか。
⇒公開されているデータから
数字以上の“解釈”を得る必要がある。
6
<統計学の基礎>
•統計の役割
•統計データの意味
<環境データの解析>
•因子分析を使用した例
•ベイズ統計を使用した例
•機械学習を使用した例
7
そもそも、統計とは
名古屋市内の空気中の窒素酸化物濃度を測定したい。
⇒ 空気をすべて集めてきて、窒素酸化物の量を測定すればいい・・・不可能
日本人の平均身長を求めたい。
⇒ 国民全員の身長のデータを測定・・・・・現実的?
工場で作ったパンの重さの平均値を知りたい。
でも、衛生上の問題から重さをはかったパンは廃棄します。
⇒ 当然、すべてのパンを測定できない。できるだけ測定数を少なくしたい。
8
そもそも、統計とは
見やすい
理解しやすい
形に変化
現実的には入手できないデータ(ex. 量が多すぎる、測定が不可能)の特徴を
入手可能なデータから類推する。
名古屋市の窒素酸化物のデータが知りたい
⇒市内すべての空気を測定することは不可能。いくつかのポイントで測定して
そのデータから、市内の平均値を類推する
少数の測定データ
(入手可能)知りたいが、手に負えない何か
(データ入手不可能)
9
環境分野(大気)で頻出の統計手法
• 平均値を計算する。
• パーセンタイル値を計算する。
• パーセンタイル値?:全体を100として、小さいほうから何番目の数に該
当するか、を示すもの。
• 例えば、98パーセンタイル値というのは、測定値100個のうち小さいほう
から数えて98番目のものがいくらになるか、を示すもの。
• 98パーセンタイル値を、データの最大値のように比較することも多い。
(なぜか?)
環境のデータは様々な要因に左右されるため、統計で扱うにはふさわしく
ない例外的なケースが、ときどき存在するため。
10
平均値とは何か?
• 平均値を計算する。
?? そもそも、平均値とは何なのか?
☆データの総和を、データ数で割り算したもの
(相加平均)
一般的に、平均値はデータの代表性を持っているとして
データの要約に使われる。
ex. 年間の平均、クラスの平均、10代女性の平均、日本人の平均
平均値の持つイメージ:たくさんのデータの中心、真ん中
多くのデータがその数字の近くの値になる
11
平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
12
平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
<平均値を計算> 地点A:99、地点B:87 ⇒ 地点Aの方が汚染されている!!
13
平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
<平均値を計算> 地点A:99、地点B:87 ⇒ 地点Aの方が汚染されている!!
そこで終わって、いいのでしょうか?
例えば、地点Bでは、134という大きな数字が、観測されました。
本当に、地点Bの方が綺麗だと言えるのでしょうか?
14
ヒストグラムで考える
• 表のデータは、見にくい。
⇒ 図(グラフ)にすることで特徴を把握できる。
• 沢山の数字があるデータは、まずヒストグラムにしてみるのが
おススメ。
ヒストグラムとは?
数字のデータが、どの範囲に何個あるのか、をグラフにしたもの。
ニュースなどでも、年代ごとの人口、収入で分けた世帯数、等で多
用されています。
15
ヒストグラムで考える
地点Aは、95~100の値が最も多く
測定された。
地点Bは、測定される値にばらつき
がある。
高い濃度を出しやすいのは、地点B
16
ヒストグラムで考える
地点Aは、95~100の値が最も多く
測定された。
地点Bは、測定される値にばらつき
がある。
高い濃度を観測しやすいのは地点B
のほうで、平均値が低いからと言っ
て、必ずしも低濃度の地域だとは言
えない。
17
0
1
2
3
4
5
6
7
8
9
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
95~100
100~105
105~110
110~115
115~120
120~125
125~130
130~135
日
測定結果のヒストグラム
地点A
ヒストグラムで考える
平均を中心に、なんとなく左右対称。
平均値付近の数字も日数が多いし、平
均値を中心と考えても悪くない。
地点Aの平均値
18
0
1
2
3
4
5
6
7
8
9
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
95~100
100~105
105~110
110~115
115~120
120~125
125~130
130~135
日
測定結果のヒストグラム
地点B
ヒストグラムで考える
左右の対称性は、地点Aよりも悪い。
日数も少ないし、こんな数字を、測
定値の代表としてしまっていいの
か?
地点Bの平均値
19
改めて、平均値とは?
0
50
100
150
200
250
10~15
15~20
20~25
25~30
30~35
35~40
40~45
45~50
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
0
20
40
60
80
100
120
10~15
15~20
20~25
25~30
30~35
35~40
40~45
45~50
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
2つとも平均値は50。この2つが同等であるはずがない。
しかし、平均値だけしか情報がなければ
「この2つは同じである!」と結論付けてしまうかもしれない。
20
平均値と類似の統計パラメータ
21
平均値:データの総和を
データ数で割った値
中央値:データを並べて、
ちょうど真ん中に相当す
る値
最頻値:該当するデータ
が最も多い値(範囲)
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50
2015年度元塩公園局 PM2.5 (日平均値)
平均値と類似の統計パラメータ
22
平均値:データの総和を
データ数で割った値
15.0
中央値:データを並べて、
ちょうど真ん中に相当す
る値
最頻値:該当するデータ
が最も多い値(範囲)
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50
2015年度元塩公園局 PM2.5 (日平均値)
平均値と類似の統計パラメータ
23
平均値:データの総和を
データ数で割った値
15.0
中央値:データを並べて、
ちょうど真ん中に相当す
る値
13.2
最頻値:該当するデータ
が最も多い値(範囲)
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50
2015年度元塩公園局 PM2.5 (日平均値)
平均値と類似の統計パラメータ
24
平均値:データの総和を
データ数で割った値
15.0
中央値:データを並べて、
ちょうど真ん中に相当す
る値
13.2
最頻値:該当するデータ
が最も多い値(範囲)
12.5~15
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50
2015年度元塩公園局 PM2.5 (日平均値)
平均値と類似の統計パラメータ
25
0
1
2
3
4
5
6
7
8
50万円未満
50~100
100~150
150~200
200~250
250~300
300~350
350~400
400~450
450~500
500~550
550~600
600~650
650~700
700~750
750~800
800~850
850~900
900~950
950~1000
1000~1100
1100~1200
1200~1500
1500~2000
2000万円以上
世帯割合(%)
所得金額
1世帯当たりの所得金額
平均値:データの総和をデータ数
で割った値
541.9
中央値:データを並べて、ちょうど
真ん中に相当する値
427
最頻値:該当するデータが最も多
い値(範囲)
250~300
厚生労働省:平成27年国民生活基礎調査
http://www.e-
stat.go.jp/SG1/estat/List.do?lid=0000011546
52
0
50
100
150
200
250
10~15
15~20
20~25
25~30
30~35
35~40
40~45
45~50
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
26
平均値と類似の統計パラメータ
平均値:データの総和をデータ数
で割った値
49.8
中央値:データを並べて、ちょうど
真ん中に相当する値
49.9
最頻値:該当するデータが最も多
い値(範囲)
45~50
現実的に、このように綺麗な形になることは、稀
統計の怖さ
• 統計データは、扱うのも、見るのも注意が必要です。
• 「統計でうそをつく」「統計に騙されない」のような書籍やHPを見ます
が、基礎を知っていないとデータの本質を見失います。
• “統計の専門家”ではない“理系の専門家”が、実際に統計的に間
違った手法で学会発表していたり、論文書いたりしている例は、現実
にあります。
• だからといって、統計的な作業(例の平均値を求めるようなものも含
めて)から、避けることはほぼ不可能。
• 様々な統計手法を用いて、多角的に見ることでデータの本質を探る
必要がある。
27
<統計学の基礎>
•統計の役割
•統計データの意味
<環境データの解析>
•因子分析を使用した例
•ベイズ統計を使用した例
•機械学習を使用した例
28
環境分野への統計の具体的な応用例
その前に・・・・
29
大気汚染物質の基礎
○大きく、2種類に分けることができます。
• 気体
窒素酸化物(NOx)、二酸化硫黄(SO2)
トルエンやベンゼンなどの有機化合物
• 粒子(固体または液体)
SPM、PM2.5
化学的に単一の成分
化学組成が明確
様々な化学物質の混合物
様々な化学組成を持つ。 化学組成をはっきりさせないと
原因などが解らない。
30
PM2.5について
【概要】
○粒子径約2.5µm以下の空気中に浮遊している粒子の
総称。
○発生源は燃焼施設・自動車・野焼き・家庭・黄砂など
多岐にわたる。
○様々な成分が混在
髪の毛の太さが50~80µm
細胞の大きさが約10µm
PM2.5
31
PM2.5の成分測定
• イオン成分(ナトリウム、アンモニウム、塩化物、硫酸など)
• 炭素成分(元素状炭素(煤)、有機化合物)
• 無機(金属)成分(アルミニウム、鉄、銅、鉛、ヒ素、マンガンなど)
例えば、中国大陸から汚染物質が飛来してくる場合
イオン成分のうち硫酸イオンが多くなり
地域(名古屋市内など)の影響が強くなると
イオン成分のうち硝酸イオンが増える。
また、ディーゼル車の影響が大きいと
炭素成分のうちの元素状炭素が増える。
32
PM2.5の発生源
• PM2.5は発生する場所によって、それぞれ特徴があります。
ex. 自動車:窒素酸化物、元素状炭素が多い
石油燃焼:硫黄酸化物、バナジウム、ニッケルが多い
石炭燃焼:硫黄酸化物、ヒ素、鉛が多い
黄砂などの土壌:カルシウム、アルミニウム、チタンなどが多い
注:上記のものは一般的な傾向であり、すべてのケースで必ずしも該当するとは限らない。
33
PM2.5の成分
• PM2.5の成分は場所によって異なります。
• 例えば、東京・新潟・名古屋・金沢・大阪・福岡、などの各都市で採
取されたPM2.5の成分は、それぞれの特徴があります。
• どことどこの特徴が似ていて、どこが違うのかが解れば、PM2.5が何
に影響を受けているのかが解ります。
ex.
もし、東京・大阪・名古屋に共通の特徴があれば、大都市で共通する
影響がある。
もし、新潟・金沢・福岡に共通の特徴があれば、日本海側に共通した
影響がある。
34
共通する傾向を見出すには
• どの地点が似ていて、どの地点が似ていないのか。
• もし似ているのなら、どのように似ているのか。
• もし似ているのなら、なぜ似ているのか(共通する原因があるの
か?)
それらを解析する統計的な手法の一つに
因子分析というものがあります。
35
因子分析による解析
• 因子分析とは多くのデータの背後に潜む少数の原因を導き出す手
法。心理学や社会学などの分野で多く用いられる。
国語 社会 数学 理科 英語
Aさん 81 72 44 46 71
Bさん 87 77 37 40 73
Cさん 70 62 38 39 62
Dさん 51 44 82 76 61
Eさん 45 38 90 82 59
Fさん 44 37 85 77 56
Gさん 50 43 64 60 54
36
国語 社会 数学 理科 英語
Aさん 81 72 44 46 71
Bさん 87 77 37 40 73
Cさん 70 62 38 39 62
Dさん 51 44 82 76 61
Eさん 45 38 90 82 59
Fさん 44 37 85 77 56
Gさん 50 43 64 60 54
因子分析による解析
• 因子分析とは多くのデータの背後に潜む少数の原因を導き出す手
法。心理学や社会学などの分野で多く用いられる。
文系科目が得意
⇒文系能力が高そう
理系科目が得意
⇒理系能力が高そう
英語とGさんに対する評価は、不明瞭 37
仮定を考える
• 人間の能力には“文系能力”と“理系能力”があり、それぞれが各教
科に対して影響している。
• それぞれの人に対して、“文系能力”と“理系能力”のどちらが大きい
のかを調べてみたい。
• 直観的に、ではなく数学的に
• その手法が因子分析
38
因子分析による解析
• 文系能力、理系能力のそれぞれが、各教科にどのように影響を与え
ているか。
• AさんからGさんまでの各個人には、文系能力と理系能力がどれくら
い備わっているか。
英語はどちらの能力の影響を受けているのか?
Gさんは、どちらの能力が高そうなのか?
39
因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
40
因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
41
因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
42
因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
43
因子分析による解析
文系能力 理系能力
Aさん 1.40 0.26
Bさん 1.53 0.04
Cさん -1.7 -2.35
Dさん 0.82 1.46
Eさん 0.71 1.72
Fさん -0.46 0.59
Gさん -2.31 -1.71
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○Aさん、Bさん、Cさんは文系能力の方が
理系能力よりも高い。
○Dさん、Eさん、Fさんは、理系能力の方が
文系能力よりも高い。
○Gさんは、やや理系能力の方が高い。
44
因子分析による解析
英語はどちらの能力の影響を受けているのか?
Gさんは、どちらの能力が高そうなのか?
国語 社会 数学 理科 英語
Aさん 83 92 55 61 78
Bさん 95 88 65 63 80
Cさん 79 85 48 70 70
Dさん 63 59 98 89 73
Eさん 67 68 83 79 59
Fさん 72 61 73 94 71
Gさん 75 69 72 65 72
・英語は、文系能力が高いほうが高い
・Gさんは、文系能力と理系能力に差はほ
とんどない。
このようなことを、表を見た直観で理解するのではなく
数学的な理論に基づいて、述べることができます。
45
因子分析で、やりたかったこと
• 生徒の学力を評価するのに、5教科の数字を調べる必要があった。
• 生徒の学力を評価するのに、2つの能力(文系・理系)を見れば良く
なった。
46
環境データへの適応
日
々
の
デ
ー
タ
成分のデータ(50個近いデータがある)
50近い成分を1個ずつ見て解析するのは大変 ⇒ 数個のグループに分けて考える
特定の発生源から出てくるものには、傾向があり
それらをまとめることができれば、解釈がしやすい。
47
環境データへの応用
5教科
文系能力
理系能力
50成分
自動車影響
燃焼系工場影響
鉄鋼業影響
海塩影響
土壌影響
廃棄物焼却
48
グラフの比較
0
10
20
30
40
50
60
70
80
0
10
20
30
40
50
60
50種類のデータの変動を見ても
よくわからない。
このように数種類の変動ならば
理解がしやすい。
49
対策の具体化
• 成分の分析では、その高濃度の原因が何かを明確にすることはで
きません。
• しかし、何の影響かを探ることができれば、対策を具体的に検討す
ることができます。
ex. 自動車・工場・野焼き
• そのための一つの解析手法が、因子分析。
50
因子分析の適応
• よく使われるのがPMF(positive matrix factorization)法
• アメリカ合衆国環境保護庁が無料で公開しているソフトを利用
• 因子分析の手法を用いて、環境データの分析に適した形に特化した
もの。
• ただし、あくまでも統計的な推定であり、必ずしも答えが明確に出る
わけではない。
• 成分だけではなく、気象などの条件も踏まえて、多角的に考える必
要がある。
51
PMF法の使用例
52
成分分析結果による表現
PMF解析による表現
山神、他, 名古屋市環境科学調査センター年報, 1, 2013, p20
<統計学の基礎>
•統計の役割
•統計データの意味
<環境データの解析>
•因子分析を使用した例
•ベイズ統計を使用した例
•機械学習を使用した例
53
CPF解析とは
• 汚染物質の濃度と、風向の関係を見て、その発生源がどこにあるの
かを探る。
0
5
10
15
20
25
ある架空のデータ
(Conditional Probability Function)
54
CPF解析とは
• 汚染物質の濃度と、風向の関係を見て、その発生源がどこにあるの
かを探る。
0
5
10
15
20
25
ある架空の化学物質の測定データ
測定した時間の風向を
調べてみると、色を付け
た期間は、北風が吹い
ていた。
北風の時に、高濃度に
なりやすいのでは?
55
CPF解析とは
0
5
10
15
20
25
データが13以上になった時を高濃度とすると
データ数 高濃度の
データ数
高濃度になる
割合
全体 150 52 35%
北風 62 48 77%
北風以外 88 4 5%
やはり北風の時に、高濃度になる傾向があった。
ということは、測定場所の北に、何かしらの化学物質の発生源があるのでは?56
CPF解析とは
• 実際には、もう少し多い風向で調べます。
• 具体的には16方位について調べ、図を描くことが多いです。
方位 高濃度の
割合
方位 高濃度の
割合
北 18% 南 9%
北北東 34% 南南西 5%
北東 38% 南西 64%
東北東 40% 西南西 93%
東 92% 西 31%
東南東 35% 西北西 65%
南東 0% 北西 86%
南南東 34% 北北西 60%
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
57
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
CPF解析について
• CPF解析とは
CPF(Conditional Probability Function)解析は、高濃
度が観測されるときの風向を調べ、頻度の高い風
向の風上に発生源があると推定する方法。
i : 風向
Wi : i方向からの全風向の数
ni : i方向からの高濃度時の
風向の数
CPFi =
ni
Wi
例
発生源があると疑われる方向
58
CPFの不確かさについて
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW例
E = 0.90
WSW = 0.92
NW = 0.87
いずれも高い数字だが・・・・
実際の風の数をみると
E = 450 / 500
WSW = 3220 / 3500
NW = 13 / 15
59
平成23年度・24年度のPM2.5測定地点
5km
八幡中学校:一般局
元塩公園:自排局
60
CPF解析結果
平成23年度 平成24年度
元塩公園
八幡中学校 0.00
0.10
0.20
0.30
0.40
0.50
0.60
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0.00
0.10
0.20
0.30
0.40
0.50
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0.00
0.20
0.40
0.60
0.80
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
61
風向の数
平成23年度 平成24年度
元塩公園
八幡中学校
0
1000
2000
3000
4000
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0
1000
2000
3000
4000
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0
500
1000
1500
2000
2500
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0
500
1000
1500
2000
2500
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
62
確率、の基本
• 自分でサイコロを作製。6回振ったら<1,2,3,4,5,1>の目が出た。
→ 「このサイコロは1が出やすくて、6がほとんど出ない」と
考えるでしょうか?
• でも、このサイコロを600回振って、以下のように目が出たら?
→ 「このサイコロは1が出やすくて、6がほとんど出ない」と
多くの人が、考えるでしょう。
目の数 1 2 3 4 5 6
出た回数 180 98 105 94 103 20
63
CPFの不確かさについて
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW例
E = 0.90
WSW = 0.92
NW = 0.87
いずれも高い数字だが・・・・
実際の風の数をみると
E = 450 / 500
WSW = 3220 / 3500
NW = 13 / 15
評価に使った風の数が、風向によって大きく異なる。
⇒ 同列に(同じグラフで)扱っていいのか? 64
フィールド観測データの弱点
• しかし、風向(条件)を人間がコントロールすることはできない。
• どのように考えれば、解決するのか?
• その一つの方法が、ベイズ統計を用いる方法
65
ベイズ統計による解析
• ベイズ統計とは、以下のベイズの定理を元とする統計学
P(B | A) =
P(A | B) P(B)
P(A)
P(B | A) : Aという事象が起きた時に
Bという事象が起きる確率
2000年ごろより活用が始まる。
スパムメールの振り分け、人工知能、マーケティングなどさまざ
まな分野で応用
P(A) : Aという事象が
起きる確率
66
ベイズ統計の特徴
○従来からの統計学は“頻度論的統計学”と呼ばれる。
データ パラメータ
頻度論的統計学 確率的な数字 確定した数字
ベイズ統計学 確定した数字 確率的な数字
このようなベイズ統計の特徴があることで
従来の頻度論的統計学では不可能だった計算が
行えるようになり
統計学の活用の場が広がった。
67
頻度論とベイズの比較
頻度論的統計学 あるコインを投げて、表が出る確率というのは決まっている。それは、
形状・重心・バランスなどから決められており、0.50だとか0.51だとか、
明確な数字で表せる。
⇒ただし、その正解を知っているのは神様だけ。人間には知ることが
できない。でも、何度か実験をしてデータを取ることで、正解に近い数
字を類推することはできる。
ベイズ統計学 あるコインを投げて、表が出る確率というのは決まっている。けれども、
明確な数字で表せるものではない。0.48~0.52くらい、という幅をもって
表現するもので、一つの数字で表現できない。
⇒本当にあるのかどうかわからない(神様しか知らないような)正解な
んて、どうでもいい。でも、実験データから導き出した数字は紛れもな
い事実であり、これを大切にする。
コインを投げて、表が出る確率について考える
68
頻度論とベイズの比較
コインを投げて、表が出る確率について考える
69
いまここに、表の出る確率がxであるコインがある。
このコインを4回投げたとき
表 ・ 表 ・ 裏 ・ 裏
の順に出た。
このとき、表の出る確率xを求めよ。
頻度論とベイズの比較
頻度論的統計学 4回中、2回が表なので
表が出る確率は 2/4 = 50%
「初め、表が2回出たのは偶然。投げた回数が少ないのが原因」
サイコロの目について考える
70
頻度論とベイズの比較
ベイズ統計学 1回目:表が出た → 「このコインは表しか出ない!このコインが
“裏しか出ないコインである”確率は消えた。」
2回目:表が出た → 「やっぱり、このコインは表しか出ない!!」
3回目:裏が出た → 「表が出やすいけど、裏が出る場合もある。
“表しか出ない”、という可能性は消えた。」
4回目:裏が出た → 「表と裏が、同じくらい出やすい」
サイコロの目について考える
71
その他のベイズ統計の特徴
○自分が持っている知識を、確率に組み込むこ
とができる。
そんなに形はいびつじゃな
いし、おそらくそれぞれの
目の出る確率は1/6ずつだ
ろう。
絶対に1の目が出やすい。
3も時々でるかもしれないけど、
2の目は絶望的だ。
予備知識を利用したほうが、結果が早く
得られることが多い。 72
その他のベイズ統計の特徴
○欠測があっても、統計モデルが組める。
○外れ値の影響を受けづらい。
○過分散なデータを扱える。
73
欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
74
欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
75
頻度論的統計学では、解析手法によっては
上の緑の部分が、使えないデータになってしまう。
もったいない!!
欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
76
ベイズ統計学なら、使えないデータは
測定していないところだけ。
データを最大限に生かせる!!
外れ値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 500 92 104 47 111 85 66 69 70 116 64 71
77
500は、おそらく何らかの測定ミスだと考えられるが
もしかしたら、本当に500なのかもしれない。
500は怪しいと思いつつ、一応、データとして
そのまま解析を行うことができるのも
ベイズ統計の特徴
過分散とはなにか?
0
50
100
150
200
250
10~15
15~20
20~25
25~30
30~35
35~40
40~45
45~50
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
0
20
40
60
80
100
120
10~15
15~20
20~25
25~30
30~35
35~40
40~45
45~50
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
78
その他のベイズ統計の特徴
○欠測があっても、統計モデルが組める。
○外れ値の影響を受けづらい。
○過分散なデータを扱える。
いずれも、環境データではよくあること。
(実験室でのデータでは、あまり見られない)
↓
データを無駄にせず、最大限利用できる。
79
頻度論とベイズの比較
頻度論的統計学 実験室での、整えられた条件で得られたデータ
に向いている
(科学実験など)
ベイズ統計学 実験条件をコントロールできない状況で得られ
たデータに向いている。
(フィールド調査データ、アンケートなどの社会実
験データなど)
80
話を元に戻します
• 風向により、PM2.5の汚染源の場所を探る(CPF)
• 風向が方角によってまちまちで、データの信頼性がばらつく
• なにか、他の方法を検討している
• ベイズ統計を紹介 ← いまここ
次に、統計的モデルについて考えます。
81
ベイズ統計のために
ベイズ統計を実施するためには
なんらかの統計モデルを考える必要があります。
82
統計的手法のためのモデル
• モデルとは、あるデータの成り立ちを数式で説明したもの。
☆ ある商品の売り上げ =
デザイン + 機能 + 広告効果 + 価格設定 + ・・・・・
☆ スポーツ成功度 =
素質 + 努力 + 運 + ・・・・・・
☆ 大気汚染濃度 =
汚染物質発生量 + 汚染発生源との距離 + 風 + ・・・・・・
83
統計モデルを考える
• いま求めたいのはPM2.5の環境濃度への影響
• 考えられるモデルは
PM2.5 = 要因1 + 要因2 + 要因3 + ・・・・・・・・
• 話題にしているのは、風向の話
• 考えられる単純なモデルは
PM2.5 = 風向に影響される量 + 風向に影響されない量
84
モデルの意味するところ
85
by avaxhome.ws
A
濃度上昇
PM2.5 = 風向に影響される量 + 風向に影響されない量
モデルの意味するところ
86
by avaxhome.ws
A
濃度上昇しない
PM2.5 = 風向に影響される量(0) + 風向に影響されない量
ベイズ統計の方法
使用ソフト:WinBUGS + R
今回採用したモデル(風の影響についてみたモデル)
PM2.5質量濃度
= 風向の影響を受けない月ごとの平均値
+ 風向の影響値
解析するためには、PM2.5質量濃度の変動に対して
何が影響しているのかを、自分で設定しなければいけない。
予備検討の結果・・・・
87
ベイズ統計による解析結果
(元塩公園)
0
0.2
0.4
0.6
0.8
0
5
10
15
20
25
30
CPF
[Wid](μg/m3)
風向の影響値(50パーセンタイル値) CPF
0.00
0.20
0.40
0.60
0.80
0
5
10
15
20
25
30
CPF
Wid](μg/m3)
風向の影響値(50パーセンタイル値) CPF
平成23年度
平成24年度
88
ベイズ統計による解析結果
(八幡中学校)
平成23年度
平成24年度
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0
2
4
6
8
10
12
CPF
[Wid](μg/m3)
風向の影響値(50パーセンタイル値) CPF
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0
2
4
6
8
10
12
CPF
[Wid](μg/m3)
風向の影響値(50パーセンタイル値) CPF
89
風向の影響値の信頼性について
0
5
10
15
20
25
30
1 10 100 1000 10000
95%確信区間幅(μg/m3)
風向の数
平成23年度 元塩 平成24年度 元塩 平成23年度 八幡 平成24年度 八幡
前ページ
グラフ
風向の影響値の信頼性(95%確信区間の幅)は
風向の数と関係がある。 90
ベイズ統計を用いた結果
• CPF解析で得られたのと同様な結果が得られた。
別の方法で同じような結果 ⇒結果の頑強性が高い
結果の信頼性が高い
• それに加え、結果の信頼性を評価するための数字も得られた。
• さらに、信頼性と風の数についての知見も得られ、今後の実験を計
画する上での方針決定にも役立つ。
91
<統計学の基礎>
•統計の役割
•統計データの意味
<環境データの解析>
•因子分析を使用した例
•ベイズ統計を使用した例
•機械学習を使用した例
92
いま、人工知能(AI)が熱い!
・人工知能(AI)がどうしたこうした、というニュー
スがよく耳に入ってくる昨今。
〇チェス、将棋で人間に勝った。
〇自動車の運転をする。
〇話しかけると答えてくれる。
〇人間の仕事が奪われる。
〇人類と対立して、人類を滅ぼす(予定)。
人工知能の歴史(かなりざっくり)
1960年前後・・・・・第1次ブーム
1990年前後・・・・・第2次ブーム
そしていま、第3次ブームが勃発!!
言葉の説明
人工知能(AI)
機械学習
ニューラル
ネットワーク
ディープ
ラーニング
機械学習のできること
機械学習とは
<機械に、(自動的に)学習をさせて
機械が、(意思)決定を行うようにしたもの>
<データからパターンを見つけて
その法則を元に、判別や予測などを行う。
パソコンがね!>
機械学習の実績
・・・・・・これは、枚挙に暇がないので、Webで
調べてみてください。
〇購買履歴から、興味ありそうなWeb広告を表示
〇血液検査や画像診断の結果から、病名を判断
〇クレジットカードの利用パターンから、不正使用を判定
〇膨大な写真の中から、自分が写ったものを抽出
大気環境への機械学習の応用例
• 荒木, et.al., 大気環境学会年会, 2017
土地利用情報や、道路長、排出データや気象データから機械学習を用
いて、NO2濃度を予想。
• D.J.Lary, et.al., Environmental Health Insights, 41-52, 2015
PM2.5の濃度をエアロゾルの光学的厚さと気象データのセットから推定。
その結果を疫学的な調査と照らし合わせて、PM2.5の影響を推定
• Y. Zhan, et.al,. Atmos. Env., 129-139, 2017
エアロゾル光学的厚さと気象データでPM2.5濃度を推定
• B. Pass, et.al., Environments, 1-25, 2017
騒音の測定結果と周辺のPM濃度および気象データから、粒径別のPM
の濃度を推定。
• J. K. Deters, et.al., J. Elect. Comp. Eng., 1-14, 2017
気象データをもとにPMの濃度を推定。
• Yi-C. Wu, et.al., Science & Applications, 1-12, 2017
特殊な可搬式の顕微鏡のデータに機械学習のメソッドを適用することで、
費用対効果の高いPM2.5測定の方法を提案。
機械学習について
• 機械学習は、大きく2つの系統に分かれます。
〇教師なし学習
PM2.5の成分濃度のデータを読み込み
⇒データを3つに分けるように指示。分かれたデータを(人間が)検討した結果、
<越境汚染高濃度><地域汚染高濃度><低濃度>の3つに分類されたと判
明した。
〇教師あり学習
PM2.5の成分濃度のデータから、越境かどうかを判定
⇒越境のパターンと、越境ではないデータをインプットして法則を機械が自動的に
学習。結果が未知の成分濃度データを見て、越境のデータかどうかを判定
機械学習について
• 機械学習は、大きく2つの系統に分かれます。
〇教師なし学習
PM2.5の成分濃度のデータを読み込み
⇒データを3つに分けるように指示。分かれたデータを(人間が)分析した結果、
<越境汚染高濃度><地域汚染高濃度><低濃度>の3つに分類されたと判
明した。
〇教師あり学習
PM2.5の成分濃度のデータから、越境かどうかを判定
⇒越境のパターンと、越境ではないデータをインプットして法則を機械が自動的に
学習。結果が未知の成分濃度データを見て、越境のデータかどうかを判定
教師なし学習:クラスター分析
データの位置関係から
類似したものをグループ分けする。
教師なし学習:クラスター分析
クラスター数をいくつに
するかは、分析者が独
断で決定する。
⇒因子分析の因子数
のような悩み
機械学習について
• 機械学習は、大きく2つの系統に分かれます。
〇教師なし学習
PM2.5の成分濃度のデータを読み込み
⇒データを3つに分けるように指示。分かれたデータを(人間が)分析した結果、
<越境汚染高濃度><地域汚染高濃度><低濃度>の3つに分類されたと判
明した。
〇教師あり学習
PM2.5の成分濃度のデータから、越境かどうかを判定
⇒越境のパターンと、越境ではないデータをインプットして法則を機械が自動的に
学習。結果が未知の成分濃度データを見て、越境のデータかどうかを判定
教師あり学習(一般論):判別
判定 PM2.5 SO4
2- NO3
- Na+ Ca2+
越境汚染 38 17 5 0.5 0.1
越境汚染 28 11 3 0.5 0.2
越境汚染 31 10 2 0.7 0.1
地域汚染 14 5 3 0.2 0.1
地域汚染 17 9 4 0.1 0.1
地域汚染 8 3 1 0.1 0.1
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
??? 25 10 3 0.3 0.1
機械学習プログラムで学習
教師あり学習(一般論):数値予測
PM2.5 SO4
2- NO3
- Na+ Ca2+
38 17 5 0.5 0.1
28 11 3 0.5 0.2
31 10 2 0.7 0.1
14 5 3 0.2 0.1
17 9 4 0.1 0.1
8 3 1 0.1 0.1
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
??? 10 3 0.3 0.1
機械学習プログラムで学習
ん?
回帰分析?
ざっくりというなら・・・・・
• まずは、回帰分析をイメージ。
• それが、高度になった感じ。
• 例えば、こういうのがあります。
売上 = a[商品の魅力] + b[売り場面積] +
c[価格] + d[広告] + ・・・・・・・
ちなみに、上の式は
右のようにも表現します ⇒⇒⇒⇒⇒⇒⇒
商品の魅力
売り場面積
価格
広告
?
?
売上
a
b
c
d
というわけで
• ニューラルネットワークとは何ぞや? とのお話に。
• なぜ、回帰よりも利用価値が高いのか?
X1
X2
Y
X1 X2 Y
0 0 0
1 0 0
0 1 0
1 1 1
w1
w2
【問】
右の表を満たすw1,w2が
存在するでしょうか?
X1・w1 + X2・w2 = Y
そもそも、ニューラルネットワークとは?
• ニューラルネットワークの翻訳は、「神経回路網」
• もとは、脳の情報伝達ネットワークを模式化したもの。
刺激が弱いときは、次の神経細胞へ
刺激が伝わらない
そもそも、ニューラルネットワークとは?
• ニューラルネットワークの翻訳は、「神経回路網」
• もとは、脳の情報伝達ネットワークを模式化したもの。
刺激が強い(一定以上の)ときは、次の神経細胞へ
刺激が伝わる
パーセプロトン
X1
X2
Y0
w1
w2
Y
X1・w1 + X2・w2 = Y0
もし、Y0 ≧ S なら Y=1
Y0 < S なら Y=0
閾値:S
X1 X2 Y
0 0 0
1 0 0
0 1 0
1 1 1
右の表を実現できるw1,w2,Sの
組み合わせを探す。
パーセプトロン(ANDゲート)
X1
X2
Y0
w1
w2
Y
X1・w1 + X2・w2 = Y0
もし、Y0 ≧ S なら Y=1
Y0 < S なら Y=0
閾値:S
X1 X2 Y
0 0 0
1 0 0
0 1 0
1 1 1w1 w2 S
0.5 0.5 0.7
1 1 1.1
2 3 4
ANDゲート
パーセプトロン(ANDゲート)
X1
X2
1
1
0 1
パーセプトロン(ANDゲート)
X1
X2
1
1
0 1
0.5・X1 + 0.5・X2 = 0.7
1.4
1.4
パーセプトロン(ANDゲート)
X1
X2
1
1
0 1
2・X1 + 3・X2 = 41.33
2
パーセプトロン(NANDゲート)
X1
X2
Y0
w1
w2
Y
X1・w1 + X2・w2 = Y0
もし、Y0 ≧ S なら Y=1
Y0 < S なら Y=0
閾値:S
X1 X2 Y
0 0 1
1 0 1
0 1 1
1 1 0w1 w2 S
-0.5 -0.5 -0.7
-1 -1 -1.1
-2 -3 -4
NANDゲート
パーセプトロン(NANDゲート)
X1
X2
1
1
0 1
-0.5・X1 + -0.5・X2 = -0.7
1.4
1.4
ちなみに、NANDゲートだけで、コンピュータが行う処理を再現できます。
(NANDゲートだけでテトリスを作ることができるのだとか・・・・)
パーセプトロン(ORゲート)
X1
X2
Y0
w1
w2
Y
X1・w1 + X2・w2 = Y0
もし、Y0 ≧ S なら Y=1
Y0 < S なら Y=0
閾値:S
X1 X2 Y
0 0 0
1 0 1
0 1 1
1 1 1w1 w2 S
0.5 0.5 0.3
1 1 1
-2 -3 -4
ORゲート
パーセプトロン(ORゲート)
X1
X2
1
1
0 1
0.5・X1 + 0.5・X2 = 0.3
0.6
0.6
人工知能の第1次ブーム
• このような判別器を用いることで機械学習が可能
ではないのか!? と盛り上がる。
• しかし、ある人が下のようなお題を出した。
X1・w1 + X2・w2 = Y0
もし、Y0 ≧ S なら Y=1
Y0 < S なら Y=0
X1 X2 Y
0 0 0
1 0 1
0 1 1
1 1 0
パーセプトロン(XORゲート)
X1
X2
1
1
0 1
解けねぇ!
?
パーセプトロン(XORゲート)
X1
X2
1
1
0 1
直線ではなく、左のような
曲線じゃないと、分けるこ
とができない。
線形分離不可能!!
そして、第1次ブームは
終焉へ・・・・・
パーセプトロン(XORゲート)
【解決策】
多層化してみては、どうだろう?
X1
X2
Y
OR
NAND
AND
X1 X2 Y
0 0 0
1 0 1
0 1 1
1 1 0
*:簡単のために、全ての重みは1
で、閾値も1として考えます。
パーセプトロン(XORゲート)
0
0
0
OR
NAND
AND
1
0
0
1
1
OR
NAND
AND
1
1
パーセプトロン(XORゲート)
1
0
1
OR
NAND
AND
1
1
1
1
0
OR
NAND
AND
0
1
多層化が開いた扉
• このように、組み合わせによって複雑な処理も行うことがで
きるとわかり、非線形な概念を表現することができるように
なった。
• 簡単のために、入力と出力を1 or 0、重み1、閾値1にしたが、
これを他の数字も扱えるようにすることで、応用範囲が広
がる。
• 重みや閾値が、なにであれば適切か、を自動的に学習す
る。
• これがニューラルネットワーク(neural network : NN)とか人
工ニューラルネットワーク(artificial neural network : ANN)と
呼ばれるもの
• ニューラルネットワークを多層化することで深層学習(Deep
Learning)が可能だと期待された。
Deep Learning実践(1)
• BMIって、知ってます?
• BMI = 体重(kg) / 身長(m)2
• BMI を 体重×a + 身長×b のような
関係式で推測できるのか?
(つまり、正解では身長が2乗されているが、そうとは知らないまま、
体重と身長の関数だ、ということだけでBMIを推測できるか?)
架空のデータを準備
• 架空の1000人のデータを準備
(身長が平均170、標準偏差5として乱数を発生
体重が平均70、標準偏差10として乱数を発生)
• それぞれを組み合わせる。
• 1000人のデータは⇒ ⇒ ⇒ ⇒
• まずは
BMI を 体重×a + 身長×b
としてaとbを推定する。
【推定方法】
1000人のうち、ランダムに選んだ850人の身長、体重、BMI(計算値)を使って、
規則性(法則)を学習させる。
次に、学習した規則性(法則)をつかって、残り150人の身長、体重からBMIを
予測。計算した正解のBMIと比較して、学習が上手くいっているかを確認する。
1.55 1.60 1.65 1.70 1.75 1.80 1.85
405060708090
身長(m)
体重(kg)
線形回帰による推定
BMI = (体重 × 0.89) +
(身長 × -0.33) +
0.19
0.2 0.4 0.6 0.8
0.30.50.7
実測値
予測値
相関係数:0.9757
0.2 0.4 0.6 0.8
0.20.40.60.8
身長
BMI
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.20.40.60.8
体重
BMI
ANNによる推定
BMI_model <-
neuralnet(BMI ~ Hei + Wei, data = data_train, hidden = 2)
相関係数:0.9998!!
1.4444
-1.33809
Wei
-1.32671-0.80888Hei
1.73822
-1.40576
BMI
-0.54784
-0.27051
1
0.09421
1
Error: 0.003697 Steps: 4493 0.2 0.4 0.6 0.8
0.20.40.60.8
実測値
予測値
関係性のあるデータを指定するだけで
実際の式が分かっていなくても
BMIの数字を、ほぼ正確に予測!
Deep Learning実践(2)
• それでは、実際の解析がどのように行われるのかを例示します。
• テーマは<PM2.5時間値の予想>
• 任意の時間のPM2.5の値を、1時間前のデータから予想。(正直、ゆるい
条件ですが・・・・・・)
• 使うのは、2018年7月・八幡中学校@名古屋市の常時監視データ。
気象データなども活用。
準備したデータの形式
常時監視データ
From そらまめ君
気象データ
From 気象庁HP
まずは、単純な考え
最も単純なモデル
予測値 = 説明変数 + 誤差
説明変数が1つのモデル。 さて・・・・・なにを説明変数にしようか??
PM2.5の時間値は時系列データなのでよくある例は1時間前の値。
時刻 t におけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 (+ 誤差)
この予測の、正しさを評価する方法としては
予測値と実測値の相関係数を用いる。
この場合、相関係数は0.676 ・・・・・結構高いネ。
0.1 0.2 0.3 0.4
0.10.20.30.4
実測値
予測値
単純なモデル
• 「3時のPM2.5濃度がだったから、次の4時の濃度も
15µg/m3だよね」と語る人の説明力は、0.676程度
・・・・・・・という解釈(やや、乱暴ながら)
今から、他の方法を使って予測値を計算し
この単純なモデルからどれだけ改善できるかを
見ていく。
データの前処理
• データを、機械に学習させるためのデータと、予測のためのデータに
分ける。
データ全体
このデータを使って機械に法則
(パターン)を学習させる
:7月1日~27日
学習した法則(パターン)にこちら
のデータを入力して、出力を得る。
:7月28日~31日
*さらに、最小値0、最大値1の正規化を行っています。
重回帰分析
時刻tにおけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 +
気温 + 風速 + 気圧 + 相対湿度 + NO2濃度 + Ox濃度
*話の都合上、多重共線性は、無視しております♪
Rプログラム
regPM_model <- lm(PM_pre ~ PM + temp +
windS + press + hum +
NO2 + Ox, data = PM_train)
0.1 0.2 0.3 0.4
0.10.20.30.4
実測値
予測値
相関係数:0.697 ちょっと改善
重回帰分析の結果
時刻tにおけるPM2.5濃度(予測)
= 0.777*時刻(t-1)におけるPM2.5濃度 +
0.09*気温 - 0.09 * 風速 + 0.01 * 気圧 + 0.105 * 相対湿度 +
0.005 * NO2濃度 + 0.156 * Ox濃度 – 0.037
• 「3時のPM2.5濃度や常時監視濃度、気象データから、
次の4時の濃度を重回帰で予想したよ」と語る人の信頼
感は、0.697程度
・・・・・・・という解釈(やや、乱暴ながら)
ニューラルネットワーク(単層)
時刻tにおけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 + 気温 + 風速 + 気圧 + 相対湿度 +
NO2濃度 + Ox濃度
*話の都合上、多重共線性は、無視しております♪
Rプログラム
PM_model <- nuralnet(PM_pre ~ PM + temp +
windS + press + hum +
NO2 + Ox, data = PM_train)
相関係数:0.697 重回帰と変わらず!?
0.1 0.2 0.3 0.4
0.150.200.250.300.350.400.45
実測値
予測値
ニューラルネットワーク(多層)
時刻tにおけるPM2.5濃度(予測)
= 時刻(t-1)におけるPM2.5濃度 + 気温 + 風速 + 気圧 + 相対湿度 +
NO2濃度 + Ox濃度
*話の都合上、多重共線性は、無視しております♪
Rプログラム
PM_model2 <- nuralnet(PM_pre ~ PM + temp +
windS + press + hum +
NO2 + Ox, data = PM_train, hidden = 4)
相関係数:0.751 けっこう改善!!
0.1 0.2 0.3 0.4
0.100.150.200.250.300.350.40
実測値
予測値
ニューラルネットワーク(多層)
相関係数:0.606相関係数:0.735 相関係数:0.724
相関係数:0.740
単純に、複雑化すれば
いいというわけではない
PM2.5の予測精度
単純モデル <
重回帰 ≒
単層ニューラルネットワーク <
多層ニューラルネットワーク
(Deep Learning)
今回は、実測値と予測値の相関係数で予測精度としましたがもっと確認すべき部分とか
あります。そういうのは、書籍やWebで出ているんで、参考にしてください。
また、計算手法についても、様々な人が提案しており、今回はそのうちの一つを
採用しただけです。他の手法も存在します。
そのため、手法を変えれば結果が変わる可能性もあります。
判別分析も可能
• 今回は、数字の予測に用いたが、同様の概念で
判別を行うことも可能。
• 判別分析は特に、答えのある<学習データ>を質
良く集められるか・・・・・・・
成
分
デ
ー
タ
越
境
地
域
低
濃
度
画
像
デ
ー
タ
犬
猫
猿
大気環境への機械学習の応用例
• 荒木, et.al., 大気環境学会年会, 2017
土地利用情報や、道路長、排出データや気象データから機械学習を用
いて、NO2濃度を予想。
• D.J.Lary, et.al., Environmental Health Insights, 41-52, 2015
PM2.5の濃度をエアロゾルの光学的厚さと気象データのセットから推定。
その結果を疫学的な調査と照らし合わせて、PM2.5の影響を推定
• Y. Zhan, et.al,. Atmos. Env., 129-139, 2017
エアロゾル光学的厚さと気象データでPM2.5濃度を推定
• B. Pass, et.al., Environments, 1-25, 2017
騒音の測定結果と周辺のPM濃度および気象データから、粒径別のPM
の濃度を推定。
• J. K. Deters, et.al., J. Elect. Comp. Eng., 1-14, 2017
気象データをもとにPMの濃度を推定。
• Yi-C. Wu, et.al., Science & Applications, 1-12, 2017
特殊な可搬式の顕微鏡のデータに機械学習のメソッドを適用することで、
費用対効果の高いPM2.5測定の方法を提案。
もう一つ、ベイズ統計を用いた事例を紹介
143
研究の背景
• PM2.5の環境基準が平成21年9月に定められた。
• 常時監視データとしてPM2.5の採取を目的に応じて
2通りの方法で行っている。
自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
144
自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる(高濃度化の要因を探る)。
145
自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる(高濃度化の要因を探る)。
違った視点からの
解析が、できないか?
146
PM2.5の日々の変動グラフ
(2015年度名古屋市内:速報値)
0
5
10
15
20
25
30
35
40
12月14日
12月15日
12月16日
12月17日
12月18日
12月19日
12月20日
12月21日
12月22日
12月23日
12月24日
12月25日
12月26日
12月27日
12月28日
12月29日
12月30日
12月31日
1月1日
1月2日
1月3日
1月4日
1月5日
1月6日
1月7日
1月8日
1月9日
1月10日
1月11日
1月12日
PM2.5質量濃度(μg/m3)
愛知工業高校
中村保健所
滝川小学校
八幡中学校
富田支所
惟信高校
白水小学校
守山保健所
大高北小学校
天白保健所
上下水道局北営業所
名塚中学校
テレビ塔
熱田神宮公園
港 陽
千 竈
元塩公園
大まかな変動は類似しているが、測定局間に差がある。
147
PM2.5 年平均値の分布
(2014年度)
μg/m3
測定局間の差に
地理的な傾向は
存在するのか?
それとも
測定局ごとに
独自の傾向が
存在するのか?
148
目的
•自動測定機による日々のPM2.5濃度変化
を、その地理的な条件と合わせて考慮して、
その特徴を探る。
【仮説】
PM2.5の濃度への影響は、3つの種類に分解できる。
それぞれの影響を、場所ごとに区切って調べる。
149
1.広域的な影響
A
B C
D
全地点で、同じ期間(オレンジ色の四角)に
同じように高濃度となる現象が観測された。
↓
広域的に共通した原因が存在する。
観測された
PM2.5濃度の日変動
150
by vector free
○国外からの越境汚染の影響
○気温などの
気象条件による影響
○国内の汚染の影響
広域的な影響の例
151
2.地域的な影響
A
B C
D
いくつかの地点で、同じ期間(オレンジ色の四角)に
同じように高濃度となる現象が観測された。
↓
一定の地域に共通した原因が存在する。
152
by avaxhome.ws
○大規模な発生源の影響
地域的な影響の例
○密集した複数の発生源の
影響 by avaxhome.ws
○交通量の多い道路の影響
153
A
B C
D
3.局所的な影響
一つの地点で、ある期間(オレンジ色の四角)に
高濃度となる現象が観測された。
↓
個別の局所に影響した原因が存在する。
154
by avaxhome.ws
○測定局近傍の、小規模な発生源の影響
局所的な影響の例
A
155
濃度変動への影響の種類
【仮説】
• PM2.5に影響を与えるのは
<広域的な影響>(広い範囲の影響)
<地域的な影響>(一定範囲の影響)
<局所的な影響>(ごく狭い範囲への影響)
の3つに分解できる。
• これらの影響を、測定局ごとに統計的に解析して
影響の大きさを具体的に調べる。
156
解析対象データ
• 愛知県、岐阜県(一部)、
三重県(一部)の常時監
視局77局の日平均値
• 2012年4月1日
~2014年3月31日
(2年分)
☆大気汚染物質広域監視
システム(そらまめ君:速報
値)にて公表されている
データ
157
解析対象データ
<広域的な影響>
右の地図全体に共通した
影響
<地域的な影響>
0.1度×0.1度(約9×11km)
の四角に共通した影響
<局所的な影響>
測定局(赤い丸)のみへの
影響 158
測定値のモデル
<地域的な影響>は
隣の地域とは
似た変動を示す。
(空間自己相関をもつ)
0.1度(約9km)
0.1度
(約11km)
159
名古屋市近辺の区分け
160
測定値に対する仮定
PM2.5の測定値
広域的に共通した値(変動)
地域的な影響局所的な影響
空間自己
相関をもつ
161
測定値のモデル
ln [PM] d, r, c, p, m ~ N ([mPM] d, r, c, p, m , s )
[mPM] d, r, c, p, m <- [PM.0]m + [a.effect]r, c + [p.effect]p
[a.effect]r, c ~ car.normal(Adj[], Weight[], Num[], s’)
c
c + Δc
r + Δr
r 測定局p
ある日(d) の測定値。
この日はm月であった。
真の値は 、
月平均
地域的な影響
局所的な影響
の合計。
[mPM] d, r, c, p, m
[PM.0] m
[a.effect] r, c
[p.effect] p
162
計算に用いたソフト
• R:統計解析ソフト。今回は、データの加工や結果
の確認を行うのがメイン。(パッケージR2WinBUGS
を使用):無料
• WinBUGS:ベイズ統計のコアの計算を担う。:無料
163
測定値の推定結果
PM2.5の測定値
広域的に共通した値(変動)
地域的な影響局所的な影響
空間自己
相関をもつ
164
推定結果
- 広域的な影響の値(月変動)-
8
10
12
14
16
18
20
4月 5月 6月 7月 8月 9月 10月 11月 12月 1月 2月 3月
PM2.5濃度(μg/m3)
推定された値 実測値の平均値
推定された値(広域的な影響の値)に、以降で示す
地域的な影響や局所的な影響が加わって実測値となる。
(2012、2013年度)
165
測定値の推定結果
PM2.5の測定値
広域的に共通した値(変動)
地域的な影響局所的な影響
空間自己
相関をもつ
166
• 広域的な影響に対する、
相対的な影響値を示す。
• 名古屋港周辺から北の
地域にかけて高い値が
示された。
• 全体的には南西側で高
く、北東側で低い値と
なった。
計算結果
-地域的な影響-
167
計算結果
-地域的な影響- (名古屋近郊)
168
測定値の推定結果
PM2.5の測定値
広域的に共通した値(変動)
地域的な影響局所的な影響
空間自己
相関をもつ
169
• 広域的な影響に対する、
相対的な影響値を示す。
• 高い値、低い値が各所
に点在。
計算結果
-局所的な影響-
170
計算結果
-局所的な影響- (名古屋近郊)
171
局所的な影響
地
域
的
な
影
響
地域的な影響と局所的な影響の関係
(測定局ごとにプロット)
172
局所的な影響
地
域
的
な
影
響
地域的にも
局所的にも
高濃度になりやすい
地域的にも
局所的にも
低濃度になりやすい
地域的には高濃度
局所的には低濃度
になりやすい
地域的には低濃度
局所的には高濃度にな
りやすい
地域的な影響と局所的な影響の関係
(測定局ごとにプロット)
173
PM2.5 常時監視地点(名古屋市内)
守山保健所
上下水道局北営業所
テレビ塔
滝川小学校
天白保健所
愛知工業高校
八幡中学校
熱田神宮公園
名塚中学校
千竃
元塩公園
大高北小学校
中村保健所
白水小学校
富田支所
惟信高校
港陽
174
一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
175
一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
176
一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
177
排出量データ:EAGrid2000-JAPAN1)
とは?
• EAGrid2000-Japanは、2000年度を対象とした大気汚染物質排出デー
タである。
• 日本国内の様々なデータ(固定発生源種類・規模、発電量、廃棄物
処理量、自動車交通量、船舶航行データなど)から、1km2ごとでの
排出量を推定した総合的な排出量データ。
• この中から、今回はPM2.5の排出に係るデータを取り出し、結果の比
較を行った。
1) Kannari, A., Tonooka, Y., Baba, T., Murano, K.:Development of multiple-species
1 km×1 km resolution hourly basis emissions inventory for Japan, Atmospheric
Environment, 41, 3428‒3439 (2007). 178
排出量データ:EAGrid2000-JAPAN
の種類(一部)
○発電所
○廃棄物の焼却施設
○工場ボイラーなどの燃焼施設
○農業廃棄物焼却(野焼き)
○自動車排気
○船舶
○農業・産業用機械
○航空機 など
179
自動車排気からのPM2.5の
排出データとの比較
(EAGrid2000-JAPAN)
kg/年
180
大規模固定燃焼施設からのPM2.5の
排出データとの比較
(EAGrid2000-JAPAN)
kg/年
181
船舶からのPM2.5の
排出データとの比較
(EAGrid2000-JAPAN)
kg/年
182
0.80
0.85
0.90
0.95
1.00
1.05
1.10
1.15
1.20
1.25
1.30
局所的な影響
一般環境
大気測定局
自動車排出ガス
測定局
局所的な影響の評価
(一般環境と道路沿道の比較)
183
謝辞
• 解析ソフトの利用に際し、北海道大学
の久保拓弥博士が公開している
R2WBwrapper.Rを併用しました。
• 地図の県境データについては「国土数
値情報 (行政区域データ) 国土交通省」
を使用して作成しました。
184
本発表の一部は
大気環境学会誌第50巻第2号(2015)
<ベイズ統計を用いたPM2.5常時監視データの解
析>
および
環境科学調査センター年報第3号(2014)
<空間統計学を用いた常時監視データ解析>
を基としております。
論文はインターネット等で入手できます。さらに詳細
な検討方法やデータなどについては、そちらをご覧
ください。
185

More Related Content

Similar to Lecture materials(20180820v1)

ぞくパタ はじめに
ぞくパタ はじめにぞくパタ はじめに
ぞくパタ はじめに
Akifumi Eguchi
 
統計学超入門「平均」を使いこなす
統計学超入門「平均」を使いこなす統計学超入門「平均」を使いこなす
統計学超入門「平均」を使いこなすwebcampusschoo
 
20130901_survey_nagoya
20130901_survey_nagoya20130901_survey_nagoya
20130901_survey_nagoya
Takanori Hiroe
 
統計処理環境Rで学ぶ 言語研究のための統計入門
統計処理環境Rで学ぶ言語研究のための統計入門統計処理環境Rで学ぶ言語研究のための統計入門
統計処理環境Rで学ぶ 言語研究のための統計入門corpusling
 
統計学超入門
統計学超入門統計学超入門
統計学超入門
w24nishi
 
統計学超入門 アップロード用
統計学超入門 アップロード用統計学超入門 アップロード用
統計学超入門 アップロード用
w24nishi
 
[自由研究]もっとも愛されている”数字”はどれなのか
[自由研究]もっとも愛されている”数字”はどれなのか[自由研究]もっとも愛されている”数字”はどれなのか
[自由研究]もっとも愛されている”数字”はどれなのか
Asuki Yokoyama
 
StatGenSummerSchool2023_Statistics.pdf
StatGenSummerSchool2023_Statistics.pdfStatGenSummerSchool2023_Statistics.pdf
StatGenSummerSchool2023_Statistics.pdf
The University of Tokyo, Osaka University, RIKEN IMS
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4keyyouwatari
 
Data analysis-for-highschool-students
Data analysis-for-highschool-studentsData analysis-for-highschool-students
Data analysis-for-highschool-students
naoki yamagishi
 
100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編. .
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版
youwatari
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
 
コース導入講義(荒木)
コース導入講義(荒木)コース導入講義(荒木)
コース導入講義(荒木)
Faculty of Economics, Momoyama Gakuin University
 
HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...
HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...
HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...
Takunori Terasawa
 
編入試験への準備と編入後の生活
編入試験への準備と編入後の生活編入試験への準備と編入後の生活
編入試験への準備と編入後の生活
ShotaSatuma
 
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
Kensuke Otsuki
 
How to study stat for freshmans
How to study stat for freshmansHow to study stat for freshmans
How to study stat for freshmansAk Ok
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
 

Similar to Lecture materials(20180820v1) (19)

ぞくパタ はじめに
ぞくパタ はじめにぞくパタ はじめに
ぞくパタ はじめに
 
統計学超入門「平均」を使いこなす
統計学超入門「平均」を使いこなす統計学超入門「平均」を使いこなす
統計学超入門「平均」を使いこなす
 
20130901_survey_nagoya
20130901_survey_nagoya20130901_survey_nagoya
20130901_survey_nagoya
 
統計処理環境Rで学ぶ 言語研究のための統計入門
統計処理環境Rで学ぶ言語研究のための統計入門統計処理環境Rで学ぶ言語研究のための統計入門
統計処理環境Rで学ぶ 言語研究のための統計入門
 
統計学超入門
統計学超入門統計学超入門
統計学超入門
 
統計学超入門 アップロード用
統計学超入門 アップロード用統計学超入門 アップロード用
統計学超入門 アップロード用
 
[自由研究]もっとも愛されている”数字”はどれなのか
[自由研究]もっとも愛されている”数字”はどれなのか[自由研究]もっとも愛されている”数字”はどれなのか
[自由研究]もっとも愛されている”数字”はどれなのか
 
StatGenSummerSchool2023_Statistics.pdf
StatGenSummerSchool2023_Statistics.pdfStatGenSummerSchool2023_Statistics.pdf
StatGenSummerSchool2023_Statistics.pdf
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
Data analysis-for-highschool-students
Data analysis-for-highschool-studentsData analysis-for-highschool-students
Data analysis-for-highschool-students
 
100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
コース導入講義(荒木)
コース導入講義(荒木)コース導入講義(荒木)
コース導入講義(荒木)
 
HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...
HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...
HLCワークショップ (2016年3月27日) 「言語と社会」の測り方・入門―量的アプローチの根本思想― 寺沢 拓敬 (東京大学社会科学研究所/学振特別研...
 
編入試験への準備と編入後の生活
編入試験への準備と編入後の生活編入試験への準備と編入後の生活
編入試験への準備と編入後の生活
 
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
 
How to study stat for freshmans
How to study stat for freshmansHow to study stat for freshmans
How to study stat for freshmans
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
 

Lecture materials(20180820v1)

Editor's Notes

  1. CPF解析とは、高濃度が観測されるときの風向を調べ、頻度の高い風向の風上に発生源があると推定する方法で、左下の式のように、風向ごとにすべての風の数を分母とし、高濃度時の風の数を分子として割り算を行います。その割り算の結果を風向ごとに示した例が右のグラフになりますが、赤で囲った凸になった方向は、発生源があると考えられる方向です。
  2. しかし、例えばこの例についてみると、東、西南西、北西はいずれも高い値を示しておりますが、例えば実際の風の数が下のように風向ごとに大きく異なるとすると、それぞれの数値の値の信頼性は風向ごとに異なってしまいます。風の数が少ない風向のデータは“たまたまの結果”である可能性が、高くなってしまい、同列に扱っていいのかどうか、疑問が残ります。
  3. ここから結果の報告に入りますが、まずは、調査地点について述べたいと思います。名古屋市は、左の地図の通り伊勢湾の奥に位置しております。右の地図の黒い線は行政区を、赤い線は市内を通る主要な国道を示しており、2か所の調査地点が黒丸で示してあります。元塩公園は、国道23号という大きな道路に接しています。図では分かりにくいですが、元塩公園のすぐ西を道路が走っている環境です。
  4. こちらが、CPF解析の結果になります。元塩公園では、平成23年度、24年度共に北を中心とした方向から風が吹くときに、高濃度となる傾向が明らかとなりました。また、西の風向でも凸となり、高濃度になりやすいことがわかります。あと、平成23年度では南南西で特徴的に高い割合になりました。八幡中学校でも、年度による大きな差はなく南西を中心とした風向の時に高濃度になる傾向が明らかになった。
  5. まず、それぞれの地点、年度における風配図を示しました。年度、地点によらず名古屋市では、北西側からの風が多く吹いていることがわかります。
  6. しかし、例えばこの例についてみると、東、西南西、北西はいずれも高い値を示しておりますが、例えば実際の風の数が下のように風向ごとに大きく異なるとすると、それぞれの数値の値の信頼性は風向ごとに異なってしまいます。風の数が少ない風向のデータは“たまたまの結果”である可能性が、高くなってしまい、同列に扱っていいのかどうか、疑問が残ります。
  7. そこで今回、ベイズ統計による解析を行い、風向と濃度の関係について調べました。ベイズ解析というのは、ここに示されたベイズの定理を用いた統計学で、従来の統計学とは異なる様々な特徴を持ち、近年、多くの分野で活用さております。
  8. ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。
  9. ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。
  10. ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。
  11. ここに書いたようなベイズ統計の特徴のいくつかは、要旨に載せさせていただきました。今回の話ですと一番上の項目が大きく関係していて、統計モデルについて、その確からしさを得ることができる、つまり、風向の影響についてその結果の信頼性についても評価することができる、というのが特徴になります。
  12. ベイズ統計はエクセルなどの表計算ソフトで実施するのは困難なため、今回はWinBUGSとRという統計専用のソフトを使用しました。解析にあたり最も重要なのは、PM2.5の質量濃度の変動に対して、何が影響しているのかを自分で見極める必要があるということです。これは、自動的に計算されるのではなく、それまでの知見から自分で設定しなければなりません。いくつかの予備検討を行った結果、今回は、以下の式に示しているような<風向の影響を受けない月ごとの平均値>に<風向の影響値>が加わることで、観測されるPM2.5の質量濃度になると仮定しました。
  13. 次に、ベイズ統計よる解析結果を示します。まずは元塩公園について結果を示しました。ベイズ統計では、ある風向の時に、どれくらい濃度が上昇するかを解析し、上昇する濃度の中央値をひし形で、それを中心とした95%確信区間についてバーで示しました。また、先ほどのCPF解析で示しました高濃度の観測される割合については水色の丸印で右側の軸を使って示してあります。全体的な傾向としてひし形マークの増減の動きと丸印の増減の動きは連動しており、北を中心とした方向からの風によって濃度が上昇する傾向がいずれの解析方法でも確認できます。先ほど地図で示しました通り、元塩公園は西に大きな幹線道路があり、そちらからの影響が大きいと推測しておりますが今回は北方向の風の影響が示されました。これは、局所的な建物の影響なども受けている可能性があります。 ベイズ統計の特徴である結果の信頼性に着目すると、例えば平成23年度の南南西や平成24年度の南のデータは、バーの長さが長くなっており、その方向からの風の影響は高い時もあれば低い時もあり、一定の傾向を示さないことがベイズ統計の結果では示されております。他にも、いくつかバーの長さの長い風向があり、そのデータの信頼性は低いことが示されました。
  14. こちらは、八幡中学校のデータの解析結果になります。元塩公園の時と同様に、ひし形と丸印はおおむねその動きが連動して、南西方向からの風により濃度が上昇する傾向を確認することができます。バーの長さについては、元塩公園のグラフと比べると小さくなっており、結果に対する信頼性が全体的に、元塩公園の結果と比較すると高いことが明らかとなりました。測定地点の南に位置する名古屋港周辺は工場地帯で、また船舶なども影響して、濃度上昇に寄与しているのではないかと考えられます。
  15. 結果の信頼性については、風向の数と関係があると予測できるので、その関係をグラフにしたのが、こちらになります。横軸に風向の数を対数でとり、縦軸には先ほどのグラフの95%確信区間の幅をとりました。丸印が元塩公園、ひし形が八幡中学校を示し、塗りつぶしてある方が平成24年度の結果です。見ていただきますとわかるとおり、風向の数と95%確信区間には明らかに相関があります。この相関は年度や地点による変化はあまりなく、例えば、おおむね5μg/m3の95%確信区間を得るためには約100サンプルが必要であることが分かります。