Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Stanの紹介と応用事例(age heapingの統計モデル)
Report
. .
Follow
Nov. 24, 2017
•
0 likes
6 likes
×
Be the first to like this
Show More
•
2,990 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
Hiroyuki Kato
カステラ本勉強会 第三回 補足
ke beck
PRMLrevenge 4.4
Naoya Nakamura
統計的学習の基礎_3章
Shoichi Taguchi
PRML輪読#3
matsuolab
Prml 1.3~1.6 ver3
Toshihiko Iio
PRML勉強会@長岡 第4章線形識別モデル
Shohei Okada
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
1
of
27
Top clipped slide
Stanの紹介と応用事例(age heapingの統計モデル)
Nov. 24, 2017
•
0 likes
6 likes
×
Be the first to like this
Show More
•
2,990 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Engineering
. .
Follow
Advertisement
Advertisement
Advertisement
Recommended
Stanでガウス過程
Hiroshi Shimizu
12.8K views
•
50 slides
PRML輪読#6
matsuolab
5.3K views
•
27 slides
PRML輪読#2
matsuolab
10.8K views
•
36 slides
PRML輪読#4
matsuolab
7.7K views
•
43 slides
数式を綺麗にプログラミングするコツ #spro2013
Shuyo Nakatani
50.3K views
•
26 slides
幾何を使った統計のはなし
Toru Imai
29K views
•
54 slides
More Related Content
Slideshows for you
(20)
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
Hiroyuki Kato
•
3.3K views
カステラ本勉強会 第三回 補足
ke beck
•
1.6K views
PRMLrevenge 4.4
Naoya Nakamura
•
2.5K views
統計的学習の基礎_3章
Shoichi Taguchi
•
9.9K views
PRML輪読#3
matsuolab
•
9.4K views
Prml 1.3~1.6 ver3
Toshihiko Iio
•
9.4K views
PRML勉強会@長岡 第4章線形識別モデル
Shohei Okada
•
4.2K views
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
•
8.4K views
PRML輪読#9
matsuolab
•
5.2K views
PRML読み会第一章
Takushi Miki
•
6K views
PRML 3.5.2, 3.5.3, 3.6
Kohei Tomita
•
2.4K views
統計的学習の基礎 3章前半
Kazunori Miyanishi
•
460 views
Prml3.5 エビデンス近似〜
Yuki Matsubara
•
4.9K views
RStanとShinyStanによるベイズ統計モデリング入門
Masaki Tsuda
•
33.2K views
PRML復々習レーン#3 前回までのあらすじ
sleepy_yoshi
•
2.8K views
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
Takeshi Sakaki
•
5.8K views
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
•
32.5K views
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
Itaru Otomaru
•
5.6K views
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
Akihiro Nitta
•
495 views
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
Junpei Tsuji
•
7.1K views
Similar to Stanの紹介と応用事例(age heapingの統計モデル)
(20)
PRML第9章「混合モデルとEM」
Keisuke Sugawara
•
6.2K views
逐次モンテカルロ法の基礎
ShoutoYonekura
•
1.3K views
PRML 上 1.2.4 ~ 1.2.6
禎晃 山崎
•
479 views
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
Masashi Komori
•
7.2K views
Or学会用20160915.ver2
Ryoma Nakagawa
•
535 views
第三回統計学勉強会@東大駒場
Daisuke Yoneoka
•
1.4K views
prml_titech_9.0-9.2
Taikai Takeda
•
1.1K views
PRML10-draft1002
Toshiyuki Shimono
•
109 views
自然科学の統計学2.2 slideshare
wada, kazumi
•
621 views
Quantum Support Vector Machine
Yuma Nakamura
•
798 views
人生を豊かにする線形代数学
Fumiya Watanabe
•
7.6K views
PRML4.3
hiroki yamaoka
•
37 views
PRML2.3.8~2.5 Slides in charge
Junpei Matsuda
•
1.4K views
データ解析7 主成分分析の基礎
Hirotaka Hachiya
•
2.8K views
第2回DARM勉強会.preacherによるmoderatorの検討
Masaru Tokuoka
•
6.2K views
PRML第6章「カーネル法」
Keisuke Sugawara
•
28K views
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
•
2.2K views
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
Yu Otsuka
•
59 views
パターン認識 第12章 正則化とパス追跡アルゴリズム
Miyoshi Yuya
•
5.5K views
TokyoWebmining統計学部 第1回
Issei Kurahashi
•
9.5K views
Advertisement
More from . .
(12)
TensorFlowで統計モデリング
. .
•
6.3K views
統計モデリングで癌の5年生存率データから良い病院を探す
. .
•
6.7K views
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
•
15.5K views
階層ベイズモデルで割安mobile PCを探す
. .
•
6.5K views
Replica exchange MCMC
. .
•
12.8K views
順序データでもベイズモデリング
. .
•
12.6K views
データ解析で割安賃貸物件を探せ!(山手線沿線編) LT
. .
•
10.9K views
分布から見た線形モデル・GLM・GLMM
. .
•
29.7K views
100人のための統計解析 和食レストラン編
. .
•
12.1K views
とある病んだ院生の体内時計(サーカディアンリズム)
. .
•
10.5K views
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
. .
•
36K views
BUGSを使うメリット
. .
•
11K views
Recently uploaded
(20)
★可查可存档〖制作魁北克大学文凭证书毕业证〗
mmmm282537
•
2 views
★可查可存档〖制作波恩大学文凭证书毕业证〗
tujjj
•
9 views
办皇家墨尔本理工大学毕业证成绩单
JhhhfGffh
•
0 views
#全套原版1:1精仿怀卡托大学学位证成绩单
b6f0190421d1rma
•
3 views
《拉文大学毕业证|学位证书校内仿真版本》
123shab123
•
2 views
美国:伦斯勒理工学院毕业证办理流程
amdfot
•
2 views
揭秘美国留学:如何获得阿拉斯加大学毕业证?
xefexep
•
2 views
《萨斯喀彻温大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
3 views
DBチューニング超入門
VirtualTech Japan Inc./Begi.net Inc.
•
9 views
《天普大学毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
★可查可存档〖制作巴黎第十二大大学文凭证书毕业证〗
tujjj
•
2 views
★可查可存档〖制作密德萨斯大学文凭证书毕业证〗
vgfg1
•
2 views
《萨德伯里大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
2 views
★可查可存档〖制作斯伯丁大学文凭证书毕业证〗
vgfg1
•
2 views
mabl - 負荷テストにおけるmablのAPIテスト活用_20230525
Yuki Shimizu
•
21 views
★可查可存档〖制作乌尔姆大学文凭证书毕业证〗
tujjj
•
18 views
《尚贝里大学毕业证|学位证书校内仿真版本》
hj123saf
•
2 views
《高级时装学院毕业证|学位证书校内仿真版本》
hj123saf
•
2 views
Radio02(1995).pdf
ivan ion
•
4 views
《卡尔顿大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
3 views
Advertisement
Stanの紹介と応用事例(age heapingの統計モデル)
StanとRでベイズ統計モデリング Kentaro Matsuura 2017.11.25
ベイズ統計モデリングとは 2 連立方程式 問い つるかめ算 旅人算 食塩水の濃度 モデル化 連立方程式に落とす 解法 加減法 代入法 答えのかたち
𝑥 =●● 𝑦 =▲▲ ベイズ統計モデリング 行動の理解・予測 現象の理解・予測 複数のパラメータを含む、 モデル式に落とす MCMC 変分ベイズ ・・・ パラメータの(事後の)同時分布
結局Stanは何をするための道具? 3 かんたんにモデルを組み立てて, パラメータの(事後の)同時分布を得るための道具 Stanでは同時分布そのものの代わりに, 「MCMCサンプル」 そこからの乱数サンプルたちを求める ちょっとしたモデルで すぐに数式で表現不能になる
類似ソフトとの比較 (評価は主観) 汎用性 ×
△ ○ ○ ○ ○ ○ ○ バグの入りにくさ × ○ ○ ○ ○ ○ ○ ○ エラーメッセージの 読みやすさ - ○ × △ △ ○ △ ○ MCMCの速度・質 ◎ ○ ○ ○ ◎ △ △ △ 変分ベイズ ◎ - - - ○ - ○ - マニュアルや 例の充実度 - △ ○ △ ◎ △ ○ ○ 開発頻度 - △ × △ ◎ ○ ◎ ○ 備考 空間 ベイズ 離散パラ メータ× 良くも悪くも Tensorflow 有料 4
Rは何のために必要か? • Stanをお手軽に実行するため • MCMCサンプルを縦横無尽に扱うため •
統計モデリングの前後の十分な可視化のため • 確率分布を用いたシミュレーションのため 5
単回帰の例 • 年功序列の会社における, 年齢と年収の関係 •
説明変数: 年齢𝑋 𝑛 , 応答変数: 年収𝑌 𝑛 • モデル式: 𝑌 𝑛 ~ Normal 𝑎 + 𝑏𝑋 𝑛 , 𝜎 • パラメータ: 𝑎, 𝑏, 𝜎, 事後分布: 𝑝 𝑎, 𝑏, 𝜎|𝑋, 𝑌 6 1 2 3 4 21 X,Y 24,472 24,403 26,454 ... 59,1314 data-salary.txtの構成
モデルを表すStanファイル 7 dataブロックはデータの宣言 ・変数の型宣言が必要 int
: 整数型, real: 実数型 ・[] は配列 parametersブロックは推定したいパラメータの宣言 ・<lower=0> は定義範囲 modelブロックでモデル式を書く ・forはRと同様に繰り返し 分布の指定がないパラメータは無情報事前分布に従う
推定を実行するRファイル 8 直前のStanファイルを指定 dataブロックに対応した, Rの名前つきlistを渡す • {rstan}パッケージを使う.
print(fit)の結果 9 よく使われるMCMCの収束判定は, すべてのパラメータの Rhat
< 1.1 ※ traceplotもチェックするべきですが, ここでは省略します.
print(fit)の結果 10 事後周辺分布 𝑝
𝑎|𝑋, 𝑌 の要約になっている
4000行のうち先頭6行 MCMCサンプルを取り出してみる 11 この1行は, 同時分布 𝑝
𝑎, 𝑏, 𝜎|𝑋, 𝑌 からの 乱数サンプル1個に相当 この1列は, 周辺分布 𝑝 𝑎|𝑋, 𝑌 からの 乱数サンプル𝑁 𝑚𝑐𝑚𝑐個に相当
MCMCサンプルを鮮やかに操るには • 以下のパッケージを使うのがオススメ {ggmcmc}, {dplyr},
{tidyr}, {ggplot2} 12
例:𝑎, 𝑏の95%ベイズ信頼区間を求める 13
応用事例
1990年のインドネシアの人口ピラミッド 15 • 自分の年齢をよく覚えていない人がキリの良い年齢を自己申告 [万人] 真の人口ピラミッド(構成比)を推定したい
メカニズムの想像 • 仮定1: 真の人口ピラミッド𝑞において, 近くの年齢における構成比は“似ている” •
仮定2: キリの良い年齢へは前後2歳から流入がある 16 Intrinsic Gaussian Markov Random Field (IGMRF) 60歳 55歳 𝑞 𝜇 ※前後2歳の代わりに, ガウスカーネルや指数関数などを用いることも考えられる.
モデル式 • 𝐴: 年齢の数
(ここでは0~75歳の76個) • 𝑎: 年齢インデックス (eg. 𝑎 = 1がゼロ歳) • 𝑌 𝑎 𝑎 = 1, … , 𝐴: 各年齢の人口データ • 𝑞 𝑎 𝑎 = 1, … , 𝐴: 真の構成比 • 𝜇 𝑎 𝑎 = 1, … , 𝐴: 流入・流出後の構成比 • 𝑌 ~ Multinomial 総人口, 𝜇 • 𝑞 𝑎 ~ Normal 2 𝑞 𝑎 − 1 − 𝑞 𝑎 − 2 , 𝜎𝑞 17 2階差分の IGMRF 74, 75歳間 は無視 𝑎 = 3, … , 𝐴 − 1
(補足) IGMRFの尤度 Håvard Rue
et al. (2005) “Gaussian Markov Random Fields” Chapman & Hall/CRC • 1次元の場合: IGMRFと状態空間モデルは同じ尤度となる. 例: 1階差分の場合の尤度 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∝ 観測モデルの尤度 × 1 𝜎𝜇 𝐼−1 2 exp − 1 2 𝑖=2 𝐼 𝜇 𝑖 − 𝜇 𝑖 − 1 𝜎𝜇 2 • 2次元の場合: 例: 1階差分の場合の尤度 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∝ 観測モデルの尤度 × 1 𝜎𝜇 全サイト数−1 2 exp − 1 2 𝑖,𝑗 と 𝑖′,𝑗′ が 隣接 𝜇 𝑖, 𝑗 − 𝜇 𝑖′, 𝑗′ 𝜎𝜇 2 18 -1は「全ての𝜇に定数を足しても不変」 という線形制約による精度行列のrank の減少分に関係する. 一般に線形制約の数は, 𝑑: 次元, 𝑘: 階差 として| 𝑑+𝑘−1 𝐶𝑘−1となるので, その分がマイナスとなる.
• 2次元の場合: 例: 2次元正方格子,
2階差分の場合の尤度 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∝ 観測モデルの尤度 × 1 𝜎𝜇 𝐼×𝐽−3 2 exp − 1 2 𝑖=2 𝐼−1 𝑗=2 𝐽−1 ○ ● ○ ● ○ ● ○ ● ○ − 4 ○ ○ ○ ○ ● ○ ○ ○ ○ 𝜎𝜇 2 または, 観測モデルの尤度 × 1 𝜎𝜇 𝐼×𝐽−3 2 exp − 1 2 𝑖=2 𝐼−1 𝑗=2 𝐽−1 2 3 ○ ● ○ ● ○ ● ○ ● ○ + 1 6 ● ○ ● ○ ○ ○ ● ○ ● − 10 3 ○ ○ ○ ○ ● ○ ○ ○ ○ 𝜎𝜇 2 などが考えられる (いずれもΣの括弧の中は 𝜕2 𝜕𝑥2 + 𝜕2 𝜕𝑦2の差分による近似). 19
モデル式 • 𝐽: 流出が起こる年齢の数
(𝑗は流出のインデックスとなる) • 𝐹𝑟𝑜𝑚 𝑗 𝑗 = 1, … , 𝐽: 流出元の年齢インデックス • 𝑇𝑜 𝑗 𝑗 = 1, … , 𝐽: 流出先の年齢インデックス • 𝑟 𝑗 𝑗 = 1, … , 𝐽: 𝑞 𝐹𝑟𝑜𝑚 𝑗 のうち, 何割が流出したかを 表すパラメータ(範囲は 0,1 ) • 𝜇は, 𝑞と𝑟から以下の手順で作られる. 1. 𝜇を𝑞で初期化 2. for 𝑗 in 1, … , 𝐽: 𝜇 𝐹𝑟𝑜𝑚 𝑗 = 𝜇 𝐹𝑟𝑜𝑚 𝑗 − 𝑟 𝑗 𝑞 𝐹𝑟𝑜𝑚 𝑗 𝜇 𝑇𝑜 𝑗 = 𝜇 𝑇𝑜 𝑗 + 𝑟 𝑗 𝑞 𝐹𝑟𝑜𝑚 𝑗 20
モデル式 • 𝑟 𝑗
は何らかの制約がないとうまく推定できない. そこで, 以下のように縛りを入れる (階層モデル): • 仮定3: 𝑟 𝑗 ~ Normal 𝜇 𝑟, 𝜎𝑟 𝑇 0,1 𝑗 = 1, … , 𝐽 ※他には以下の仮定なども考えられる. • 仮定3’: logit 𝑟 𝑗 ~ Normal 𝜇 𝑟, 𝜎𝑟 𝑗 = 1, … , 𝐽 21
モデルを表すStanファイル 22 仮定2 仮定3 仮定1 仮定3が切断正規分布のため
推定を実行するRファイル 23 𝐹𝑟𝑜𝑚 𝑗
,𝑇𝑜 𝑗 の作成 人口データ の読み込み
結果 | 真の構成比𝑞
24 エラーバーは 95%ベイズ信頼区間
結果 | 𝑞と元データの重ね合わせ
25
結果 | キリの良い数字に答えてしまう割合𝑟
26 エラーバーは 95%ベイズ信頼区間
参考文献 • 松浦健太郎 (2016)
『StanとRでベイズ統計モデリング』 共立出版 • MCMCサンプルを{dplyr}で操る – http://statmodeling.hatenablog.com/entry/using-mcmc-samples-with-dplyr • 人口ピラミッドのAge Heapingを階層ベイズで補正する – http://statmodeling.hatenablog.com/entry/age-heaping • Håvard Rue et al. (2005) “Gaussian Markov Random Fields” Chapman & Hall/CRC • IGMRFの尤度におけるrankの減少分に関するメモ – http://statmodeling.hatenablog.com/entry/IGMRF-likelihood 27
Advertisement