Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
nocchi_airport
5,271 views
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
2017/4/29に行われた,StanとRでベイズ統計モデリングに関する読書会(Osaka.stan)第4回における,第7章の発表資料です
Data & Analytics
◦
Read more
11
Save
Share
Embed
Embed presentation
1
/ 54
2
/ 54
3
/ 54
4
/ 54
5
/ 54
6
/ 54
7
/ 54
8
/ 54
9
/ 54
10
/ 54
11
/ 54
12
/ 54
13
/ 54
14
/ 54
15
/ 54
16
/ 54
17
/ 54
18
/ 54
19
/ 54
20
/ 54
21
/ 54
22
/ 54
23
/ 54
24
/ 54
25
/ 54
26
/ 54
27
/ 54
28
/ 54
29
/ 54
30
/ 54
31
/ 54
32
/ 54
33
/ 54
34
/ 54
35
/ 54
36
/ 54
37
/ 54
38
/ 54
39
/ 54
40
/ 54
41
/ 54
42
/ 54
43
/ 54
44
/ 54
45
/ 54
46
/ 54
47
/ 54
48
/ 54
49
/ 54
50
/ 54
51
/ 54
52
/ 54
53
/ 54
54
/ 54
More Related Content
PDF
Stanコードの書き方 中級編
by
Hiroshi Shimizu
PDF
Stan超初心者入門
by
Hiroshi Shimizu
PDF
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
by
Hiroshi Shimizu
PPTX
心理学者のためのGlmm・階層ベイズ
by
Hiroshi Shimizu
PDF
Stanの便利な事後処理関数
by
daiki hojo
PDF
これからの仮説検証・モデル評価
by
daiki hojo
PDF
あなたの心にBridgeSampling
by
daiki hojo
PDF
一般化線形混合モデル入門の入門
by
Yu Tamura
Stanコードの書き方 中級編
by
Hiroshi Shimizu
Stan超初心者入門
by
Hiroshi Shimizu
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
by
Hiroshi Shimizu
心理学者のためのGlmm・階層ベイズ
by
Hiroshi Shimizu
Stanの便利な事後処理関数
by
daiki hojo
これからの仮説検証・モデル評価
by
daiki hojo
あなたの心にBridgeSampling
by
daiki hojo
一般化線形混合モデル入門の入門
by
Yu Tamura
What's hot
PDF
階層ベイズによるワンToワンマーケティング入門
by
shima o
PPTX
MCMCでマルチレベルモデル
by
Hiroshi Shimizu
PDF
階層ベイズとWAIC
by
Hiroshi Shimizu
PPTX
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
by
Masashi Komori
PDF
心理学におけるベイズ統計の流行を整理する
by
Hiroshi Shimizu
PPTX
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
by
Shushi Namba
PDF
『バックドア基準の入門』@統数研研究集会
by
takehikoihayashi
PDF
2 6.ゼロ切断・過剰モデル
by
logics-of-blue
PDF
Chapter9 一歩進んだ文法(前半)
by
itoyan110
PDF
Rで階層ベイズモデル
by
Yohei Sato
PPTX
ベイズファクターとモデル選択
by
kazutantan
PDF
社会心理学とGlmm
by
Hiroshi Shimizu
PDF
ベイズモデリングと仲良くするために
by
Shushi Namba
PPTX
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
by
Takashi Yamane
PPTX
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
by
Hiroshi Shimizu
PDF
2 3.GLMの基礎
by
logics-of-blue
PDF
潜在クラス分析
by
Yoshitake Takebayashi
PDF
階層モデルの分散パラメータの事前分布について
by
hoxo_m
PPTX
StanとRでベイズ統計モデリング読書会Ch.9
by
考司 小杉
PPTX
GEE(一般化推定方程式)の理論
by
Koichiro Gibo
階層ベイズによるワンToワンマーケティング入門
by
shima o
MCMCでマルチレベルモデル
by
Hiroshi Shimizu
階層ベイズとWAIC
by
Hiroshi Shimizu
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
by
Masashi Komori
心理学におけるベイズ統計の流行を整理する
by
Hiroshi Shimizu
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
by
Shushi Namba
『バックドア基準の入門』@統数研研究集会
by
takehikoihayashi
2 6.ゼロ切断・過剰モデル
by
logics-of-blue
Chapter9 一歩進んだ文法(前半)
by
itoyan110
Rで階層ベイズモデル
by
Yohei Sato
ベイズファクターとモデル選択
by
kazutantan
社会心理学とGlmm
by
Hiroshi Shimizu
ベイズモデリングと仲良くするために
by
Shushi Namba
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
by
Takashi Yamane
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
by
Hiroshi Shimizu
2 3.GLMの基礎
by
logics-of-blue
潜在クラス分析
by
Yoshitake Takebayashi
階層モデルの分散パラメータの事前分布について
by
hoxo_m
StanとRでベイズ統計モデリング読書会Ch.9
by
考司 小杉
GEE(一般化推定方程式)の理論
by
Koichiro Gibo
Viewers also liked
PDF
魅せる・際立つ・役立つグラフ Hands on!! ggplot2!! ~導入編~
by
MrUnadon
PPTX
Mental model for emotion
by
Shushi Namba
PPTX
馬に蹴られるモデリング
by
Shushi Namba
PPTX
Osaka.stan#4 chap8
by
Takashi Yamane
PDF
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
by
Takahiro Kubo
PPTX
20171024NL研報告スライド
by
Masatoshi TSUCHIYA
PDF
もしその単語がなかったら
by
Hiroshi Nakagawa
PPTX
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
by
Deep Learning JP
PDF
PoisoningAttackSVM (ICMLreading2012)
by
Hidekazu Oiwa
PDF
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
by
Deep Learning JP
PDF
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
by
Yahoo!デベロッパーネットワーク
PDF
スキルチェックリスト 2017年版
by
The Japan DataScientist Society
PPTX
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
by
tanutarou
PDF
新規事業・起業を妨げる「ビジネスモデル症候群」とは
by
Lean Startup Japan LLC
PDF
確率的プログラミングライブラリEdward
by
Yuta Kashino
PDF
AWS Black Belt - AWS Glue
by
Amazon Web Services Japan
PDF
すべてを自動化せよ! 〜生産性向上チームの挑戦〜
by
Jumpei Miyata
PDF
Tokyo webmining 2017-10-28
by
Kimikazu Kato
PDF
(DL hacks輪読)Bayesian Neural Network
by
Masahiro Suzuki
PPTX
本当は恐ろしい分散システムの話
by
Kumazaki Hiroki
魅せる・際立つ・役立つグラフ Hands on!! ggplot2!! ~導入編~
by
MrUnadon
Mental model for emotion
by
Shushi Namba
馬に蹴られるモデリング
by
Shushi Namba
Osaka.stan#4 chap8
by
Takashi Yamane
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
by
Takahiro Kubo
20171024NL研報告スライド
by
Masatoshi TSUCHIYA
もしその単語がなかったら
by
Hiroshi Nakagawa
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
by
Deep Learning JP
PoisoningAttackSVM (ICMLreading2012)
by
Hidekazu Oiwa
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
by
Deep Learning JP
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
by
Yahoo!デベロッパーネットワーク
スキルチェックリスト 2017年版
by
The Japan DataScientist Society
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
by
tanutarou
新規事業・起業を妨げる「ビジネスモデル症候群」とは
by
Lean Startup Japan LLC
確率的プログラミングライブラリEdward
by
Yuta Kashino
AWS Black Belt - AWS Glue
by
Amazon Web Services Japan
すべてを自動化せよ! 〜生産性向上チームの挑戦〜
by
Jumpei Miyata
Tokyo webmining 2017-10-28
by
Kimikazu Kato
(DL hacks輪読)Bayesian Neural Network
by
Masahiro Suzuki
本当は恐ろしい分散システムの話
by
Kumazaki Hiroki
More from nocchi_airport
PDF
Road to ggplot2再入門
by
nocchi_airport
PDF
R Markdownによるドキュメント生成と バージョン管理入門
by
nocchi_airport
PDF
saiはRに宿るか? -RStudioとggplot2で碁を打つ-
by
nocchi_airport
PPTX
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
by
nocchi_airport
PDF
ggplot2用例集 入門編
by
nocchi_airport
PDF
ggplot2によるグラフ化@HijiyamaR#2
by
nocchi_airport
Road to ggplot2再入門
by
nocchi_airport
R Markdownによるドキュメント生成と バージョン管理入門
by
nocchi_airport
saiはRに宿るか? -RStudioとggplot2で碁を打つ-
by
nocchi_airport
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
by
nocchi_airport
ggplot2用例集 入門編
by
nocchi_airport
ggplot2によるグラフ化@HijiyamaR#2
by
nocchi_airport
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
1.
StanとRでベイズ統計モデリング 読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~ Osaka.Stan #4 (2017/4/29)
2.
自己紹介 紀ノ定 保礼(Kinosada Yasunori) −
静岡理工科大学 情報学部 講師 − 研究領域:認知心理学・交通心理学 − 趣味:カラオケ
3.
今回の発表について 本書のデータは使用していません ‒ 発表者自身の歌唱記録データ ‒ 注意点 -
実際は同一人物(発表者)の時系列データですが, 例示のため,全データ点が独立とみなして回帰分析したりして います ‒ 勉強中のため,間違いや「こうすればもっと面白い」 という点があれば,ぜひご指摘ください
4.
4章の内容と関連あり ←併せて ご参照ください
5.
7.6 説明変数が多すぎる
6.
説明変数が多い場合の問題 • うまく推定できない – 7.4多重共線性の問題など •
解釈が難しい Y X1 X2 X3 X98 X99 X100 …
7.
カラオケの点数を決めるパラメータ この曲は,100点をとるまでに26回挑戦した → 重回帰分析(的なもの)で点数を予測してみる
8.
(説明変数を行列形式でまとめる記法は Stan超初心者講習スライドを参照) karaoke.stanとして保存
9.
• 音程 • 安定性 •
抑揚 • ロングトーン …が影響しそう (定石と合っている)
10.
変数間の情報を活用したモデリングも 可能 • 音程 • 安定性 •
抑揚 • しゃくり • こぶし • フォール • ロングトーン • ビブラート • ビブラート秒 • ビブラート回数 トレードオフ ビブを増やすと, 安定性とロング トーンの減点が 減りやすい 上手くしゃくらないと 音程が下がる ※諸説あり
11.
変数間の情報が乏しい場合 ~推定前の対処~ 対処①:偏りの大きい説明変数を除く − 推定がうまくいかないと予想されるため
12.
対処②:類似度の高い説明変数をまとめる − 例:階層的クラスタリング 変数間の情報が乏しい場合 ~推定前の対処~
13.
対処③:データの次元を減らして説明変数とする − 例:主成分分析 変数間の情報が乏しい場合 ~推定前の対処~
14.
Bayesian Lasso − 説明変数の係数𝛽
𝑘に対して, 二重指数分布(ラプラス分布)を事前分布に設定 • 𝜇 = 0を中心に尖った分布(本書6.16参照) • そのようなペナルティを与えても生き残る(係数が0でない) 変数は予測に寄与 変数間の情報が乏しい場合 ~推定中の対処~ ← 尖らせるほど, きつい制約になる
15.
事前分布を 加筆 説明変数は標準化しておく
16.
Pointは事後平均,エラーバーは95%確信区間 このあたりから 変数選択が始まりそう
17.
7.7 説明変数にノイズを含む
18.
背後では厳密な数値が得られているはずだが,ユーザには 分からないので,見た目で点数を推測して,0~10点で入力 → ±1点程度の誤差があると仮定 点数 真の ビブラート 得点見た目で推測した ビブラート得点
19.
まずはノイズを仮定せずに ビブラート得点で点数を予測 データ数 見た目で推測したビブラート得点 点数 4章の単回帰と同じ
20.
ビブラート得点が1点上がると,総合得点が約2点上昇する
21.
真のビブラート得点で 点数を予測(ノイズの仮定有) 手元のビブラート得点が, 標準偏差1の正規分布から得られた と仮定して真の得点を推定 その推定値を用いて, 真のビブラート得点の影響を推定
22.
ノイズを仮定すると,係数も誤差も小さくなる… あと,分布の形がいびつ…
23.
おかしいな テキストの例 ノイズを仮定しても,係数には影響しないはず model4-5.stan(ノイズの仮定無) model7-6.stan(ノイズの仮定有)
24.
広島大学・平川先生による,仮想データを用いた回帰 ノイズの仮定有 ノイズの仮定無 やはり係数にはあまり影響しない…
25.
データをよく見てみる(今更) 元々の説明変数の標準偏差を 超えるノイズを仮定していた 超えないように調整 ↓
27.
7.8 打ち切り
28.
スコアラーあるある 見た瞬間に「あーーーもう! 次!」とか言って消す → 正確な点数が記憶されない(記録はされるけど)
29.
今回は96点未満は 正確な総合得点が 不明だとする 3/26試行で “<96”
30.
打ち切りを含む点数の 生成メカニズムを知りたい 対策①:<96 となっている値を,96で置換 ただし,平均値と標準偏差に バイアスがかかる(中略)
31.
打ち切りを含む点数の 生成メカニズムを知りたい 対策②:打ち切りしない/する場合で,異なる メカニズムを考える – 真の平均値𝜇に,測定誤差などのノイズが加わって 潜在的な測定値yが生成される - 𝑦が検出可能な範囲内にあれば,𝑦が得られる -
𝑦が検出可能な閾値を超えたら,打ち切られた値が 得られる
32.
下限打切の場合(left-censored) Y n ~
𝑁𝑜𝑟𝑚𝑎𝑙(𝜇, 𝜎 𝑌) y n ~ 𝑁𝑜𝑟𝑚𝑎𝑙 𝜇, 𝜎 𝑌 ただし 𝑦 𝑛 < L 𝑛 = 1, … , 𝑁𝑜𝑏𝑠 𝑛 = 1, … , 𝑁𝑐𝑒𝑛𝑠実際には観測されず 推定するので小文字 ・打ち切りしない測定の場合 ・打ち切りする測定の場合 例:96点以下は正確な点数を覚えていない 打ち切りの閾値
33.
パラメータを推定するには尤度の計算が必要 – 打ち切りしない測定の尤度 – 打ち切りする場合の尤度(Lは打ち切りの閾値) 𝑁𝑜𝑟𝑚𝑎𝑙
𝑌 𝜇, 𝜎 𝑌) 𝑦 < 𝐿 の確率 𝑃𝑟𝑜𝑏 𝑦 < 𝐿 = −∞ 𝐿 𝑁𝑜𝑟𝑚𝑎𝑙 𝑦 𝜇, 𝜎 𝛾) = −∞ 𝐿 1 2𝜋𝜎 exp − 1 2 𝑦−𝜇 𝜎 2 𝑑𝑦 = න −∞ 𝐿−𝜇 𝜎 1 2𝜋 exp − 1 2 𝑧2 𝑑𝑧 = න −∞ 𝐿−𝜇 𝜎 𝜑(𝑧)𝑑𝑧 = Φ 𝐿 − 𝜇 𝜎 標準正規分布の 確率密度関数
34.
Stanマニュアルp475より Stanにおける尤度の計算といえば,target+記法(4.3節参照) ただしtarget+記法では,対数尤度を足し合わせている
35.
まず,観測されたデータを用いて 𝜇と𝜎が推定され,対数尤度を計算 ↓ 推定した𝜇と𝜎により推測される 分布の形から,𝑃𝑟𝑜𝑏 𝑦 <
𝐿 を計算
36.
真の点数を用いた場合 <96を96に置換した場合
37.
上限打切の場合は?(right-censored) LIVE DAM STADIUMでは (総合)点数
= 素点 + ボーナス点 だが… 素点98.591 + ボーナス点1.409 = ぴったり100点 そんなことある?!
38.
他の100点を取った曲を見ても… 素点と本来のボーナス点の 合計が100点を超える場合は, 総合得点が100点になるように ボーナス点が調整される
39.
真の歌唱力を知りたい 今回は,99点以上を打ち切りとする – 100点を取ったら新しい曲に移っているので, どの曲も100点は1回しか出ていないため 8/26試行で“>99”
40.
Stanマニュアルp183より
41.
Stanマニュアルp183より
42.
今回は初期値を変えないと推定できなかった (デフォルトでは[-2, 2]の一様分布から初期値が生成されるため, 今回のような上限打切の状況には適さなかった??)
43.
7.9 外れ値
44.
ちょうどいいデータがあったので,違う曲で例示 ‒ かなり難しい曲だったので,11回挑戦したきり保留中 ‒ 抑揚と点数の関係に注目
45.
その他のパラメータ(音程)が 低かったことが主な原因だが, 単回帰ではそれが分からない
46.
外れ値への対処 • 原因が明確で分析に不適な場合(例:歌唱中に中断) ‒ 当該データの修正や削除 •
経験的にあり得る場合(例:スランプによる低得点) 1. 本当の力はこんなもんじゃない,と,除外 2. 稀に外れ値が出ることが分かっているので, そのようなメカニズムを仮定し,外れ値を含めて解析 - 裾の長いコーシー分布 - Studentのt分布
47.
ノイズに正規分布を仮定したモデル式(単回帰) – 𝑌 𝑛
~ 𝑁𝑜𝑟𝑚𝑎𝑙 𝑎 + 𝑏𝑋 𝑛 , 𝜎 𝑛 = 1, 2, … , 𝑁 点数 model7-8.stan 予測分布を 描くために 正規分布に 従う乱数を生成 抑揚
48.
点数 コーシー分布を仮定したモデル式 – 𝑌 𝑛
~ 𝐶𝑎𝑢𝑐ℎ𝑦 𝑎 + 𝑏𝑋 𝑛 , 𝜎 𝑛 = 1, 2, … , 𝑁 予測分布を 描くために コーシー分布に 従う乱数を生成 model7-9.stan 抑揚
49.
ノイズに正規分布を仮定した場合 → 外れ値に引っ張られて予測分布が広く, 95%予測区間内に外れ値が入っている ノイズにコーシー分布を仮定した場合 → 外れ値以外のデータに沿った傾き 外れ値が95%予測区間の外にある
50.
ちなみにstudentのt分布の場合は 自由度𝜈 = 1ならコーシー分布と一致 𝜈
= ∞なら正規分布と一致
51.
ノイズにt分布を仮定した場合(今回は𝜈=2) → コーシー分布とほぼ同じ結果だが, 若干傾きが小さく予測分布が広い ノイズにコーシー分布を仮定した場合 → 外れ値以外のデータに沿った傾き 𝜈=2のt分布よりも予測分布が狭い
52.
自由度は非負(実質1以上)と考えられるので 下限を指定 自由度の事前分布 自由度𝒗も推定してみる
53.
外れ値の数が多い場合 (例:全体の5%) Stanコードの書き方 中級編より https://www.slideshare.net/simizu706/stan-64926504 11章へ続く…
54.
最後に カラオケのモデリングは奥が深い… (80点,90点を境に,関数形が変わるらしい…) http://www.hnagata.net/archives/836 一緒にカラオケに行ってくれるデータを取ってくれる方,募集中