Submit Search
Upload
データ解析のための統計モデリング入門4章
•
Download as PPTX, PDF
•
1 like
•
5,309 views
H
Hirofumi Tsuruta
Follow
GLMのモデル選択ー AICとモデルの予測の良さー
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 15
Download now
Recommended
みどりぼん読書会 第4章
みどりぼん読書会 第4章
Masanori Takano
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半
Shinya Akiba
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半
Atsushi Hayakawa
データ解析のための統計モデリング入門 6.5章 後半
データ解析のための統計モデリング入門 6.5章 後半
Yurie Oka
みどりぼん3章前半
みどりぼん3章前半
Akifumi Eguchi
Maeshori missing
Maeshori missing
Daisuke Ichikawa
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
Yu Otsuka
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
Recommended
みどりぼん読書会 第4章
みどりぼん読書会 第4章
Masanori Takano
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半
Shinya Akiba
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半
Atsushi Hayakawa
データ解析のための統計モデリング入門 6.5章 後半
データ解析のための統計モデリング入門 6.5章 後半
Yurie Oka
みどりぼん3章前半
みどりぼん3章前半
Akifumi Eguchi
Maeshori missing
Maeshori missing
Daisuke Ichikawa
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
Yu Otsuka
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
DataRobotJP
ma92007id395
ma92007id395
matsushimalab
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
ke beck
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
JAVA DM
PRML読み会第一章
PRML読み会第一章
Takushi Miki
統計的学習の基礎_3章
統計的学習の基礎_3章
Shoichi Taguchi
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
horihorio
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
Koichiro Gibo
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
Akihiro Nitta
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
PRML輪読#8
PRML輪読#8
matsuolab
カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
Satoshi Kato
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
you shimajiro
130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1
隆浩 安
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
SAKAUE, Tatsuya
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
Yu Otsuka
More Related Content
What's hot
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
DataRobotJP
ma92007id395
ma92007id395
matsushimalab
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
ke beck
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
JAVA DM
PRML読み会第一章
PRML読み会第一章
Takushi Miki
統計的学習の基礎_3章
統計的学習の基礎_3章
Shoichi Taguchi
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
horihorio
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
Koichiro Gibo
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
Akihiro Nitta
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
PRML輪読#8
PRML輪読#8
matsuolab
カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
Satoshi Kato
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
you shimajiro
130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1
隆浩 安
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
What's hot
(20)
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
ma92007id395
ma92007id395
幾何を使った統計のはなし
幾何を使った統計のはなし
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
PRML読み会第一章
PRML読み会第一章
統計的学習の基礎_3章
統計的学習の基礎_3章
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PRML輪読#8
PRML輪読#8
カステラ本勉強会 第三回
カステラ本勉強会 第三回
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Similar to データ解析のための統計モデリング入門4章
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
SAKAUE, Tatsuya
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
Yu Otsuka
Introduction to statistics
Introduction to statistics
Kohta Ishikawa
model selection and information criteria part 1
model selection and information criteria part 1
Masafumi Enomoto
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
__106__
Nttr study 20130206_share
Nttr study 20130206_share
Noriyuki Futatsugi
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
Sho Shimauchi
20191117_choco_bayes_pub
20191117_choco_bayes_pub
Yoichi Tokita
2 2.尤度と最尤法
2 2.尤度と最尤法
logics-of-blue
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
Kei Nakagawa
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
Kenta Ishii
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
Katsuya Ito
Lasso
Lasso
Akihiro Shiroshita
Model seminar shibata_100710
Model seminar shibata_100710
Kazuya Nishina
強化学習5章
強化学習5章
hiroki yamaoka
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
Naoki Hayashi
第4回DARM勉強会 (多母集団同時分析)
第4回DARM勉強会 (多母集団同時分析)
Masaru Tokuoka
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
公平性を保証したAI/機械学習 アルゴリズムの最新理論
公平性を保証したAI/機械学習 アルゴリズムの最新理論
Kazuto Fukuchi
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
Similar to データ解析のための統計モデリング入門4章
(20)
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
Introduction to statistics
Introduction to statistics
model selection and information criteria part 1
model selection and information criteria part 1
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
Nttr study 20130206_share
Nttr study 20130206_share
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
20191117_choco_bayes_pub
20191117_choco_bayes_pub
2 2.尤度と最尤法
2 2.尤度と最尤法
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
Lasso
Lasso
Model seminar shibata_100710
Model seminar shibata_100710
強化学習5章
強化学習5章
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
第4回DARM勉強会 (多母集団同時分析)
第4回DARM勉強会 (多母集団同時分析)
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
公平性を保証したAI/機械学習 アルゴリズムの最新理論
公平性を保証したAI/機械学習 アルゴリズムの最新理論
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
データ解析のための統計モデリング入門4章
1.
4章 GLMのモデル選択 ー AICとモデルの予測の良さー
2.
観測データ ポアソン分布 体サイズ x 種子数y 𝑝 𝑦𝑖|𝜆𝑖
= 𝜆𝑖 𝑦𝑖 𝑒𝑥𝑝(−𝜆𝑖) 𝑦𝑖!
3.
候補となるモデルはたくさん 𝑙𝑜𝑔𝜆𝑖 = 𝛽1
+ 𝛽2 𝑥𝑖 𝑙𝑜𝑔𝜆𝑖 = 𝛽1 𝑙𝑜𝑔𝜆𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑥𝑖 2 𝑙𝑜𝑔𝜆𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑥𝑖 2 + 𝛽4 𝑥𝑖 3 …
4.
どうやってモデルを決めるのか? http://www.statsmodels.org/stable/regression.html
5.
最尤推定法 尤度を最大にするようなパラメータの値を探す。 𝐷 = −2𝑙𝑜𝑔𝐿 ∗ 逸脱度:あてはまりの悪さ(最大対数尤度に-2をかけただけ) 最大対数尤度 逸脱度 統計モデルの(いま手元にある観測データへの)あてはまりの良さ 𝑙𝑜𝑔𝐿 ∗ = 𝑖 𝑙𝑜𝑔 𝜆𝑖 𝑦𝑖
𝑒𝑥𝑝(−𝜆𝑖) 𝑦𝑖!
6.
良いモデルとは? データへのあてはまりが良いもの が良いモデル
7.
近似直線の次数 M=10 いわゆる過学習 モデルを複雑にすれば観測データへの 『あてはまり』はいくらでも改善できる。
8.
ここで・・ 統計モデルをつくる目的っ てなんだっけ?
9.
統計的推測 n個のデータ 𝑥1, 𝑥2, ・・・𝑥
𝑛 母集団 (真の統計モデル) 統計モデル 𝑝 𝑥|𝜃 観測 データの生成
10.
手もとののデータと統計モデルを使って、 母集団から次に出てくるデータを予測したい ひいては、 観測される現象の背後にある「しくみ」の特定したい ということを考えると・・・ たまたま得られたデータへのあてはまりの良さを 追求するのはダメ
11.
予測の良さをどう評価するか? AIC(Akaike’s information criterion) 予測の良さを重視するモデル選択基準 𝐴𝐼𝐶
= −2 最大対数尤度 − パラメータ数 = −2 𝑙𝑜𝑔𝐿 ∗ −𝑘 = D + 2k AICが一番小さいモデルが良いモデル
12.
AIC:472.78 AIC: 477.16
13.
4.4〜 AICの式の妥当性の確かめ (数理統計学でなく具体的な数値例 からのアプローチ) 平均対数尤度:推定されたパラメータを評価用データ 𝐸(𝑙𝑜𝑔𝐿) にあてはめたときの対数尤度の平均値 観測データをパラメータ推定用と 予測の良さ評価用に分ける。 (クロスバリデーション法) 最大対数尤度と平均対数尤度の差(バイアス)の分布 を見ると →図4.10
標本平均がほぼ1になる
14.
平均対数尤度とAIC 平均対数尤度と最大対数尤度の平均的なずれは パラメータ数kと同じであると考える。 𝐸 𝑙𝑜𝑔𝐿 =
𝑙𝑜𝑔𝐿 ∗ − 𝑘 𝐴𝐼𝐶 = −2 𝑙𝑜𝑔𝐿 ∗ −𝑘 = D + 2k AICは予測の良さをあらわす平均対数尤度 にもとづく統計量である。
15.
Pythonの統計(に使える)ライブラリ statsmodelsでGLM http://www.statsmodels.org/stable/glm.html scikit-learnでGLM http://scikit-learn.org/stable/modules/linear_model.html scipyでGLM https://docs.scipy.org/doc/scipy-0.13.0/reference/generated/scipy.stats.glm.html
Editor's Notes
予測の良さとは、次に同じデータ取得方法で別のデータを得たときにどれくらいそれを正確にいいあてているか。
予測の良さを示す平均対数尤度より推定用データへのあてはまりの良さである最大対数尤度のほうが、平均的には1ぐらい大きい。
Download now