SlideShare a Scribd company logo
変数選択における AIC の利用: 理論と実装 sstat3 October 22, 2011
内容 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
データマイニングプロセスにおける 変数選択の位置付け SEMMA (Sample, Explore, Modify, Model ,  and Assess) http://www.dataprix.net/en/blogs/respinosamilla/theory-data-mining 1  データの抽出 5  モデルの評価 4  モデルのあてはめ 3  データの加工 2  データの探索
データマイニングプロセスにおける 変数選択の位置付け(続き) CRISP-DM (Cross-Industry Standard Process for Data Mining) http://www.dataprix.net/en/blogs/respinosamilla/theory-data-mining 1  ビジネスの理解 6  展開/共有 5  評価 4  モデリング 3  データの準備 2  データの理解
データマイニングプロセスにおける 変数選択の位置付け(続き) KDD (Knowledge Discovery in Databases) Process Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD Process for Extracting Useful Knowledge from Volumes of Data.  Communications of the ACM, 39(11) , 27-34.
問題:変数選択 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
クロス集計表 ,[object Object],[object Object],*仮想データ 説明変数  I 2 ターゲット変数  I 1 I 1   と  I 2   の クロス集計表
クロス集計表と独立性の検定 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
伝統的な独立性の検定の欠点 ,[object Object],[object Object],[object Object],[object Object],[object Object]
クロス集計表に基づいた 説明変数の評価のための AIC の導出 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
モデルの AIC とは何か? ,[object Object],[object Object],[object Object],[object Object],[object Object]
クロス集計表の確率分布 ,[object Object],[object Object]
クロス集計表の従属モデル ,[object Object],[object Object],[object Object],[object Object]
クロス集計表の独立モデル ,[object Object],[object Object],[object Object],[object Object]
従属モデルと独立モデル i 1  = 1 2 i 2  = 1 2 3 4
クロス集計表の従属モデルと 独立モデルの AIC の比較 ,[object Object],[object Object]
AIC  と   2   の関係(参考) ,[object Object],[object Object],[object Object]
説明変数の予測力とは? ,[object Object],[object Object],[object Object],[object Object],[object Object]
クロス集計表の条件付き確率分布 ,[object Object],[object Object],p ( i 2 )  を含まない部分
クロス集計表の条件付きモデル ,[object Object],[object Object],[object Object],[object Object]
説明変数に予測力が あるモデルとないモデル i 1  = 1 2 i 2  = 1 2 3 4 i 1  = 1 2 *「よく尋ねられる質問について答えられる」人を博学と呼んでよいだろうか?   その人が博学であるといのは、「尋ねられるどんな質問にも答えられる」ことである。   「その質問がよく尋ねられるか」という環境的な要因は、彼の博学さとは直接関係ない。
異なる説明変数のクロス集計表 に対する AIC の比較 ,[object Object],[object Object],[object Object]
異なる説明変数のクロス集計表 に対する AIC の比較(続き) ,[object Object],[object Object]
まとめ ,[object Object],[object Object],[object Object],[object Object]
実務上の注意点 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
実務上の注意点(続き) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
n  log  n
報告例 ,[object Object],[object Object],[object Object],[object Object],Note: AIC は変数の関係性の高さの指標です。 値がマイナスであれば関係性があり、 値が低いほど関係性が高いことを示します。 *仮想データ 図表 1  説明変数の予測力 図表 2-1  説明変数のターゲット傾向(業種)
報告例(続き) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
実装:  MewDap 出力: クロス集計表 ごとの AIC 出力: 伝統的な  2   検定 入力: クロス集計表を 縦に並べる
実装:  MewDap (続き) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
クロス集計表に出会ったら、 AIC をお試しください。
参考文献 ,[object Object],[object Object],[object Object],[object Object]
Thank you AIC は もっと流行って いいと思う
Appendix :  Kullback-Leibler  情報量から AIC まで ,[object Object],[object Object],[object Object],[object Object]
Kullback-Leibler  情報量 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Kullback-Leibler  情報量(続き) ,[object Object],[object Object],[object Object],[object Object]
Kullback-Leibler  情報量(続き) 真の分布 モデル分布 p 1 p i q 1 q i 0 1 n 1 n i n 観測データ n  回 観測度数         1 0   0 1     n 1 / n n i  / n 観測分布   状態 1 i  
平均対数尤度 ,[object Object],[object Object],[object Object],[object Object],[object Object]
最尤モデル ,[object Object],[object Object],[object Object]
期待平均対数尤度と AIC ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

What's hot

演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926
演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926
演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926
Beckett Hsieh
 
「予測にいかす統計モデリングの基本」勉強会 第一章
「予測にいかす統計モデリングの基本」勉強会 第一章「予測にいかす統計モデリングの基本」勉強会 第一章
「予測にいかす統計モデリングの基本」勉強会 第一章
Takahiro Yoshinaga
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
 
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
Deep Learning JP
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
Shushi Namba
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02
goony0101
 
CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要
Joe Suzuki
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
daiki hojo
 
Pythonによる累乗近似
Pythonによる累乗近似Pythonによる累乗近似
Pythonによる累乗近似
智啓 出川
 
SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪
SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪
SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪
Beckett Hsieh
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
sleepy_yoshi
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
Ohsawa Goodfellow
 
ゼロから始めるレコメンダシステム
ゼロから始めるレコメンダシステムゼロから始めるレコメンダシステム
ゼロから始めるレコメンダシステム
Kazuaki Tanida
 
WBICによる混合正規分布の分離と抽出
WBICによる混合正規分布の分離と抽出WBICによる混合正規分布の分離と抽出
WBICによる混合正規分布の分離と抽出
Yusuke TAMAI
 
DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測
DLLAB Healthcare Day 2020  機械学習による健康・疾患状態の層別化と予測DLLAB Healthcare Day 2020  機械学習による健康・疾患状態の層別化と予測
DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測
Deep Learning Lab(ディープラーニング・ラボ)
 
マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2宏喜 佐野
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
matsuolab
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
Shiga University, RIKEN
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
 

What's hot (20)

演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926
演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926
演講 無痛完成Sem與Amos論文-三星統計謝章升-20140926
 
「予測にいかす統計モデリングの基本」勉強会 第一章
「予測にいかす統計モデリングの基本」勉強会 第一章「予測にいかす統計モデリングの基本」勉強会 第一章
「予測にいかす統計モデリングの基本」勉強会 第一章
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02
 
CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
Pythonによる累乗近似
Pythonによる累乗近似Pythonによる累乗近似
Pythonによる累乗近似
 
SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪
SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪
SEM結構方程模型與Amos-潛在成長模型-三星統計張偉豪
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
ゼロから始めるレコメンダシステム
ゼロから始めるレコメンダシステムゼロから始めるレコメンダシステム
ゼロから始めるレコメンダシステム
 
WBICによる混合正規分布の分離と抽出
WBICによる混合正規分布の分離と抽出WBICによる混合正規分布の分離と抽出
WBICによる混合正規分布の分離と抽出
 
DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測
DLLAB Healthcare Day 2020  機械学習による健康・疾患状態の層別化と予測DLLAB Healthcare Day 2020  機械学習による健康・疾患状態の層別化と予測
DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測
 
マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 

変数選択におけるAICの利用:理論と実装