変数選択における AIC の利用: 理論と実装 sstat3 October 22, 2011
内容 問題:変数選択 クロス集計表 クロス集計表に対する独立性の検定 伝統的な独立性の検定の欠点 クロス集計表に基づいた説明変数の評価のための AIC の導出 数学的準備 説明変数とターゲット変数との従属性の判定 説明変数のターゲット変数に対する予測力の評価 クロス集計表における AIC の応用 実務上の注意点 報告例 実装:  MewDap 参考文献 Appendix :  Kullback-Leibler  情報量から AIC まで
データマイニングプロセスにおける 変数選択の位置付け SEMMA (Sample, Explore, Modify, Model ,  and Assess) http://www.dataprix.net/en/blogs/respinosamilla/theory-data-mining 1  データの抽出 5  モデルの評価 4  モデルのあてはめ 3  データの加工 2  データの探索
データマイニングプロセスにおける 変数選択の位置付け(続き) CRISP-DM (Cross-Industry Standard Process for Data Mining) http://www.dataprix.net/en/blogs/respinosamilla/theory-data-mining 1  ビジネスの理解 6  展開/共有 5  評価 4  モデリング 3  データの準備 2  データの理解
データマイニングプロセスにおける 変数選択の位置付け(続き) KDD (Knowledge Discovery in Databases) Process Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD Process for Extracting Useful Knowledge from Volumes of Data.  Communications of the ACM, 39(11) , 27-34.
問題:変数選択 前提 予測モデルを構築したい。 データセットに、ひとつのターゲット変数といくつかの説明変数の候補がある。 問題 説明変数の中から、ターゲット変数をよく説明するもの、つまり予測力( predictive power )の高いものを選びたい。 ターゲットについての予測力の高さにより、説明変数に序列を付けたい。
クロス集計表 モデルの説明変数には、ターゲット変数(応答変数)と関連の高いものを選ぶのが良いと考えられる。この関連性を評価するには、どうすればよいだろうか? 手始めに、ターゲット変数と説明変数とのクロス集計表(分割表)を作成する。 *仮想データ 説明変数  I 2 ターゲット変数  I 1 I 1   と  I 2   の クロス集計表
クロス集計表と独立性の検定 次に、伝統的には、クロス集計表の各軸の独立性を検討するための有意性検定が行われる。 例えば、下記の  2  統計量が自由度  df   の  2  分布に従うことを利用する( Pearson  の  2  検定)。 n ( i 1 ,  i 2 ) :  i 2 行  i 1  列セルの観測度数 n : 観測度数の合計 n ( i 1 ) :  i 1  列の観測度数の合計 n ( i 2 ) :  i 2  行の観測度数の合計 e ( i 1 ,  i 2 ) : 行列が独立である場合の  i 2 行  i 1  列セルの期待度数 c 1 :  列のカテゴリ数 c 2 :  行のカテゴリ数
伝統的な独立性の検定の欠点 伝統的なクロス集計表に対する独立性の検定には、以下の欠点がある。 関連の存在は分かる(帰無仮説の棄却)が、関連の高さは分からない。 自由度が行列のサイズに依存する。つまり、結果が階級やカテゴリーの設定の影響を受ける。 そこで今回は、 AIC と呼ばれるモデル評価指標を応用した手法を紹介する。 実はそれほど新しい手法ではないが、世間であまり認知されていないようだ。
クロス集計表に基づいた 説明変数の評価のための AIC の導出 坂本ら( 1983 、第 6 章)に沿って説明する。 数学的準備 Kullback-Leibler  情報量から AIC まで( Appendix 参照) モデルの AIC とは何か? 説明変数とターゲット変数との従属性の判定 クロス集計表の確率分布 クロス集計表の従属モデル/独立モデル クロス集計表の従属モデルと独立モデルの AIC の比較 AIC  と   2   の関係(参考) 説明変数のターゲット変数に対する予測力の評価 クロス集計表の条件付き確率分布 クロス集計表の条件付きモデル 異なる説明変数のクロス集計表に対する AIC の比較
モデルの AIC とは何か? 「最尤法であてはめられたモデルが複数個あるときに、その中の 1 つを選択する規準」(坂本ら、 1983 、 p. 42 ) 与えられたデータから、各最尤モデルの AIC を計算する。 AIC  がより低いモデルが、データに当てはまるという意味で、より良いモデルである。 AIC  の一般的な定義: AIC  = - 2× (モデルの最大対数尤度)   + 2× (モデルの自由パラメータ数)
クロス集計表の確率分布 クロス集計表の度数分布は、多項分布で表現できる。ターゲット変数  I 1   の値を  i 1  (  1,   , c 1 ) 、説明変数  I 2   の値を  i 2  (  1,   , c 2 )  とする。 { p ( i 1 , i 2 )}  をパラメータとして、観測度数  { n ( i 1 , i 2 )}  を得る確率  P ({ n ( i 1 , i 2 )}|{ p ( i 1 , i 2 )})  は、下式で与えられる。 対数尤度は(定数項を省略して)、
クロス集計表の従属モデル クロス集計表の行列が従属であるとする仮説は、以下のモデルで表現される。 パラメータの最尤推定量は、 したがって、最大対数尤度は、 自由パラメータ数は、 c 1 c 2   -  1
クロス集計表の独立モデル クロス集計表の行列が独立であるとする仮説は、以下のモデルで表現される。 パラメータの最尤推定量は、 したがって、最大対数尤度は、 自由パラメータ数は、 c 1    c 2    2
従属モデルと独立モデル i 1  = 1 2 i 2  = 1 2 3 4
クロス集計表の従属モデルと 独立モデルの AIC の比較 従属モデル、独立モデルの  AIC  をそれぞれ  AIC(1) 、 AIC(0)  とすると、下式になる。  AIC  が小さいモデルが、より良いモデルである。 2 つの  AIC  の差は下式になる。この値が負であれば従属モデルがより良いモデルである、つまり 2 変数は従属であると判定する。
AIC  と   2   の関係(参考) n   が十分大きいとき、下式が成立。 統計量   2   の期待値は自由度に等しい。したがって、統計量  AIC(1)   AIC(0)  の符号による判定は、漸近的に   2   とその期待値の 2 倍との大小比較をすることに相当する。 自由度  k   の   2   分布に従う確率変数がその期待値の 2 倍を超える確率  p   を図示する。 AIC による独立性判定は、自由度に応じてこのように有意水準を調整しながら   2   検定を行うことに相当する。
説明変数の予測力とは? 次のステップとして、説明変数のターゲット変数に対する予測力について議論したい。 従属モデルの  AIC(1)  は予測力の指標として適切だろうか? 先の議論は、「説明変数の値が与えられたときのターゲット変数の分布」と「 説明変数の分布」を区別していない。 当初の問題は、予測モデルのための説明変数の選択にあった。予測のためには、どのような説明変数の実現値に対しても、ターゲットの分布ついての有効な情報を得られるような説明変数が欲しい。 *説明変数の「予測力」( predictive power )という表現は本資料のものであり、坂本ら( 1983 )および坂本( 1985 )の表現ではない。
クロス集計表の条件付き確率分布 クロス集計表の確率分布の式を、ターゲットの条件付き確率  p ( i 1 , i 2 )     p ( i 1 | i 2 )  p ( i 2 )  により展開する。 最後の式の、はじめの  [  ]  は  I 2   の値が与えられた下での  I 1   の条件付き確率を示し、次の  {  }  はその  I 2   の値が実現する確率を示す。 p ( i 2 )  を含まない部分
クロス集計表の条件付きモデル 興味があるのは、ターゲット変数と説明変数との直接的な関係である。そこで、先の式の  [  ]  の部分のみに着目し、 p ( i 1  |  i 2 )  をパラメータとみなしたときの条件付き対数尤度(坂本ら、 1983 、 § 4.5 )を求めると(定数項を無視して)、 I 2   の各実現値に対する  I 1   のクロス集計表は、以下のモデルで表現できる。 パラメータの最尤推定量は、 自由パラメータ数は、 ( c 1    c 2
説明変数に予測力が あるモデルとないモデル i 1  = 1 2 i 2  = 1 2 3 4 i 1  = 1 2 *「よく尋ねられる質問について答えられる」人を博学と呼んでよいだろうか?   その人が博学であるといのは、「尋ねられるどんな質問にも答えられる」ことである。   「その質問がよく尋ねられるか」という環境的な要因は、彼の博学さとは直接関係ない。
異なる説明変数のクロス集計表 に対する AIC の比較 したがって、  I 2   の各実現値に対する  I 1   のクロス集計表の AIC は、 同様に他の説明変数についても  AIC*( I 1 ; I 3 )  などを求められる。これらの値を比較することで、説明変数の相対的な予測力を比較できる。 ところで、説明変数のないモデル  p ( i 1  |  i 2 ) =     ( i 1 )  も考えられる。この AIC は、結果のみを示すと、下式となる。これはどの説明変数にも依存しない値である。
異なる説明変数のクロス集計表 に対する AIC の比較(続き) 2 つの  AIC  の差は下式になる。この値が負であれば、説明変数を含むモデルがより良いモデルである、つまり説明変数  I 2   に予測力があると判定できる。 これは 2 元集計表の従属性判定のために導出した式と同一である。以降、上式を説明変数  I 2   の  AIC  と呼ぶ。
まとめ この  AIC  の意味を整理すると、以下の通り。 AIC  が負であれば、説明変数とターゲット変数は従属である( AIC(1)  と  AIC(0)  の比較)。 AIC  が負であれば、説明変数はターゲット変数についての予測力がある( AIC  ( I 1 ; I 2 )  と  AIC  ( I 1 ;  )  の比較) 。 他の説明変数と比較して  AIC  がより低い説明変数は、ターゲット変数についての予測力がより高い( AIC  ( I 1 ; I 2 )  と  AIC  ( I 1 ; I 3 )  の比較)。
実務上の注意点 AIC の解釈 ターゲット変数と説明変数のクロス集計表において、 AIC が負で値が小さいほどその説明変数の予測力が高いと解釈する。 ターゲット変数が同じで説明変数が互いに異なるクロス集計の AIC を比較できる。 AIC がより低い説明変数は、より予測力がある。 ターゲット変数が互いに異なるクロス集計表の AIC の比較はしない。 AIC に  2  程度の差があれば、実質的な差があると解釈する(坂本ら、 1983 、 p. 63 )。 AIC の値が負であるからといって、その説明変数とターゲット変数との間に因果関係があると、ただちに断定しない。
実務上の注意点(続き) 変数が連続変数の場合 ターゲット変数との関係が単調か、単調であっても線形かは、自明ではない。まずは連続変数をカテゴリー変数に変換してクロス集計表を作ることを推奨。 サイズがゼロのセルをどうするか? カテゴリー合併によりサイズがゼロのセルを消去する。 または、計算上の工夫で回避する。 観測度数ゼロのセルを、 1/2  とみなす。 0  と  1  の間の代表値として。 観測度数ゼロのセルを、 exp(  1) (    0.3 7)  とみなす。 n  log  n   は  n    exp(  1)  のとき最小となるから。観測度数にゼロが生じるモデルを避けたい場合の設定(坂本、 1985 、 p. 29 )。 0 log 0  をゼロとする。 n  log  n   の意味は尤度だから。
n  log  n
報告例  説明変数の予測力を AIC によって評価した結果を図表 1 に示します。  予測力の高い変数についてターゲット傾向を順に示します。まず、 業種(図表 2-1 )については、業種 5 と業種 1 は見込み数は同程度ですが、 転換率で見ると業種 1 の方が 17% ポイント高く、… Note: AIC は変数の関係性の高さの指標です。 値がマイナスであれば関係性があり、 値が低いほど関係性が高いことを示します。 *仮想データ 図表 1  説明変数の予測力 図表 2-1  説明変数のターゲット傾向(業種)
報告例(続き) 「相関」という表現を使わないことをお勧め。 「( Pearson  の)相関係数」(  1 から 1 の値を取り、 0 が無相関)と混同される。 「関係性の高さ」または「予測力」など。 必要なら以下の追加説明を行う。 「マイナスは負の相関」ではない。“相関”の方向は別途(グラフなどで)確認。 上限も下限もない。 同じターゲット変数に対する異なる説明変数のクロス集計表の AIC は比較可能。ターゲット変数が異なるクロス集計の AIC は比較しない。 この AIC の計算式はあまり一般的でないので、参考文献を示す(坂本本には英訳もある)。
実装:  MewDap 出力: クロス集計表 ごとの AIC 出力: 伝統的な  2   検定 入力: クロス集計表を 縦に並べる
実装:  MewDap (続き) https://sourceforge.net/p/mewdap または、“ MewDap ”   で Google 検索 小さな  Excel  マクロ。 シート上で縦に並べた複数のクロス集計表に対して、それぞれの AIC を計算して表示。 追加情報として、伝統的な独立性検定における   2   (連続性補正なし)とその  p   を表示。 観察度数がゼロのセルは、 0.5  とみなす。 オープンソース(ご自由に)
クロス集計表に出会ったら、 AIC をお試しください。
参考文献 坂本 慶行・石黒 真木夫・北川 源四郎( 1983 ) 情報量統計学(情報科学講座 A ・ 5 ・ 4 ) 共立出版 http://www.amazon.co.jp/dp/4320021711 坂本 慶行( 1985 ) カテゴリカルデータのモデル分析(応用統計数学シリーズ) 共立出版 http://www.amazon.co.jp/dp/432001376X
Thank you AIC は もっと流行って いいと思う
Appendix :  Kullback-Leibler  情報量から AIC まで   Kullback-Leibler  情報量  平均対数尤度  最尤モデル  期待平均対数尤度と AIC
Kullback-Leibler  情報量 モデル分布  q   に関する真の分布  p   の  Kullback-Leibler  情報量( K-L 情報量)  I ( p ;  q )  を、下式にように定義する。 K-L 情報量には以下の性質がある。 非負性:  I ( p ;  q )    0 、  I ( q ;  p )    0    p      q 非対称性:  I ( p ;  q )   I ( q ;  p ) したがって、 K-L 情報量は「距離の公理」を満たさない。 K-L 情報量は、離散的な分布モデル  q   と真の分布  p   との隔たりを計る指標となる。
Kullback-Leibler  情報量(続き)  I ( p ;  q )  は、モデル  q   から生成される  n   個の独立なデータから得られる分布が真の分布  p   に一致する確率の対数(の  1/ n )に漸近的に等しい。 離散的な状態  i   に対する真の分布を  p     { p 1 ,   ,  p i ,   }  とする。これについての独立な  n   回の観測データがあり、その観測度数を  { n 1 ,   ,  n i ,   }  とする。大数の法則から  n       で、 n i  / n      p i   である。 確率モデル  q     { q 1 ,  ,  q i ,   }  を考える。モデルによると、先の観測度数が得られる確率  W   は、 n i   が十分に大きな数であるとすると、 Stirling  の公式  log  n !     n  log  n      n   を利用して、
Kullback-Leibler  情報量(続き) 真の分布 モデル分布 p 1 p i q 1 q i 0 1 n 1 n i n 観測データ n  回 観測度数         1 0   0 1     n 1 / n n i  / n 観測分布   状態 1 i  
平均対数尤度 データが与えられたときのモデル  q   のよさを評価したい。そこで、 K-L  情報量を利用する。 右辺第 1 項は真の分布  p   のみに依存するため、 K-L 情報量の比較には第 2 項のみを推定できればよい。第 2 項を平均対数尤度と呼ぶ。 モデル  q   の対数尤度  l ( q )  を以下のように定義する。 対数の法則により  n       で  n i  / n     p i   だから、 したがって、対数尤度を与えられたデータに対するモデルの評価基準と考えることができる。
最尤モデル モデルの型は特定されているがパラメータが未知である場合を考える。 この場合、与えられたデータから対数尤度が最大となるパラメータを選択することによって、良いモデルが得られる。 このようなパラメータの推定法を最尤法と呼ぶ。最尤法で導かれたパラメータの推定量を最尤推定量、それによって定められるモデルを最尤モデル、最尤モデルの対数尤度を最大対数尤度と呼ぶ。
期待平均対数尤度と AIC 異なるいくつかの最尤モデルを比較する場合を考える。 最尤モデルの平均対数尤度は、モデルの変数に依存する確率変数である。そこで、モデルの評価基準として、平均対数尤度のデータに対する期待値(「期待平均対数尤度」)が考えられる。 では、モデルの最大対数尤度を期待平均対数尤度の推定量としてモデルを比較してよいだろうか? 詳しく見ると、最大対数尤度は期待平均対数尤度の不偏推定量にならず、大きく出やすい。期待平均対数尤度の不偏推定量は、漸近的に下式で与えられる。(この導出にはさらなる数学的準備を要するので、坂本ら( 1983 、 § 4 )などを参照。)   (モデルの最大対数尤度)-(モデルの自由パラメータ数)   歴史的経緯を考慮して、この式を   2  倍した量を  AIC  ( Akaike’s Information Criterion ; 赤池の情報量規準)と定義する。 AIC  を最小とするモデルが最適なモデルと考えられる。

変数選択におけるAICの利用:理論と実装

  • 1.
    変数選択における AIC の利用:理論と実装 sstat3 October 22, 2011
  • 2.
    内容 問題:変数選択 クロス集計表クロス集計表に対する独立性の検定 伝統的な独立性の検定の欠点 クロス集計表に基づいた説明変数の評価のための AIC の導出 数学的準備 説明変数とターゲット変数との従属性の判定 説明変数のターゲット変数に対する予測力の評価 クロス集計表における AIC の応用 実務上の注意点 報告例 実装: MewDap 参考文献 Appendix : Kullback-Leibler 情報量から AIC まで
  • 3.
    データマイニングプロセスにおける 変数選択の位置付け SEMMA(Sample, Explore, Modify, Model , and Assess) http://www.dataprix.net/en/blogs/respinosamilla/theory-data-mining 1 データの抽出 5 モデルの評価 4 モデルのあてはめ 3 データの加工 2 データの探索
  • 4.
    データマイニングプロセスにおける 変数選択の位置付け(続き) CRISP-DM(Cross-Industry Standard Process for Data Mining) http://www.dataprix.net/en/blogs/respinosamilla/theory-data-mining 1 ビジネスの理解 6 展開/共有 5 評価 4 モデリング 3 データの準備 2 データの理解
  • 5.
    データマイニングプロセスにおける 変数選択の位置付け(続き) KDD(Knowledge Discovery in Databases) Process Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM, 39(11) , 27-34.
  • 6.
    問題:変数選択 前提 予測モデルを構築したい。データセットに、ひとつのターゲット変数といくつかの説明変数の候補がある。 問題 説明変数の中から、ターゲット変数をよく説明するもの、つまり予測力( predictive power )の高いものを選びたい。 ターゲットについての予測力の高さにより、説明変数に序列を付けたい。
  • 7.
  • 8.
    クロス集計表と独立性の検定 次に、伝統的には、クロス集計表の各軸の独立性を検討するための有意性検定が行われる。 例えば、下記の 2 統計量が自由度 df の  2 分布に従うことを利用する( Pearson の  2 検定)。 n ( i 1 , i 2 ) : i 2 行 i 1 列セルの観測度数 n : 観測度数の合計 n ( i 1 ) : i 1 列の観測度数の合計 n ( i 2 ) : i 2 行の観測度数の合計 e ( i 1 , i 2 ) : 行列が独立である場合の i 2 行 i 1 列セルの期待度数 c 1 : 列のカテゴリ数 c 2 : 行のカテゴリ数
  • 9.
    伝統的な独立性の検定の欠点 伝統的なクロス集計表に対する独立性の検定には、以下の欠点がある。 関連の存在は分かる(帰無仮説の棄却)が、関連の高さは分からない。自由度が行列のサイズに依存する。つまり、結果が階級やカテゴリーの設定の影響を受ける。 そこで今回は、 AIC と呼ばれるモデル評価指標を応用した手法を紹介する。 実はそれほど新しい手法ではないが、世間であまり認知されていないようだ。
  • 10.
    クロス集計表に基づいた 説明変数の評価のための AICの導出 坂本ら( 1983 、第 6 章)に沿って説明する。 数学的準備 Kullback-Leibler 情報量から AIC まで( Appendix 参照) モデルの AIC とは何か? 説明変数とターゲット変数との従属性の判定 クロス集計表の確率分布 クロス集計表の従属モデル/独立モデル クロス集計表の従属モデルと独立モデルの AIC の比較 AIC と  2 の関係(参考) 説明変数のターゲット変数に対する予測力の評価 クロス集計表の条件付き確率分布 クロス集計表の条件付きモデル 異なる説明変数のクロス集計表に対する AIC の比較
  • 11.
    モデルの AIC とは何か?「最尤法であてはめられたモデルが複数個あるときに、その中の 1 つを選択する規準」(坂本ら、 1983 、 p. 42 ) 与えられたデータから、各最尤モデルの AIC を計算する。 AIC がより低いモデルが、データに当てはまるという意味で、より良いモデルである。 AIC の一般的な定義: AIC = - 2× (モデルの最大対数尤度) + 2× (モデルの自由パラメータ数)
  • 12.
    クロス集計表の確率分布 クロス集計表の度数分布は、多項分布で表現できる。ターゲット変数 I 1 の値を i 1 (  1,  , c 1 ) 、説明変数 I 2 の値を i 2 (  1,  , c 2 ) とする。 { p ( i 1 , i 2 )} をパラメータとして、観測度数 { n ( i 1 , i 2 )} を得る確率 P ({ n ( i 1 , i 2 )}|{ p ( i 1 , i 2 )}) は、下式で与えられる。 対数尤度は(定数項を省略して)、
  • 13.
  • 14.
  • 15.
  • 16.
    クロス集計表の従属モデルと 独立モデルの AICの比較 従属モデル、独立モデルの AIC をそれぞれ AIC(1) 、 AIC(0) とすると、下式になる。 AIC が小さいモデルが、より良いモデルである。 2 つの AIC の差は下式になる。この値が負であれば従属モデルがより良いモデルである、つまり 2 変数は従属であると判定する。
  • 17.
    AIC と  2 の関係(参考) n が十分大きいとき、下式が成立。 統計量  2 の期待値は自由度に等しい。したがって、統計量 AIC(1)  AIC(0) の符号による判定は、漸近的に  2 とその期待値の 2 倍との大小比較をすることに相当する。 自由度 k の  2 分布に従う確率変数がその期待値の 2 倍を超える確率 p を図示する。 AIC による独立性判定は、自由度に応じてこのように有意水準を調整しながら  2 検定を行うことに相当する。
  • 18.
    説明変数の予測力とは? 次のステップとして、説明変数のターゲット変数に対する予測力について議論したい。 従属モデルの AIC(1) は予測力の指標として適切だろうか? 先の議論は、「説明変数の値が与えられたときのターゲット変数の分布」と「 説明変数の分布」を区別していない。 当初の問題は、予測モデルのための説明変数の選択にあった。予測のためには、どのような説明変数の実現値に対しても、ターゲットの分布ついての有効な情報を得られるような説明変数が欲しい。 *説明変数の「予測力」( predictive power )という表現は本資料のものであり、坂本ら( 1983 )および坂本( 1985 )の表現ではない。
  • 19.
    クロス集計表の条件付き確率分布 クロス集計表の確率分布の式を、ターゲットの条件付き確率 p ( i 1 , i 2 )  p ( i 1 | i 2 ) p ( i 2 ) により展開する。 最後の式の、はじめの [ ] は I 2 の値が与えられた下での I 1 の条件付き確率を示し、次の { } はその I 2 の値が実現する確率を示す。 p ( i 2 ) を含まない部分
  • 20.
    クロス集計表の条件付きモデル 興味があるのは、ターゲット変数と説明変数との直接的な関係である。そこで、先の式の [ ] の部分のみに着目し、 p ( i 1 | i 2 ) をパラメータとみなしたときの条件付き対数尤度(坂本ら、 1983 、 § 4.5 )を求めると(定数項を無視して)、 I 2 の各実現値に対する I 1 のクロス集計表は、以下のモデルで表現できる。 パラメータの最尤推定量は、 自由パラメータ数は、 ( c 1  c 2
  • 21.
    説明変数に予測力が あるモデルとないモデル i1 = 1 2 i 2 = 1 2 3 4 i 1 = 1 2 *「よく尋ねられる質問について答えられる」人を博学と呼んでよいだろうか?   その人が博学であるといのは、「尋ねられるどんな質問にも答えられる」ことである。   「その質問がよく尋ねられるか」という環境的な要因は、彼の博学さとは直接関係ない。
  • 22.
    異なる説明変数のクロス集計表 に対する AICの比較 したがって、 I 2 の各実現値に対する I 1 のクロス集計表の AIC は、 同様に他の説明変数についても AIC*( I 1 ; I 3 ) などを求められる。これらの値を比較することで、説明変数の相対的な予測力を比較できる。 ところで、説明変数のないモデル p ( i 1 | i 2 ) =   ( i 1 ) も考えられる。この AIC は、結果のみを示すと、下式となる。これはどの説明変数にも依存しない値である。
  • 23.
    異なる説明変数のクロス集計表 に対する AICの比較(続き) 2 つの AIC の差は下式になる。この値が負であれば、説明変数を含むモデルがより良いモデルである、つまり説明変数 I 2 に予測力があると判定できる。 これは 2 元集計表の従属性判定のために導出した式と同一である。以降、上式を説明変数 I 2 の AIC と呼ぶ。
  • 24.
    まとめ この AIC の意味を整理すると、以下の通り。 AIC が負であれば、説明変数とターゲット変数は従属である( AIC(1) と AIC(0) の比較)。 AIC が負であれば、説明変数はターゲット変数についての予測力がある( AIC  ( I 1 ; I 2 ) と AIC  ( I 1 ;  ) の比較) 。 他の説明変数と比較して AIC がより低い説明変数は、ターゲット変数についての予測力がより高い( AIC  ( I 1 ; I 2 ) と AIC  ( I 1 ; I 3 ) の比較)。
  • 25.
    実務上の注意点 AIC の解釈ターゲット変数と説明変数のクロス集計表において、 AIC が負で値が小さいほどその説明変数の予測力が高いと解釈する。 ターゲット変数が同じで説明変数が互いに異なるクロス集計の AIC を比較できる。 AIC がより低い説明変数は、より予測力がある。 ターゲット変数が互いに異なるクロス集計表の AIC の比較はしない。 AIC に 2 程度の差があれば、実質的な差があると解釈する(坂本ら、 1983 、 p. 63 )。 AIC の値が負であるからといって、その説明変数とターゲット変数との間に因果関係があると、ただちに断定しない。
  • 26.
    実務上の注意点(続き) 変数が連続変数の場合 ターゲット変数との関係が単調か、単調であっても線形かは、自明ではない。まずは連続変数をカテゴリー変数に変換してクロス集計表を作ることを推奨。サイズがゼロのセルをどうするか? カテゴリー合併によりサイズがゼロのセルを消去する。 または、計算上の工夫で回避する。 観測度数ゼロのセルを、 1/2 とみなす。 0 と 1 の間の代表値として。 観測度数ゼロのセルを、 exp(  1) (  0.3 7) とみなす。 n log n は n  exp(  1) のとき最小となるから。観測度数にゼロが生じるモデルを避けたい場合の設定(坂本、 1985 、 p. 29 )。 0 log 0 をゼロとする。 n log n の意味は尤度だから。
  • 27.
  • 28.
    報告例  説明変数の予測力を AICによって評価した結果を図表 1 に示します。  予測力の高い変数についてターゲット傾向を順に示します。まず、 業種(図表 2-1 )については、業種 5 と業種 1 は見込み数は同程度ですが、 転換率で見ると業種 1 の方が 17% ポイント高く、… Note: AIC は変数の関係性の高さの指標です。 値がマイナスであれば関係性があり、 値が低いほど関係性が高いことを示します。 *仮想データ 図表 1 説明変数の予測力 図表 2-1 説明変数のターゲット傾向(業種)
  • 29.
    報告例(続き) 「相関」という表現を使わないことをお勧め。 「(Pearson の)相関係数」(  1 から 1 の値を取り、 0 が無相関)と混同される。 「関係性の高さ」または「予測力」など。 必要なら以下の追加説明を行う。 「マイナスは負の相関」ではない。“相関”の方向は別途(グラフなどで)確認。 上限も下限もない。 同じターゲット変数に対する異なる説明変数のクロス集計表の AIC は比較可能。ターゲット変数が異なるクロス集計の AIC は比較しない。 この AIC の計算式はあまり一般的でないので、参考文献を示す(坂本本には英訳もある)。
  • 30.
    実装: MewDap出力: クロス集計表 ごとの AIC 出力: 伝統的な  2 検定 入力: クロス集計表を 縦に並べる
  • 31.
    実装: MewDap(続き) https://sourceforge.net/p/mewdap または、“ MewDap ” で Google 検索 小さな Excel マクロ。 シート上で縦に並べた複数のクロス集計表に対して、それぞれの AIC を計算して表示。 追加情報として、伝統的な独立性検定における  2 (連続性補正なし)とその p を表示。 観察度数がゼロのセルは、 0.5 とみなす。 オープンソース(ご自由に)
  • 32.
  • 33.
    参考文献 坂本 慶行・石黒真木夫・北川 源四郎( 1983 ) 情報量統計学(情報科学講座 A ・ 5 ・ 4 ) 共立出版 http://www.amazon.co.jp/dp/4320021711 坂本 慶行( 1985 ) カテゴリカルデータのモデル分析(応用統計数学シリーズ) 共立出版 http://www.amazon.co.jp/dp/432001376X
  • 34.
    Thank you AICは もっと流行って いいと思う
  • 35.
    Appendix : Kullback-Leibler 情報量から AIC まで   Kullback-Leibler 情報量  平均対数尤度  最尤モデル  期待平均対数尤度と AIC
  • 36.
    Kullback-Leibler 情報量モデル分布 q に関する真の分布 p の Kullback-Leibler 情報量( K-L 情報量) I ( p ; q ) を、下式にように定義する。 K-L 情報量には以下の性質がある。 非負性: I ( p ; q )  0 、 I ( q ; p )  0  p  q 非対称性: I ( p ; q )  I ( q ; p ) したがって、 K-L 情報量は「距離の公理」を満たさない。 K-L 情報量は、離散的な分布モデル q と真の分布 p との隔たりを計る指標となる。
  • 37.
    Kullback-Leibler 情報量(続き) I ( p ; q ) は、モデル q から生成される n 個の独立なデータから得られる分布が真の分布 p に一致する確率の対数(の 1/ n )に漸近的に等しい。 離散的な状態 i に対する真の分布を p  { p 1 ,  , p i ,  } とする。これについての独立な n 回の観測データがあり、その観測度数を { n 1 ,  , n i ,  } とする。大数の法則から n   で、 n i / n  p i である。 確率モデル q  { q 1 ,  , q i ,  } を考える。モデルによると、先の観測度数が得られる確率 W は、 n i が十分に大きな数であるとすると、 Stirling の公式 log n !  n log n  n を利用して、
  • 38.
    Kullback-Leibler 情報量(続き)真の分布 モデル分布 p 1 p i q 1 q i 0 1 n 1 n i n 観測データ n 回 観測度数         1 0   0 1     n 1 / n n i / n 観測分布   状態 1 i  
  • 39.
    平均対数尤度 データが与えられたときのモデル q のよさを評価したい。そこで、 K-L 情報量を利用する。 右辺第 1 項は真の分布 p のみに依存するため、 K-L 情報量の比較には第 2 項のみを推定できればよい。第 2 項を平均対数尤度と呼ぶ。 モデル q の対数尤度 l ( q ) を以下のように定義する。 対数の法則により n   で n i / n  p i だから、 したがって、対数尤度を与えられたデータに対するモデルの評価基準と考えることができる。
  • 40.
    最尤モデル モデルの型は特定されているがパラメータが未知である場合を考える。 この場合、与えられたデータから対数尤度が最大となるパラメータを選択することによって、良いモデルが得られる。このようなパラメータの推定法を最尤法と呼ぶ。最尤法で導かれたパラメータの推定量を最尤推定量、それによって定められるモデルを最尤モデル、最尤モデルの対数尤度を最大対数尤度と呼ぶ。
  • 41.
    期待平均対数尤度と AIC 異なるいくつかの最尤モデルを比較する場合を考える。最尤モデルの平均対数尤度は、モデルの変数に依存する確率変数である。そこで、モデルの評価基準として、平均対数尤度のデータに対する期待値(「期待平均対数尤度」)が考えられる。 では、モデルの最大対数尤度を期待平均対数尤度の推定量としてモデルを比較してよいだろうか? 詳しく見ると、最大対数尤度は期待平均対数尤度の不偏推定量にならず、大きく出やすい。期待平均対数尤度の不偏推定量は、漸近的に下式で与えられる。(この導出にはさらなる数学的準備を要するので、坂本ら( 1983 、 § 4 )などを参照。)   (モデルの最大対数尤度)-(モデルの自由パラメータ数)   歴史的経緯を考慮して、この式を  2 倍した量を AIC ( Akaike’s Information Criterion ; 赤池の情報量規準)と定義する。 AIC を最小とするモデルが最適なモデルと考えられる。