統計学入門
全体像のイメージ的な理解を目指して
          2010年10月4日
    石川康太 (ISHIKAWA Kohta)
         Twitter: @_kohta
    quantumcorgi_at_gmail.com




                                1
ご注意
• この資料は個人的な知識をまとめたものです。作成者
  の所属する組織とは一切関わりの無いものです。
• 内容は正確なものとなるよう努力していますが、作成
  者の不勉強が無いとは言い切れません。不正確な内
  容の発生、および本資料の内容を用いたことによるい
  かなる損害についても、作成者はその責任を負いませ
  ん。
• おかしな点や、改善点など、お気づきの際にはご指摘
  いただけると幸いです。



                         2
この資料の目的と前提
     目的                 前提
•仕事上の問題解決を考える   •平均や分散などの確率的
 ときに統計学のことも頭に    計算を知っている
 浮かぶようになる
                •正規分布なども知っている
•統計学の全体像をイメージ
 できるようになる       •統計学についてとても詳しい
                 というわけではない
•必要な個別トピックの調査
 検討にすんなり入れるよう   •統計学についてきちんと
 になる             勉強するのが面倒臭い

…となれたらお得ですね     …という方

                               3
概要
• 統計学とは何か?
 – 統計学が扱う問題とその目的
• 確率モデルとパラメータ
 – 統計学の基本的な道具とその使い方
• 回帰分析
 – よく用いられるモデルとしての実例
• 検定
 – 統計的検定の考え方
• モデル選択
 – より進んだトピックとして
• ベイズ統計学の初歩
 – 頻度主義統計学とは異なる世界を覗く

                       4
•   統計学とは何か?
•   確率モデルとパラメータ
•   回帰分析
•   検定
•   モデル選択
•   ベイズ統計学の初歩




                  5
統計学とは何か?
• データの中にある構造を見つける

  構造?         データ    実現
        観測

              データ           真の構造

              データ



        構造          確率モデル

        データ         確率変数

                               6
統計学とは何か?
• ランダムな現象をモデル化
 – ノイズがある
 – 非決定論的な現象        不確実性のモデル化
 – 現象の背景がよくわからない


   真の構造に近いと思われる確率モデルを
     想定してデータに合わせ込む

   統計学がやっているのはほとんどこれだけ
   (だと思います)
                          7
• 統計学とは何か?
• 確率モデルとパラメータ
    –   確率モデル
    –   具体例 ~歪んだコイン投げ
    –   パラメータの推定量とその性質
    –   最尤法(推定量の構成)
    –   歪んだコイン投げの最尤推定
•   回帰分析
•   検定
•   モデル選択
•   ベイズ統計学の初歩
                         8
確率モデルとパラメータ(母数)
• 確率モデル=確率分布の想定

              確率モデル




        確率変数(データ)   パラメータ


 データ    が生起する確率 = 想定した確率分布

       確率分布のパラメータをデータに合わせ込めば
       モデルが完成する
                               9
確率モデルとパラメータ(母数)
• 具体例 歪んだコイン投げ
 – 歪んでいて、表・裏の出る確率がよくわからないコイン
    確率モデル                データ
                   (H,H,T,H,T,H,T,T,…)
                    H・・・n回   T・・・N-n回
                  N回コイン投げをしたらHがn回出た
   パラメータ
   :表が出る確率
                   合わせ込んだパラメータ
  表が出る確率は
  裏が出る確率は


                 なぜこの合わせ込みが良いと言えるのか?
                 どうやって合わせ込むとこうなるのか?
                                         10
確率モデルとパラメータ(母数)
• 推定量とその性質
   推定量
 データXを使って真のパラメータ値θを推定したもの


                  はデータXの関数



                     データの具体的な値による
       になったら嬉しい      データは確率変数
                        も確率変数!


 確率変数としての  の
 性質を調べる必要がある          の平均や分散を知りたい

                                    11
確率モデルとパラメータ(母数)
• 具体例 歪んだコイン投げの推定量

      :明らかにnの確率分布を考えれば良い
                          平均が真のパラメータ値
                          に一致
 平均



                        不偏推定量
平均が真のパラメータ値に等しくなる推定量
                        (unbiased estimator)


      推定したい各パラメータについて、不偏推定量を見つける
      ことができれば、データから偏りの無い推定ができる
      ・実際に不偏推定量を見つけるのは簡単ではない。
      ・近似的不偏性で我慢することも多い。                   12
確率モデルとパラメータ(母数)
• 分散はどうなっているか?            平均値のまわりでバラツ
                          キがある
 分散



      ならバラツキはゼロとなる
                       一致推定量
 無限にデータを集めれば推定量は       (consistent estimator)
 確率1で決まった値をとる

       推定量が一致性を持っているなら、安心して大量のデータ
       を集めてくればよい

       ・不偏性と一致性を兹ね備えた推定量を見つけることが目標となる
       ・一致性は大抵の場合満たされる(大数の法則、中心極限定理)
                                                13
確率モデルとパラメータ(母数)
• 不偏性と一致性
                          バイアス




   不偏性のある推定量         不偏性のない(偏った)推定量


                 N大


                 N小




               一致性
                                      14
確率モデルとパラメータ(母数)
• 不偏推定量の分散の性質
 – 一般に、推定量の分散は小さければ小さいほど良い
   • 分散が小さいなら真のパラメータからのズレが小さい
 – ところが、一般に不偏推定量の分散は一定の下限値よ
   り小さくすることができない(データ数固定の場合)
  クラメール・ラオの下限
 データXが与えられたとき、不偏推定量の分散について次の不等式が成り立つ




 不偏推定量の中で最も分散が小さいもの      最小分散不偏推定量
                                       15
確率モデルとパラメータ(母数)
• 最尤法
  推定量   はデータのどんな関数にすればいいのか?


        今得られているデータXは、
    最も得られる確率の高いデータが実現したもの
            だと考える。



  最尤法
 今得られているデータXが実現する確率      を最大化
      するようなパラメータを推定量とする。

                                16
確率モデルとパラメータ(母数)
• 最尤法と最尤推定量
  最尤推定量


                  はデータXを固定して
                   を の関数と見たもの
                    尤度関数

  推定量を構成する方法は最尤法以外にも色々ある
       最小二乗法、MAP推定、ベイズ推定、…
  尤度関数はとても重要な量で、様々な場面で顔を出す
   フィッシャー情報量、AIC(赤池情報量規準)、ベイズ統計…
                                   17
確率モデルとパラメータ(母数)
• 具体例 歪んだコイン投げの最尤推定量
 データ X=(H,H,T,H,T,H,T,T,…) が起こる確率

                          (Hがn回出た場合)


 これを   で微分してゼロと置くと…



                最尤推定量



       直観的な推定量と同じものが得られる
                                       18
確率モデルとパラメータ(母数)
• 最尤法についての注意
 – 最尤推定量は必ずしも不偏性、一致性を満たさない
  • むしろバイアスが掛かりやすい性質がある
  • AICなどによる推定量を用いて補正したりする
  有名な例:正規分布モデルの分散の最尤推定量




      は不偏推定量ではない!


   分散の不偏推定量は
                             19
• 統計学とは何か?
• 確率モデルとパラメータ
• 回帰分析
 – 回帰分析と線形モデル
 – 最小二乗法について
• 検定
• モデル選択
• ベイズ統計学の初歩




                20
回帰と線形モデル
• 回帰 -よく用いる確率モデルとして
  – 回帰は確率モデルの枠組みから見ると少々特殊
      回帰モデル




xが与えられたときのyの条件付き分布を
平均      、分散  の正規分布と想定


   確率の乗法定理      パラメータ   の合わせ込みに
                xの分布の形は影響しない
                  xの分布は考えなくてよい
                  (適当に想定したことにする)
                             21
回帰と線形モデル
• 何が線形?
 – パラメータについて線形
   • xについては線形でなくてもよい



                  全て線形モデル!



これを一般化するとカーネル法と呼ばれる一連の手法に繋がる


 データについて非線形な構造を処理する一般的な方法
 カーネル多変量解析、非線形SVM(カーネルマシン)、etc…
                              22
回帰と線形モデル
• 最小二乗法と最小二乗推定量
   最小二乗法




             について非線形な場合は
             の関数    となる。



 – 最小二乗推定量は線形モデルなら最尤推定量に一致
 – 最小分散不偏推定量になっている
 – パラメータの任意の線形結合   について、
   は最小分散不偏推定量(ガウス・マルコフの定理)
                           23
•   統計学とは何か?
•   確率モデルとパラメータ
•   回帰分析
•   検定
    –   検定とは何か?(推定と検定の違い)
    –   帰無仮説と対立仮説
    –   検定のイメージ
    –   検定統計量の構成
• モデル選択
• ベイズ統計学の初歩

                            24
検定
• 検定は何をするのか?
  推定
  モデル          推定量を       確率モデルを想定し、
                計算      データを使って推定量を求める
  データ

  検定
  モデル           検定統計量
                の分布関数         仮説の
 帰無仮説                         棄却判定
パラメータ値
に対する仮説   データ          検定統計量

                                         25
検定
• 検定における帰無仮説と対立仮説
 帰無仮説
            正しいのかどうかを確かめたい仮説

 対立仮説
            帰無仮説が正しくない時に成り立つ仮説

 パラメータの1点を定める仮説:単純仮説     一般の複合仮説では、検定が
                         複雑になったり発見的な手段を
 パラメータの範囲を定める仮説:複合仮説
                         用いる必要があったりする。


・帰無仮説が正しいときに対立仮説を採択する誤り     第1種の誤り
・対立仮説が正しいときに帰無仮説を採択する誤り     第2種の誤り
 第1種の誤りの確率を一定以下に抑えつつ、第2種の誤りの確率を最小化したい

                                        26
検定                       仮説が正しいとするとまず起こらない
                         はずのこと(棄却域)が起こるのは、
                         仮説が間違っているからだ! と考える
• 検定のイメージ
帰無仮説が正しい              対立仮説が正しい
時のtの分布関数              時のtの分布関数

                                  適当な統計量
                                 (例えばt統計量)


                                 t

     tの実現値   がこの範囲に
     入っていたら帰無仮説を棄却         棄却域


  棄却域は普通、帰無仮説が正しいときの統計量の分布関数に対して
  裾側5%(有意水準5%)となるように定める。


                                         27
検定
• 検定統計量の構成
 検定統計量の例:t統計量
 分散未知の正規分布における平均値パラメータの検定
 (μ0は平均パラメータの帰無仮説)




     tは自由度(N-1)のt分布に従うことが分かっている

       t分布に基づく検定を構成することができる
 – 検定統計量の構成方法は無数にある
 – どの統計量を使うかで検定の良さ(検出力)が変わる

                                  28
検定
• 最強力検定とネイマン・ピアソンの補題
  最強力検定
 対立仮説が成り立つとき、帰無仮説を棄却する
 確率が最大となる検定方式

 •単純帰無仮説を単純対立仮説に対して検定する問題の場合は、
  ネイマン・ピアソンの補題により最強力検定を明示的に構成できる。




 •一般の複合仮説の場合は、最強力検定を構成することは難しい。
  尤度比検定などの(最強力検定とは限らないが)一般的に適用
  できる手法を使う。

                                29
•   統計学とは何か?
•   確率モデルとパラメータ
•   回帰分析
•   検定
•   モデル選択
    – 回帰モデルの例
    – 最尤法の限界
    – AIC(赤池情報量規準)
• ベイズ統計学の初歩


                     30
モデル選択
• 色々なモデルの中でどれが一番良いのか判定したい
                    3

 例:回帰モデルの次数        2.5        線形回帰モデル
                    2

                   1.5

                    1


   いったい何次のモデルが     0.5
                                         6次回帰モデル
    一番妥当なのか?        0
                         0   0.2   0.4   0.6   0.8        1




                   オーバーフィッティング、過学習
素直な発想:最尤法の拡張
尤度が一番高いモデルを      常に最高次のモデルが
 選べばいいのでは?         選ばれてしまう

                                                     31
モデル選択
• 最尤法の限界
         別の
         可能性
                データ
                      ×
           実現         計算に使用
   モデル          データ           尤度関数

         別の
         可能性    データ
                      ×
   最尤法は実現データのみに着目してモデルを作る

   モデルが吐く別のデータ(可能性)に対応できない

     別のデータでは全く的外れでも、実現データに合って
     さえいれば(尤度が高く)採用される。 汎化性能が低い
                                     32
モデル選択
• 期待平均対数尤度 ーデータの「別の可能性」を考慮
  期待平均対数尤度


 真の分布でデータ         最大対数尤度(パラメータ値を
  Xについて平均        最尤推定量としたときの対数尤度)

       最大尤度をデータについて平均することで
         『別の可能性』を考慮に入れる

  でも実際は
  データの真の分布がわからないので平均を計算できない


      期待平均対数尤度の不偏推定量を考えたい!
                                    33
モデル選択
• AIC(赤池情報量規準) -最尤法のバイアス補正
実データを用いた最大対数尤度と期待平均対数尤度の間の
バイアスを近似的に計算することができる データ
 最大対数尤度のバイアス補正



 ダミー変数        最大対数尤度      バイアス補正項
 (平均されて消える)
    AIC(赤池情報量規準)



                       パラメータが多すぎる
                       ことによるペナルティ 34
モデル選択
• バイアス補正の効果
 – 尤度最大で選んだ場合は、モデルの次数が大きいほど
   良いとみなされる
 – AIC最小(符号に注意!)で選んだ場合は、モデルの複
   雑さが適度に補正される
                             AIC最小モデル
 – 情報量基準
  (Information Criterion)は
  確率モデルの構成法により
  AIC,TIC,BICなど様々ある
                                 尤度最大モデル
                                 (6次まで)

                                        35
•   統計学とは何か?
•   確率モデルとパラメータ
•   回帰分析
•   検定
•   モデル選択
•   ベイズ統計学の初歩
                    作成者の力量不足により、ベイズの
    – ベイズ統計学とは?     項目については表面的な色彩がより
                    強いものとなっています。
    – ベイズの定理と事前分布   至らない点など、ご指摘頂ければ
    – ベイズ推定         幸いです。




                                   36
ベイズ統計学の初歩
• ベイズ統計学とは?
  – 新しい!…わけではない(Thomas Bayes,1763)
  – 「物事が起こる確率」だけではなく、「物事が起こったと
    き、その原因の確率」を考える。
頻度主義的考え方
                                風邪を引いた人は
          原因              結果    確率0.9で咳をする
     風邪を引いた              咳をした

ベイズ的考え方


      風邪のせい              咳をした
  咳をした人が風邪を引いている
     確率は0.8である
                     原因と結果の因果関係を
                     逆転して考える            37
ベイズ統計学の初歩
• 典型的な疑問点
 – 風邪かどうかはもう決まっているので、確率も何もない
   んじゃないか?
  • (確率1で断定できるような)十分な情報があればその通り
    です。
  • 不確実性(確率)と不完全情報(情報が足りない)を同じ
    に扱うという考え方です。(主観確率)


 – 最尤法と同じじゃない?(「結果データが起こる確率」に
   着目)
  • 適当な前提の下で同じです。(事前分布が定数)


                             38
ベイズ統計学の初歩
                       :
• ベイズの定理と事前分布      Aが起こったという条件の下で
                   Bが起こる条件付き確率
 ベイズの定理




     原因(A)と結果(B)を入れ換えることができる


  ただし、原因Aの確率分布    を知らなければならない
          事前分布

 事前分布は観察前に持っている経験や情報、信念を反映
・「経験的に、この人は0.3の確率で風邪を引いていそうだ」
・「情報が無いのでこのメールがSPAMかどうかは五分五分だ」39
ベイズ統計学の初歩
• ベイズ推定
 – パラメータ推定の場合、原因がパラメータで結果がデー
   タに対応する
                          尤度関数



           データXが得られたとき、
          パラメータ値がθである確率




                                 40
ベイズ統計学の初歩
• ベイズ推定
 – 色々な方法がある。
 – 基本的には、ベイズ統計学で現れるのは推定量の単一
   の値ではなく推定量の確率分布
頻度主義的          ベイズ的




               単一の推定値が欲しい場合は
               何らかの縮約をする必要がある

                                41
ベイズ統計学の初歩
• ベイズ推定
   MAP推定
                   事後分布を最大化


  事後分布の期待値
                   事後分布における
                   パラメータの期待値


  その他にも、期待損失最小化などの方法がある



                           42
ベイズ統計学の初歩
• ベイズ的な考え方は何が嬉しいのか?
 – モデルの不確実性を直接扱うことができる
  • パラメータの(事前、事後)分布が不確実性を表現
 – 柔軟なモデリングが可能
  • 階層ベイズモデルなどを用いることで、より直観をストレ
    ートにモデル化することができる(参考文献を参照)


• ベイズ的な考え方の問題点
 – どこかで必ず事前分布を恣意的に決めなければならな
   い(無情報量事前分布とかもあるが…)
 – 計算が難しくなりがち
  • ベイズの定理を用いる際に本質的に高次元の多重積分
    が必要になる
                 …その他にも諸説があります   43
まとめ
• 統計学の基本的な考え方と、少しアドバンストなトピッ
  クを眺めました。
• 実際は個々の項目について非常に複雑な発展的内容
  があるものの、基本を押さえておけば何とか追える…
  んじゃないかと思います。
• 確率過程や時系列解析、学習理論、情報理論との関
  連など、ここでは全く触れなかった分野もたくさんあり
  ます。
 – でも基本は同じです!
  確率モデルを考えて、データに合わせ込む


                          44
参考文献
• 統計学全般
 – 入門統計学/共立出版
   • 学部1年の講義で買わされたもの。改めて読むと意外とわかりやす
     い。初心者向け。ネイマン・ピアソン流の古典統計学で、ベイズ的なト
     ピックはない。
 – キーポイント確率・統計/岩波書店
   • わかりやすいが範囲は基本的な内容のみで広くない。その割に中心
     極限定理の証明が載っていたりする。
 – 自然科学の統計学/東京大学出版会
   • 記述は難しめだが、広範で深い記述。実験データ分析のトピックもあ
     り実戦的(たぶん)。
 – 入門数理統計学/培風館
   • 統計学の理論的な背景をきちんと書いている割に、同様の他書に比
     べわかりやすい。部分的にしか読んでいない。

                                   45
参考文献
• モデル選択
 – 統計科学のフロンティア3「モデル選択」/岩波書店
    • 情報量規準に基づくモデル選択がわかりやすい。後半はより情報理
      論的な話が書いてある(と思われる)。
 – 情報量統計学/共立出版
    • モデル選択とその周辺。古い本だが、普通の本にはあまり載ってい
      ないことが書いてあって面白い(と思う)。
 – Model Selection and Multi-Model Inference/Springer
    • 情報量規準と尤度比検定など、どういう状況で何を使うべきか、実践
      的な基礎が書いてある(らしい)。
• 多変量解析
 – 統計科学のフロンティア1「統計学の基礎」
    • 多変量解析が簡潔にまとまっている。「統計学の基礎」とは言い難い
      が…。
                                                        46
参考文献
 – カーネル多変量解析/岩波書店
   • カーネル法を用いて非線形系に拡張された多変量解析の本。わかり
     やすいらしい。
• ベイズ統計学
 – 統計科学のフロンティア4「階層ベイズモデルとその周辺」
   • ベイズモデルの便利さがわかりやすく理解できる。
• 数値計算
 – 統計科学のフロンティア12「計算統計2 マルコフ連鎖モンテ
   カルロ法とその周辺」
   • サンプリングなどの数値的な手法が詳しく載っている。語り口が面白
     い。




                                  47

Introduction to statistics

  • 1.
    統計学入門 全体像のイメージ的な理解を目指して 2010年10月4日 石川康太 (ISHIKAWA Kohta) Twitter: @_kohta quantumcorgi_at_gmail.com 1
  • 2.
    ご注意 • この資料は個人的な知識をまとめたものです。作成者 の所属する組織とは一切関わりの無いものです。 • 内容は正確なものとなるよう努力していますが、作成 者の不勉強が無いとは言い切れません。不正確な内 容の発生、および本資料の内容を用いたことによるい かなる損害についても、作成者はその責任を負いませ ん。 • おかしな点や、改善点など、お気づきの際にはご指摘 いただけると幸いです。 2
  • 3.
    この資料の目的と前提 目的 前提 •仕事上の問題解決を考える •平均や分散などの確率的 ときに統計学のことも頭に 計算を知っている 浮かぶようになる •正規分布なども知っている •統計学の全体像をイメージ できるようになる •統計学についてとても詳しい というわけではない •必要な個別トピックの調査 検討にすんなり入れるよう •統計学についてきちんと になる 勉強するのが面倒臭い …となれたらお得ですね …という方 3
  • 4.
    概要 • 統計学とは何か? –統計学が扱う問題とその目的 • 確率モデルとパラメータ – 統計学の基本的な道具とその使い方 • 回帰分析 – よく用いられるモデルとしての実例 • 検定 – 統計的検定の考え方 • モデル選択 – より進んだトピックとして • ベイズ統計学の初歩 – 頻度主義統計学とは異なる世界を覗く 4
  • 5.
    統計学とは何か? • 確率モデルとパラメータ • 回帰分析 • 検定 • モデル選択 • ベイズ統計学の初歩 5
  • 6.
    統計学とは何か? • データの中にある構造を見つける 構造? データ 実現 観測 データ 真の構造 データ 構造 確率モデル データ 確率変数 6
  • 7.
    統計学とは何か? • ランダムな現象をモデル化 –ノイズがある – 非決定論的な現象 不確実性のモデル化 – 現象の背景がよくわからない 真の構造に近いと思われる確率モデルを 想定してデータに合わせ込む 統計学がやっているのはほとんどこれだけ (だと思います) 7
  • 8.
    • 統計学とは何か? • 確率モデルとパラメータ – 確率モデル – 具体例 ~歪んだコイン投げ – パラメータの推定量とその性質 – 最尤法(推定量の構成) – 歪んだコイン投げの最尤推定 • 回帰分析 • 検定 • モデル選択 • ベイズ統計学の初歩 8
  • 9.
    確率モデルとパラメータ(母数) • 確率モデル=確率分布の想定 確率モデル 確率変数(データ) パラメータ データ が生起する確率 = 想定した確率分布 確率分布のパラメータをデータに合わせ込めば モデルが完成する 9
  • 10.
    確率モデルとパラメータ(母数) • 具体例 歪んだコイン投げ – 歪んでいて、表・裏の出る確率がよくわからないコイン 確率モデル データ (H,H,T,H,T,H,T,T,…) H・・・n回 T・・・N-n回 N回コイン投げをしたらHがn回出た パラメータ :表が出る確率 合わせ込んだパラメータ 表が出る確率は 裏が出る確率は なぜこの合わせ込みが良いと言えるのか? どうやって合わせ込むとこうなるのか? 10
  • 11.
    確率モデルとパラメータ(母数) • 推定量とその性質 推定量 データXを使って真のパラメータ値θを推定したもの はデータXの関数 データの具体的な値による になったら嬉しい データは確率変数 も確率変数! 確率変数としての の 性質を調べる必要がある の平均や分散を知りたい 11
  • 12.
    確率モデルとパラメータ(母数) • 具体例 歪んだコイン投げの推定量 :明らかにnの確率分布を考えれば良い 平均が真のパラメータ値 に一致 平均 不偏推定量 平均が真のパラメータ値に等しくなる推定量 (unbiased estimator) 推定したい各パラメータについて、不偏推定量を見つける ことができれば、データから偏りの無い推定ができる ・実際に不偏推定量を見つけるのは簡単ではない。 ・近似的不偏性で我慢することも多い。 12
  • 13.
    確率モデルとパラメータ(母数) • 分散はどうなっているか? 平均値のまわりでバラツ キがある 分散 ならバラツキはゼロとなる 一致推定量 無限にデータを集めれば推定量は (consistent estimator) 確率1で決まった値をとる 推定量が一致性を持っているなら、安心して大量のデータ を集めてくればよい ・不偏性と一致性を兹ね備えた推定量を見つけることが目標となる ・一致性は大抵の場合満たされる(大数の法則、中心極限定理) 13
  • 14.
    確率モデルとパラメータ(母数) • 不偏性と一致性 バイアス 不偏性のある推定量 不偏性のない(偏った)推定量 N大 N小 一致性 14
  • 15.
    確率モデルとパラメータ(母数) • 不偏推定量の分散の性質 –一般に、推定量の分散は小さければ小さいほど良い • 分散が小さいなら真のパラメータからのズレが小さい – ところが、一般に不偏推定量の分散は一定の下限値よ り小さくすることができない(データ数固定の場合) クラメール・ラオの下限 データXが与えられたとき、不偏推定量の分散について次の不等式が成り立つ 不偏推定量の中で最も分散が小さいもの 最小分散不偏推定量 15
  • 16.
    確率モデルとパラメータ(母数) • 最尤法 推定量 はデータのどんな関数にすればいいのか? 今得られているデータXは、 最も得られる確率の高いデータが実現したもの だと考える。 最尤法 今得られているデータXが実現する確率 を最大化 するようなパラメータを推定量とする。 16
  • 17.
    確率モデルとパラメータ(母数) • 最尤法と最尤推定量 最尤推定量 はデータXを固定して を の関数と見たもの 尤度関数 推定量を構成する方法は最尤法以外にも色々ある 最小二乗法、MAP推定、ベイズ推定、… 尤度関数はとても重要な量で、様々な場面で顔を出す フィッシャー情報量、AIC(赤池情報量規準)、ベイズ統計… 17
  • 18.
    確率モデルとパラメータ(母数) • 具体例 歪んだコイン投げの最尤推定量 データ X=(H,H,T,H,T,H,T,T,…) が起こる確率 (Hがn回出た場合) これを で微分してゼロと置くと… 最尤推定量 直観的な推定量と同じものが得られる 18
  • 19.
    確率モデルとパラメータ(母数) • 最尤法についての注意 –最尤推定量は必ずしも不偏性、一致性を満たさない • むしろバイアスが掛かりやすい性質がある • AICなどによる推定量を用いて補正したりする 有名な例:正規分布モデルの分散の最尤推定量 は不偏推定量ではない! 分散の不偏推定量は 19
  • 20.
    • 統計学とは何か? • 確率モデルとパラメータ •回帰分析 – 回帰分析と線形モデル – 最小二乗法について • 検定 • モデル選択 • ベイズ統計学の初歩 20
  • 21.
    回帰と線形モデル • 回帰 -よく用いる確率モデルとして – 回帰は確率モデルの枠組みから見ると少々特殊 回帰モデル xが与えられたときのyの条件付き分布を 平均 、分散 の正規分布と想定 確率の乗法定理 パラメータ の合わせ込みに xの分布の形は影響しない xの分布は考えなくてよい (適当に想定したことにする) 21
  • 22.
    回帰と線形モデル • 何が線形? –パラメータについて線形 • xについては線形でなくてもよい 全て線形モデル! これを一般化するとカーネル法と呼ばれる一連の手法に繋がる データについて非線形な構造を処理する一般的な方法 カーネル多変量解析、非線形SVM(カーネルマシン)、etc… 22
  • 23.
    回帰と線形モデル • 最小二乗法と最小二乗推定量 最小二乗法 について非線形な場合は の関数 となる。 – 最小二乗推定量は線形モデルなら最尤推定量に一致 – 最小分散不偏推定量になっている – パラメータの任意の線形結合 について、 は最小分散不偏推定量(ガウス・マルコフの定理) 23
  • 24.
    統計学とは何か? • 確率モデルとパラメータ • 回帰分析 • 検定 – 検定とは何か?(推定と検定の違い) – 帰無仮説と対立仮説 – 検定のイメージ – 検定統計量の構成 • モデル選択 • ベイズ統計学の初歩 24
  • 25.
    検定 • 検定は何をするのか? 推定 モデル 推定量を 確率モデルを想定し、 計算 データを使って推定量を求める データ 検定 モデル 検定統計量 の分布関数 仮説の 帰無仮説 棄却判定 パラメータ値 に対する仮説 データ 検定統計量 25
  • 26.
    検定 • 検定における帰無仮説と対立仮説 帰無仮説 正しいのかどうかを確かめたい仮説 対立仮説 帰無仮説が正しくない時に成り立つ仮説 パラメータの1点を定める仮説:単純仮説 一般の複合仮説では、検定が 複雑になったり発見的な手段を パラメータの範囲を定める仮説:複合仮説 用いる必要があったりする。 ・帰無仮説が正しいときに対立仮説を採択する誤り 第1種の誤り ・対立仮説が正しいときに帰無仮説を採択する誤り 第2種の誤り 第1種の誤りの確率を一定以下に抑えつつ、第2種の誤りの確率を最小化したい 26
  • 27.
    検定 仮説が正しいとするとまず起こらない はずのこと(棄却域)が起こるのは、 仮説が間違っているからだ! と考える • 検定のイメージ 帰無仮説が正しい 対立仮説が正しい 時のtの分布関数 時のtの分布関数 適当な統計量 (例えばt統計量) t tの実現値 がこの範囲に 入っていたら帰無仮説を棄却 棄却域 棄却域は普通、帰無仮説が正しいときの統計量の分布関数に対して 裾側5%(有意水準5%)となるように定める。 27
  • 28.
    検定 • 検定統計量の構成 検定統計量の例:t統計量 分散未知の正規分布における平均値パラメータの検定 (μ0は平均パラメータの帰無仮説) tは自由度(N-1)のt分布に従うことが分かっている t分布に基づく検定を構成することができる – 検定統計量の構成方法は無数にある – どの統計量を使うかで検定の良さ(検出力)が変わる 28
  • 29.
    検定 • 最強力検定とネイマン・ピアソンの補題 最強力検定 対立仮説が成り立つとき、帰無仮説を棄却する 確率が最大となる検定方式 •単純帰無仮説を単純対立仮説に対して検定する問題の場合は、 ネイマン・ピアソンの補題により最強力検定を明示的に構成できる。 •一般の複合仮説の場合は、最強力検定を構成することは難しい。 尤度比検定などの(最強力検定とは限らないが)一般的に適用 できる手法を使う。 29
  • 30.
    統計学とは何か? • 確率モデルとパラメータ • 回帰分析 • 検定 • モデル選択 – 回帰モデルの例 – 最尤法の限界 – AIC(赤池情報量規準) • ベイズ統計学の初歩 30
  • 31.
    モデル選択 • 色々なモデルの中でどれが一番良いのか判定したい 3 例:回帰モデルの次数 2.5 線形回帰モデル 2 1.5 1 いったい何次のモデルが 0.5 6次回帰モデル 一番妥当なのか? 0 0 0.2 0.4 0.6 0.8 1 オーバーフィッティング、過学習 素直な発想:最尤法の拡張 尤度が一番高いモデルを 常に最高次のモデルが 選べばいいのでは? 選ばれてしまう 31
  • 32.
    モデル選択 • 最尤法の限界 別の 可能性 データ × 実現 計算に使用 モデル データ 尤度関数 別の 可能性 データ × 最尤法は実現データのみに着目してモデルを作る モデルが吐く別のデータ(可能性)に対応できない 別のデータでは全く的外れでも、実現データに合って さえいれば(尤度が高く)採用される。 汎化性能が低い 32
  • 33.
    モデル選択 • 期待平均対数尤度 ーデータの「別の可能性」を考慮 期待平均対数尤度 真の分布でデータ 最大対数尤度(パラメータ値を Xについて平均 最尤推定量としたときの対数尤度) 最大尤度をデータについて平均することで 『別の可能性』を考慮に入れる でも実際は データの真の分布がわからないので平均を計算できない 期待平均対数尤度の不偏推定量を考えたい! 33
  • 34.
    モデル選択 • AIC(赤池情報量規準) -最尤法のバイアス補正 実データを用いた最大対数尤度と期待平均対数尤度の間の バイアスを近似的に計算することができるデータ 最大対数尤度のバイアス補正 ダミー変数 最大対数尤度 バイアス補正項 (平均されて消える) AIC(赤池情報量規準) パラメータが多すぎる ことによるペナルティ 34
  • 35.
    モデル選択 • バイアス補正の効果 –尤度最大で選んだ場合は、モデルの次数が大きいほど 良いとみなされる – AIC最小(符号に注意!)で選んだ場合は、モデルの複 雑さが適度に補正される AIC最小モデル – 情報量基準 (Information Criterion)は 確率モデルの構成法により AIC,TIC,BICなど様々ある 尤度最大モデル (6次まで) 35
  • 36.
    統計学とは何か? • 確率モデルとパラメータ • 回帰分析 • 検定 • モデル選択 • ベイズ統計学の初歩 作成者の力量不足により、ベイズの – ベイズ統計学とは? 項目については表面的な色彩がより 強いものとなっています。 – ベイズの定理と事前分布 至らない点など、ご指摘頂ければ – ベイズ推定 幸いです。 36
  • 37.
    ベイズ統計学の初歩 • ベイズ統計学とは? – 新しい!…わけではない(Thomas Bayes,1763) – 「物事が起こる確率」だけではなく、「物事が起こったと き、その原因の確率」を考える。 頻度主義的考え方 風邪を引いた人は 原因 結果 確率0.9で咳をする 風邪を引いた 咳をした ベイズ的考え方 風邪のせい 咳をした 咳をした人が風邪を引いている 確率は0.8である 原因と結果の因果関係を 逆転して考える 37
  • 38.
    ベイズ統計学の初歩 • 典型的な疑問点 –風邪かどうかはもう決まっているので、確率も何もない んじゃないか? • (確率1で断定できるような)十分な情報があればその通り です。 • 不確実性(確率)と不完全情報(情報が足りない)を同じ に扱うという考え方です。(主観確率) – 最尤法と同じじゃない?(「結果データが起こる確率」に 着目) • 適当な前提の下で同じです。(事前分布が定数) 38
  • 39.
    ベイズ統計学の初歩 : • ベイズの定理と事前分布 Aが起こったという条件の下で Bが起こる条件付き確率 ベイズの定理 原因(A)と結果(B)を入れ換えることができる ただし、原因Aの確率分布 を知らなければならない 事前分布 事前分布は観察前に持っている経験や情報、信念を反映 ・「経験的に、この人は0.3の確率で風邪を引いていそうだ」 ・「情報が無いのでこのメールがSPAMかどうかは五分五分だ」39
  • 40.
    ベイズ統計学の初歩 • ベイズ推定 –パラメータ推定の場合、原因がパラメータで結果がデー タに対応する 尤度関数 データXが得られたとき、 パラメータ値がθである確率 40
  • 41.
    ベイズ統計学の初歩 • ベイズ推定 –色々な方法がある。 – 基本的には、ベイズ統計学で現れるのは推定量の単一 の値ではなく推定量の確率分布 頻度主義的 ベイズ的 単一の推定値が欲しい場合は 何らかの縮約をする必要がある 41
  • 42.
    ベイズ統計学の初歩 • ベイズ推定 MAP推定 事後分布を最大化 事後分布の期待値 事後分布における パラメータの期待値 その他にも、期待損失最小化などの方法がある 42
  • 43.
    ベイズ統計学の初歩 • ベイズ的な考え方は何が嬉しいのか? –モデルの不確実性を直接扱うことができる • パラメータの(事前、事後)分布が不確実性を表現 – 柔軟なモデリングが可能 • 階層ベイズモデルなどを用いることで、より直観をストレ ートにモデル化することができる(参考文献を参照) • ベイズ的な考え方の問題点 – どこかで必ず事前分布を恣意的に決めなければならな い(無情報量事前分布とかもあるが…) – 計算が難しくなりがち • ベイズの定理を用いる際に本質的に高次元の多重積分 が必要になる …その他にも諸説があります 43
  • 44.
    まとめ • 統計学の基本的な考え方と、少しアドバンストなトピッ クを眺めました。 • 実際は個々の項目について非常に複雑な発展的内容 があるものの、基本を押さえておけば何とか追える… んじゃないかと思います。 • 確率過程や時系列解析、学習理論、情報理論との関 連など、ここでは全く触れなかった分野もたくさんあり ます。 – でも基本は同じです! 確率モデルを考えて、データに合わせ込む 44
  • 45.
    参考文献 • 統計学全般 –入門統計学/共立出版 • 学部1年の講義で買わされたもの。改めて読むと意外とわかりやす い。初心者向け。ネイマン・ピアソン流の古典統計学で、ベイズ的なト ピックはない。 – キーポイント確率・統計/岩波書店 • わかりやすいが範囲は基本的な内容のみで広くない。その割に中心 極限定理の証明が載っていたりする。 – 自然科学の統計学/東京大学出版会 • 記述は難しめだが、広範で深い記述。実験データ分析のトピックもあ り実戦的(たぶん)。 – 入門数理統計学/培風館 • 統計学の理論的な背景をきちんと書いている割に、同様の他書に比 べわかりやすい。部分的にしか読んでいない。 45
  • 46.
    参考文献 • モデル選択 –統計科学のフロンティア3「モデル選択」/岩波書店 • 情報量規準に基づくモデル選択がわかりやすい。後半はより情報理 論的な話が書いてある(と思われる)。 – 情報量統計学/共立出版 • モデル選択とその周辺。古い本だが、普通の本にはあまり載ってい ないことが書いてあって面白い(と思う)。 – Model Selection and Multi-Model Inference/Springer • 情報量規準と尤度比検定など、どういう状況で何を使うべきか、実践 的な基礎が書いてある(らしい)。 • 多変量解析 – 統計科学のフロンティア1「統計学の基礎」 • 多変量解析が簡潔にまとまっている。「統計学の基礎」とは言い難い が…。 46
  • 47.
    参考文献 – カーネル多変量解析/岩波書店 • カーネル法を用いて非線形系に拡張された多変量解析の本。わかり やすいらしい。 • ベイズ統計学 – 統計科学のフロンティア4「階層ベイズモデルとその周辺」 • ベイズモデルの便利さがわかりやすく理解できる。 • 数値計算 – 統計科学のフロンティア12「計算統計2 マルコフ連鎖モンテ カルロ法とその周辺」 • サンプリングなどの数値的な手法が詳しく載っている。語り口が面白 い。 47