大森ゼミ新歓

大森ゼミに入りたくなる！？

ベイズ統計の物語
東京大学経済学部大森裕浩ゼミ
2013 年度新歓コンテンツ（改）

統計学が最強の学問である
西内啓

統計学が最強の学問である
ベイズ統計学

というのは冗談ですが
大森ゼミで扱うベイズ統計を、
今年で 250 周年を迎えるベイズ統
計の歴史を振り返ることを通じて紹
介したいと思います。

ベイズ統計とは
統計的推定の元祖であり、ポテン
シャルを秘めながらも傍流であり続
けた
しかし近年の目覚ましいコンピュー
ターの発達とともに主流になりつつ
ある
そんな統計の流派です

もくじ
第一章　ベイズ統計の誕生
第二章　頻度主義の時代
第三章　 MCMC 革命
第四章　ベイズ統計の現在
第五章　最後に

ベイズ統計が産声を上げたのは 18 世紀に神学
者トマス・ベイズが現在「ベイズの定理」と
して知られる定理を発見した時でした。
P（ Θ ｜ X ）＝ P（ Θ ） P（ X ｜ Θ ） /P（ X ）

これがすべての始まりです。

ベイズが考えていたのは「逆確率」の問題で
す。
ここに表が出る確率が 1/2 でないかもしれない
インチキコインがあります。何回かの実験で
様子見をして、表の出る確率 p について何か
言いたいとします。
仮に p について何かわかれば、そのコインを
使った賭けで勝てるかもしれません。しかし
観測の結果は偶然を含んでいます。

p がある値であると仮定した時、どのような観
測がどのくらいの確率で出てくるかは簡単に
わかりそうです ( 単なる 2 項分布ですね ) 。
しかし、実際の観測から p を逆に推定するのは
工夫がいります。
ベイズはこういう考え方を提唱しました。
「確率 p に対する人間の信念を、観察（新しい
情報）によって順次アップデートすることに
しよう」

ベイズのアイディアはこうです
・ X を観測した後の p の確率（事後確率）は
P（ p ｜ X ）と書き、 P（ p ） P（ X ｜ p ）
に比例する。
・ P(p) は情報 X を得る前の p に対する信念 ( 事
前確率 ) であり、それと p を所与とした X の
発生確率 ( 尤度 ) である P(X|p) の積を考えれば
いい。
・事前確率とは p に関する情報を得る前の信念
であり、事後確率とは情報を得た後の信念で
ある。

人間は日々、世界に対して何らかの思い込みを
持っており（ 1 年以内に倒れることは 99% な
いだろう）、しかし日々情報を得る中で ( 定期
健診で異常が見つかった ) 、その信念を更新
( もしかしたら明日にでも倒れるかもしれな
い ) しています。
ベイズのアイディアは人間の認知プロセスに似
ており、その点では受け入れやすいように思
えます。

残念ながら当時ベイズ自身はこの考え方を生前
公表せず、ほとんど誰の目にもとまらずに葬
られてしましました。
ベイズの歴史で重要なのはむしろラプラスで
す。ラプラスはベイズのアイディアを再発見
し、天文学への応用などを通じて世に広めま
した。
しかし皮肉なことに、その後にラプラスは中心
極限定理を示したことで事前確率に頼らない
統計学（頻度主義統計学）を確立し、その後
はそちらが主流派になってしまいました。

頻度主義統計学は客観性を重視する科学者に
とって魅力的でした。そしてフィッシャーや
ピアソンといった頻度主義統計学者達は推定
や検定に関する理論を確立し、 20 世紀を通じ
て主流をなしました。
反面、主観が確率に入り込むベイズ統計は異端
とされてしまいました。

我々が教科書で学ぶ統計学の大半 (t 検定、最尤
推定、数量化理論 ...) は頻度主義の立場で書
かれたものです。
頻度主義の理論は事前の信念を必要とせず、客
観的な結論を導いてくれるように見えます。
また頻度主義統計は何度も繰り返し同じような
現象を観察できる実験室的な状況を得意して
いました。
一方で、観察が少ないものに対して、あるいは
まったく異なった種類の観察を併せて推論を
行うことに不得手でした。

その中で 20 世紀のベイズ統計は「実験が行え
ず、限られた情報しか得られない中で意思決
定を行わなければいけない実務的な問題」に
活路を見出すことになります。

その一例がラスムッセンのよるスリーマイル原
子力発電所における事前のリスク分析です。
当時原発事故そのものの事例はなく、専門家
の意見や他の類似する事故の事例を統合して
リスクを見積る必要がありました。ラスムッ
センの報告書はベイズ統計を用い、事故が起
こる確率が高いこと、そしてその起こり方ま
で予見しました。
ベイズが活躍した例はどれも興味深いもので
す。ドレフェス裁判、エニグマ暗号の解読、
保険、なくした水爆の捜索 ... （「異端の統計
学ベイズ」（草思社）より）

頻度主義統計にはその他にも欠点がありまし
た。
頻度主義者の推定や検定は問題に対して場当た
り的で、統一感に欠けていました。しかも複
雑な構造のモデルに関しては推定や検定が見
つからない、あるいはあったとしても効率が
悪いということがありました。

一方でベイズ統計は、事前分布さえ仮定してし
まえば、事後分布という強力な推定を行うこ
とができました。なぜ強力かといえば、事後
分布には観測による情報をすべて反映してい
ることが保証されており、分布の形を見れば
どの値をもっともとりやすく、どの程度の不
確実性があるかが一目瞭然だからです。
しかも事後分布を求めることだけに集中すれば
いいので、推定量の性質（不偏性、一致
性 ... ）を考えたり検定のために特定の分布（ t
分布、カイ二乗分布 ... ）に落とし込んだりと
いったアドホックな操作が不要です。

そう考えるとベイズも魅力的に見えてきます。
事前確率につきまとう主観性も、実は問題で
はないのかもしれません。
我々が当然に受け入れている「論理」も必ずあ
る仮定を伴います。「もし A ならば B であ
る」と。そして我々の論理の連鎖は常に何ら
かの思い込みを基礎としている点で、底が抜
けています。
事前確率とはその仮定のようなものかもしれま
せん。「もし事前にこう考えていて（事前確
率）、この情報を得ると（尤度）、こう考え
直すべき（事後確率）」と。

主観的な確率（信念）には怪しさが漂います
が、その点についても理解が進んできまし
た。
フィネッティーやサヴェッジは事前確率を賭け
の際のオッズとして解釈できると考えまし
た。そして、ベイズの事後確率は賭けの利得
を最大化しようとする合理的な人間が、ある
情報を得た後に予想するべきオッズであると
示しました。
つまり、賭けにおける合理的な意思決定方法と
してベイズの定理は正当化できると主張した
のです。

しかしそれでもなお、ベイズは傍流であり続けました。な
ぜならば、複雑な問題に対してベイズの公式を適用する
と、実際には尤度が簡単に書き下せなかったり、尤度が
解析的に書き下せても、ある変数についての事後分布を
得るには高次元の積分問題が出てきてしまったりしたか
らです。
単に事後分布を求めるだけで強力な推定が行うことができ
るので、目標自体はシンプルなのですが、その目標を達
成するための手段がわからない。
こうして最後の難問を残していつしかベイズは「絵に描い
た餅」として理論家からは注目されなくなっていきまし
た。

しかし 20 世紀も終わりにさしかかる 1990 年に不遇の
時代を過ごしたベイズ主義に再び脚光が当たる事件
が発生します。
ゲルファンドとスミスによるマルコフ連鎖モンテカル
ロ法（ MCMC ）です。 Markov Chain Monte Carlo
略して MCMC です。
これを用いることで容易に同時確率分布の積分が行え
るようになり、誤解を恐れずに言えば、どんな難し
い問題でもベイズで解けるようになりました。

MCMC の基本的なアイディアは、「事後分布を
解析的に求めるのではなく、まず事後分布か
らのランダムサンプリングをして、それで事
後分布を近似する」というものです。これは
モンテカルロ法の一種です。
なぜこんなに遠回りなことをするのでしょう
か。一つには事後分布が解析的に求まらない
ということがありますが、最大の理由はラン
ダムサンプルの集計によって高次元の積分計
算が簡単に代替できるということがありま
す。これをモンテカルロ積分といいます。

事後分布における高次元積分の問題のイメージ
はこんな感じです。
仮に 10 変数の推定を解いていたとして、 10 変
数の同時事後分布がわかったとしましょう。
密度関数は 10 次元空間上です。しかし残念な
がら 10 次元上の関数について人間は特徴をつ
かむことができません。
なので、 1 変数や 2 変数について集計する必要
があります、つまりある変数に対しての周辺
分布を求めるために、残りの 8 変数や 9 変数
に対して積分する必要があります。

無論、期待値をとるにしても積分が必要です。
多くの場合、解析的に解くのは絶望的です。
※ 余談ですが、同時事後確率が最大になる変数
の組み合わせを多次元分布から見つける（点
推定）ことは、単なる最適化問題なので、比
較的簡単です。実は事前分布が一様分布とし
てこの推定方法を行った場合、最尤法と等価
であることが知られています。つまり最尤法
はベイズ推定の一例だったのです。

ところが、モンテカルロ積分を使えばこの多重
積分という問題が一発で解消できます。
まず同時事後分布から 10000 個～ 100000 個と
いった、とにかく多くのサンプルをとりま
す。そして、各変数についてそのサンプルの
ヒストグラムを描きます。
たったこれだけです。
まだイメージできない人は、 2 次元正規分布か
らたくさんサンプルをとって、ある次元につ
いてヒストグラムを描くことを考えてくださ
い。きちんと周辺分布（ 1 次元正規分布）
なっているはずです。そんなイメージです。

当然こんなことは 20 世紀のベイズ統計学者も織
り込み済みだった筈ですが、実は同時事後分
布からのサンプリングというのは実際には難
しいことが多いのです。
それを可能にするのがもう一つのキーワードで
あるマルコフ連鎖です。
普通サンプリングは独立に行われるというイ
メージですが、 MCMC の場合には前のサンプ
ルに次のサンプルを従属させます。

手順はこんな感じです。
・ある値を与えられた時に値を確率的に返すようなもの
（カーネルと呼びます）をある規則のもと設定します。
・適当な初期値を与え、その初期値にカーネルを適用しま
す。すると新しい値が確率的に得られます。
・この値にカーネルを適用します。するとまた新しい値が
得られます。これを繰り返すと確率変数列をつくること
ができ、これは確率過程（マルコフ過程）になっていま
す。
・この規則の確率変数列を十分な長さ（ 10 万程度）とり、
初期値の影響を引きずっている最初の 1000 個程度を取
り除くと、（適切なカーネルのもとでは）事後分布から
の（互いに独立ではない）サンプリングになっていま
す。

ある条件を満たすカーネルによるマルコフ連鎖は、初期値
に関わらず定常分布に収束するという性質があるため、
事後分布を定常分布とするようなカーネルをうまく設計
できればよいことになります。
そしてギブスサンプラーあるいは MH サンプラーと呼ばれ
る方法などでカーネルを構築すると定常分布が事後分布
になることが知られています。これが MCMC の理論で
す。
ちなみにこれらのサンプラーは、 MCMC 以前から統計物理
や画像解析の分野で使われていたもので、ゲルファンド
とスミスの貢献は、これをベイズ統計で事後分布からの
サンプリングに使えると示したことにあります。

革命を牽引した発見はもう一つあります。それ
は粒子フィルタなどを中心とする
S
MC(sequential Monte Carlo= 逐次モンテカル
ロ ) と呼ばれるものです。
粒子フィルタ（モンテカルロフィルタ、ブート
ストラップフィルタ）は統数研の北川源四郎
など複数の研究者によって独立に開発された
方法で、ある種の遺伝アルゴリズムであるこ
とが知られています。
これによって尤度を書き下すことが困難な時系
列問題（非線形・非正規状態空間モデル）が
推定できるようになりました。

当然これらの方法は多い場合億や兆のオーダー
の乱数（低性能な擬似乱数発生器による乱数
列を使い果たす程です）を用いたモンテカル
ロシミュレーションに依拠しているため、コ
ンピューターの進歩なしには不可能でした。
しかし 1990 年以降のコンピューターの高性能
化はめざましく、さらに研究室や個人単位で
入手可能になりました。
こうしてベイズはコンピューターとともに様々
な分野に普及していきました。

MCMC や S などシミュレーションに基づいた
MC
手法には必ずモンテカルロエラーと呼ばれる
誤差が伴いますが、十分な回数の試行を行う
ことでなくなったとみなすことができます
（かつ、普通のサンプルと違って、時間の許
す限りたくさんのサンプルを自由に得ること
ができます）。
皮肉なことに、 MCMC や S によるサンプリン
MC
グは、頻度主義統計がもっともよく当てはま
る問題であり、実際にサンプルの収束の判定
やサンプリングスキームの正当化に頻度主義
理論がよく使われています。

ベイズ統計はマルコフ連鎖モンテカルロ法の発
見を経て飛躍を遂げ、統計学の主流になりつ
つあります。
あえて誤解を恐れずに言えば、「計算機を回し
て時間さえかければ頭を使わずにどんな問題
でも解けてしまう」というのも一つの要因で
はないかと思います。

頻度主義統計の場合は数回の逆行列や固有値計
算、せいぜい多次元の最大化問題といったも
ので、計算量も限られています。しかし
MCMC や S の場合、数万～数十万回の試行
MC
によってシミュレーションを行い、その各試
行で行列操作を行ったりするため、開発され
た当初は非常に計算量が多いのが難点でし
た。
しかし計算機のコア性能の進化や、並列化に
よって高速な計算が可能になり、 2014 年現在
では通常の問題に関しては比較的短時間で結
果を得ることができます。

MCMC による革命後にベイズ統計は様々な分野に普及しま
した。
説明変数がサンプルサイズを大幅に上回ってしまう問題
（ゲノム、多変量時系列）、組み合わせが膨大で事前確
率が必要な問題（ Gm ail のスパムフィルターなどの言語
処理）、階層的で複雑な構造を仮定したほうがよい問題
（生態学など）、正規分布を仮定しない問題（高い裾確
率を仮定した時系列）等々です。
また理論的にも、頻度主義の文脈で開発されてきた諸手法
がベイズの視点で自然に解釈できるといったことが分
かってきました（縮小推定など）。
工学分野でもっとも使われている教科書の一つである「パ
ターン認識と機械学習」はベイズ的な観点でまとめられ
ています。

計量経済学でも様々な分野で応用が進んでいま
す。ゼミ生や大森研究室の院生の過去のテー
マを例にとると、
ミクロ計量ではオークションや産業組織の実証
マクロ計量では DS
GEのベイズ推定
ファイナンスでは確率的ボラティリティモデ
ル、証券の格付けのモデリング
マーケティングではベイジアンネットワークに
よる広告が影響を与えるプロセスの分析
などがあります。

さて、ここまでベイズ統計学の歴史を簡単に紹
介してきましたが、いかがだったでしょう
か。
統計学はいまや経済学部生必須のツールで、多
くの人は卒論で必要になるでしょう。
頻度主義統計を学ぶのか ( いろんな武器をそろ
え、それぞれの使い方を覚えるのか ) 、ベイ
ズ主義統計を学ぶのか（魔法の杖を手にし、
その杖一本で戦うのか）はあなたの自由で
す。

参考までに、実行環境について言うと、 R などの環境では
頻度主義統計のパッケージは手に入りやすいですが、ベ
イズ主義のパッケージはなかなかないので自分で組む他
ないということもよくあります。
しかしそれと引換えに、「どの手法が使えるか」ありきで
はなく、「どの確率モデルが適切か」というより本質的
な考え方をすることが許されます。また頻度主義では取
り組むことが難しいと考えられていた統計的な課題に取
り組める機会をつかむことができるのではないかと思い
ます。
ベイズ統計が発展したのは比較的最近なので、ベイズ統計
を用いれば新しいことができる、といった未開拓な応用
分野もまだまだ残されています。

大森ゼミではまず 3 年次にベイズ統計学をマルコフ連鎖モ
ンテカルロ法を中心に輪読で習得していきます。お察し
の通り、実行にはプログラミングも必要なのでこれも合
わせて勉強します。経験ゼロからでもみんな出来るよう
になっているのでご安心を。
例年のカリキュラムでは 3 年生のうちに状態空間モデルと
階層ベイズ、という二つの汎用的なモデルの推定法につ
いて学習します。
状態空間モデルは NAS のアポロ計画のロケットの軌道推
A
定に使われたモデルでもあり、観測バイアス・ノイズを
含んだ時系列を推定できる強力なツールです。
階層ベイズは重回帰やロジットモデルなどを含む一般化線
形回帰モデルをさらに一般化したようなモデルです。

そして 4 年次は輪読の担当は基本的にはなく、代わり
に卒業研究に 1 年当てることができます。
ちなみに卒論には力を入れる人も多く、毎年平均 4-5
人程度という少人数のゼミながら、創設以来 11 年連
続で特選論文を出し、大内賞は 2 回出ています。ま
た研究に進んだ卒業生の多くが、ベイズ統計の研究
で世界のトップに立つデューク大学の Ph.D に進学し
ています。

おまけ（興味のある人のために）
主要なパッケージ一覧 (2014 年現
在)

・ MCMC 専用のパッケージ

WinBugs（もっとも普及している汎用 MCMC パッケージ）
JAGS S版の WinBugs)
(OS
S （最新の MCMC 専用パッケージ）
tan
・ R のパッケージ
MCMCpack(R でもっとも有名なベイズ推定 )
pom p(PMCMC による状態空間モデル推定 )
bayesm
・その他
Dynare(Matlab 上での DS
GEのベイズ推定 )
LibBi(MPI ・ GPGPU 対応の、 PMCMC ・ S
MC2 を用いた状態空間モデルのベイズ推定 )

大森ゼミ新歓

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

大森ゼミ新歓