Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Tomoshige Nakamura
2,980 views
【書きかけ】一般化線形モデルの流れ
一般化線形モデルで日本語であんまりいい教科書ないから、自分用のメモを作成しています。まだ書きはじめたばかりで読みにくいですが、しばらくしたら言葉の修正などしていきます。
Data & Analytics
◦
Related topics:
Data Science Insights
•
Read more
2
Save
Share
Embed
Embed presentation
Download
Downloaded 14 times
1
/ 9
2
/ 9
3
/ 9
4
/ 9
5
/ 9
6
/ 9
7
/ 9
8
/ 9
9
/ 9
More Related Content
PDF
2 6.ゼロ切断・過剰モデル
by
logics-of-blue
PDF
2 3.GLMの基礎
by
logics-of-blue
PDF
2 4.devianceと尤度比検定
by
logics-of-blue
PDF
社会心理学とGlmm
by
Hiroshi Shimizu
PPTX
ようやく分かった!最尤推定とベイズ推定
by
Akira Masuda
PDF
階層モデルの分散パラメータの事前分布について
by
hoxo_m
PDF
20180118 一般化線形モデル(glm)
by
Masakazu Shinoda
PDF
PRML輪読#11
by
matsuolab
2 6.ゼロ切断・過剰モデル
by
logics-of-blue
2 3.GLMの基礎
by
logics-of-blue
2 4.devianceと尤度比検定
by
logics-of-blue
社会心理学とGlmm
by
Hiroshi Shimizu
ようやく分かった!最尤推定とベイズ推定
by
Akira Masuda
階層モデルの分散パラメータの事前分布について
by
hoxo_m
20180118 一般化線形モデル(glm)
by
Masakazu Shinoda
PRML輪読#11
by
matsuolab
What's hot
PPTX
心理学者のためのGlmm・階層ベイズ
by
Hiroshi Shimizu
PDF
因果探索: 基本から最近の発展までを概説
by
Shiga University, RIKEN
PDF
階層ベイズとWAIC
by
Hiroshi Shimizu
PDF
星野「調査観察データの統計科学」第3章
by
Shuyo Nakatani
PDF
Stanコードの書き方 中級編
by
Hiroshi Shimizu
PPTX
GEE(一般化推定方程式)の理論
by
Koichiro Gibo
PDF
階層ベイズによるワンToワンマーケティング入門
by
shima o
PPTX
MCMCでマルチレベルモデル
by
Hiroshi Shimizu
PDF
ベイズ主義による研究の報告方法
by
Masaru Tokuoka
PDF
観察データを用いた因果推論に共変量選択
by
Jaehyun Song
PDF
Chapter9 一歩進んだ文法(前半)
by
itoyan110
PDF
Stan超初心者入門
by
Hiroshi Shimizu
PDF
MLaPP 9章 「一般化線形モデルと指数型分布族」
by
moterech
PDF
Tokyo r7 sem_20100724
by
osamu morimoto
PDF
混合モデルとEMアルゴリズム(PRML第9章)
by
Takao Yamanaka
PDF
統計的因果推論 勉強用 isseing333
by
Issei Kurahashi
PDF
Rで学ぶ回帰分析と単位根検定
by
Nagi Teramo
PDF
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
by
Junpei Tsuji
PDF
セミパラメトリック推論の基礎
by
Daisuke Yoneoka
PDF
正準相関分析
by
Akisato Kimura
心理学者のためのGlmm・階層ベイズ
by
Hiroshi Shimizu
因果探索: 基本から最近の発展までを概説
by
Shiga University, RIKEN
階層ベイズとWAIC
by
Hiroshi Shimizu
星野「調査観察データの統計科学」第3章
by
Shuyo Nakatani
Stanコードの書き方 中級編
by
Hiroshi Shimizu
GEE(一般化推定方程式)の理論
by
Koichiro Gibo
階層ベイズによるワンToワンマーケティング入門
by
shima o
MCMCでマルチレベルモデル
by
Hiroshi Shimizu
ベイズ主義による研究の報告方法
by
Masaru Tokuoka
観察データを用いた因果推論に共変量選択
by
Jaehyun Song
Chapter9 一歩進んだ文法(前半)
by
itoyan110
Stan超初心者入門
by
Hiroshi Shimizu
MLaPP 9章 「一般化線形モデルと指数型分布族」
by
moterech
Tokyo r7 sem_20100724
by
osamu morimoto
混合モデルとEMアルゴリズム(PRML第9章)
by
Takao Yamanaka
統計的因果推論 勉強用 isseing333
by
Issei Kurahashi
Rで学ぶ回帰分析と単位根検定
by
Nagi Teramo
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
by
Junpei Tsuji
セミパラメトリック推論の基礎
by
Daisuke Yoneoka
正準相関分析
by
Akisato Kimura
Similar to 【書きかけ】一般化線形モデルの流れ
PDF
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
by
Deep Learning Lab(ディープラーニング・ラボ)
PPTX
ベイズ統計学の概論的紹介
by
Naoki Hayashi
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
by
Takeshi Sakaki
PPTX
一般線形モデル
by
MatsuiRyo
PDF
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
by
Ryosuke Sasaki
PDF
Prml2.1 2.2,2.4-2.5
by
Takuto Kimura
PDF
[PRML] パターン認識と機械学習(第1章:序論)
by
Ryosuke Sasaki
PDF
PRML 上 2.3.6 ~ 2.5.2
by
禎晃 山崎
PDF
PRML2.1 2.2
by
Takuto Kimura
PDF
統計学における相関分析と仮説検定の基本的な考え方とその実践
by
id774
PDF
PRML 10.4 - 10.6
by
Akira Miyazawa
PDF
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
by
Naoki Hayashi
PDF
PRML10-draft1002
by
Toshiyuki Shimono
PDF
PRML セミナー
by
sakaguchi050403
PPTX
第四回統計学勉強会@東大駒場
by
Daisuke Yoneoka
PDF
データ解析のための統計モデリング入門3章後半
by
Shinya Akiba
PDF
Dbda chapter15
by
Amarsanaa Agchbayar
PDF
TokyoWebmining統計学部 第1回
by
Issei Kurahashi
PDF
データ解析のための統計モデリング入門-6章後半
by
yukit_cesc
PDF
みどりぼん読書会 第4章
by
Masanori Takano
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
by
Deep Learning Lab(ディープラーニング・ラボ)
ベイズ統計学の概論的紹介
by
Naoki Hayashi
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
by
Takeshi Sakaki
一般線形モデル
by
MatsuiRyo
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
by
Ryosuke Sasaki
Prml2.1 2.2,2.4-2.5
by
Takuto Kimura
[PRML] パターン認識と機械学習(第1章:序論)
by
Ryosuke Sasaki
PRML 上 2.3.6 ~ 2.5.2
by
禎晃 山崎
PRML2.1 2.2
by
Takuto Kimura
統計学における相関分析と仮説検定の基本的な考え方とその実践
by
id774
PRML 10.4 - 10.6
by
Akira Miyazawa
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
by
Naoki Hayashi
PRML10-draft1002
by
Toshiyuki Shimono
PRML セミナー
by
sakaguchi050403
第四回統計学勉強会@東大駒場
by
Daisuke Yoneoka
データ解析のための統計モデリング入門3章後半
by
Shinya Akiba
Dbda chapter15
by
Amarsanaa Agchbayar
TokyoWebmining統計学部 第1回
by
Issei Kurahashi
データ解析のための統計モデリング入門-6章後半
by
yukit_cesc
みどりぼん読書会 第4章
by
Masanori Takano
More from Tomoshige Nakamura
PDF
ベイズ推論とシミュレーション法の基礎
by
Tomoshige Nakamura
PDF
多重代入法(Multiple Imputation)の発表資料
by
Tomoshige Nakamura
PDF
卒論プレゼンテーション -DRAFT-
by
Tomoshige Nakamura
PDF
20140514_水曜セミナー発表資料_中村知繁
by
Tomoshige Nakamura
PDF
2014年5月14日_水曜セミナー発表内容_FINAL
by
Tomoshige Nakamura
PDF
20140727_第1回スポーツデータアナリティクス基礎講座
by
Tomoshige Nakamura
PDF
Design Thinking Workshop
by
Tomoshige Nakamura
PDF
品川女子学院_講義1_デザイン思考_共感
by
Tomoshige Nakamura
PDF
【第3回日本を創り継ぐプロジェクト】説明資料
by
Tomoshige Nakamura
PDF
自己紹介_140416
by
Tomoshige Nakamura
PDF
20140512_水曜セミナードラフトv1
by
Tomoshige Nakamura
PDF
20141224_水曜セミナー
by
Tomoshige Nakamura
PDF
日本を創り継ぐプロジェクト紹介資料
by
Tomoshige Nakamura
PDF
Workshop nara
by
Tomoshige Nakamura
PPT
ライフサイクルからの脱却
by
Tomoshige Nakamura
PDF
品川女子_講義1_共感_定義
by
Tomoshige Nakamura
PDF
20140507_品川女子学院_講義2
by
Tomoshige Nakamura
PDF
20140625_品川女子学院_講義3
by
Tomoshige Nakamura
PDF
20140507_品川女子学院_講義2
by
Tomoshige Nakamura
PDF
Design Thinking Workshop
by
Tomoshige Nakamura
ベイズ推論とシミュレーション法の基礎
by
Tomoshige Nakamura
多重代入法(Multiple Imputation)の発表資料
by
Tomoshige Nakamura
卒論プレゼンテーション -DRAFT-
by
Tomoshige Nakamura
20140514_水曜セミナー発表資料_中村知繁
by
Tomoshige Nakamura
2014年5月14日_水曜セミナー発表内容_FINAL
by
Tomoshige Nakamura
20140727_第1回スポーツデータアナリティクス基礎講座
by
Tomoshige Nakamura
Design Thinking Workshop
by
Tomoshige Nakamura
品川女子学院_講義1_デザイン思考_共感
by
Tomoshige Nakamura
【第3回日本を創り継ぐプロジェクト】説明資料
by
Tomoshige Nakamura
自己紹介_140416
by
Tomoshige Nakamura
20140512_水曜セミナードラフトv1
by
Tomoshige Nakamura
20141224_水曜セミナー
by
Tomoshige Nakamura
日本を創り継ぐプロジェクト紹介資料
by
Tomoshige Nakamura
Workshop nara
by
Tomoshige Nakamura
ライフサイクルからの脱却
by
Tomoshige Nakamura
品川女子_講義1_共感_定義
by
Tomoshige Nakamura
20140507_品川女子学院_講義2
by
Tomoshige Nakamura
20140625_品川女子学院_講義3
by
Tomoshige Nakamura
20140507_品川女子学院_講義2
by
Tomoshige Nakamura
Design Thinking Workshop
by
Tomoshige Nakamura
【書きかけ】一般化線形モデルの流れ
1.
An outline of
generalized linear model Tomoshige Nakamura 2014 年 5 月 19 日 1 モデルを当てはめるプロセス 一般化線形モデルを記述する前に、まずはモデルの当てはめのプロセスについて述べる。大きく3つのプロ セスに分けることができる。 1. モデルの選択 2. パラメータの推定 3. 未知の値の推定 現実的には、未知の値が推定できないならそれ以前のステップの仮定に誤りがあると考える。また、未知の値 の推定はここでは議論しないことにする。 1.1 モデル選択 まず、一般化線形モデルでは 2 つの仮定をおく。 1 つ目は、観測値が独立であることの仮定である。そのため、時系列などの自己相関のあるデータは除外さ れる。独立性の仮定は、一般的な線形な回帰分析の特徴である。これを修正せずに、一般化線形モデルにも用 いる。 2 つ目の仮定は、誤差の構造に関する仮定である。誤差項はモデルないに 1 つしか存在しないというもので ある。例えば、2 つ以上の誤差を含む場合は除外される(郡内分散・群間分散を用いるような場合は 2 つの誤 差を仮定することになる)。 次に、モデル選択においては、解析のスケールの選択も重要である。例えば、Y をそのまま用いるのか、そ れとも対数変換をしたものを用いるのかなどである。適切なスケールは、観測値のみに依存せず、何を目的に 解析するのかという点から考える必要がある。 一般的な線形回帰モデルでは、適切な Y のスケールが、分散の定数性(不変性)、誤差の近似的な正規性、系 統的な影響の加成性を合わせ持つ。 一般化線形モデルの導入の段階で、スケールの問題は小さくなっている。また、分散が平均の関数であるこ 1
2.
とが分かっているので、正規性と分散の不変性は必要なくなっている。効果の加成性は、一般化線形モデルの 重要な点であるが、必要があれば変換されたスケールを続けて明示する。一般化線形モデルにおいては、加性 性は正確に言えば、説明変数の期待値の特性であると仮定している。 まだ、モデル選択の課題は残っている。共変量の選択である。共変量はモデルの系統的な(Systematic な: と本文では言っている)部分に含まれる箇所である。この話題については、線形モデルの話題として非常に多 くの議論がなされている。共変量の選択では、推定値を構築する上で(ある視点から)最も良い変数の部分集 合を見つける必要がある。 ˆµ =
xjβj (1.1) ここで、ˆµ, xj はそれぞれベクトルで、ˆµ は当てはめ値、xj はデータの j 列目の共変量ベクトル。 1.2 パラメータの推定 特定のモデルを選択したら、パラメータを推定し、推定値の精度を評価する必要がある。一般化線形モデル においては、推定は、y の観測値とモデルから得られる推定値の間に何らかの当てはまりの良さの基準を定義 することですすめる。このような場合は、観察データに対するパラメータの尤度、または対数尤度の最大化に よって、パラメータの推定値を得る。 f(y; θ) は、y のパラメータ θ が与えられたもとでの確率密度関数(PDF)または、確率関数を表す。する と、対数尤度は平均値 µ = E(Y ) の関数で表すことができる。 l(µ; y) = log f(y; θ) (1.2) 独立な観測値 y1, · · · , yn に基づく対数尤度は、以下のように表される。 l(µ; y) = i log fi(yi; θi) (1.3) ここで、µ = (µ1, · · · , µn) である。つまり独立な観測値 y が観測された元で対数尤度は θ の関数である。ま た、”scaled deviance”(スケール逸脱度)は、次のように定義される。 D∗ (y; µ) = 2l(y; y) − 2l(µ; y) (1.4) 指数型分布族に対しては、l(y; y) 観測値に完全に当てはまった場合の最尤推定量であり、当てはめ値が観測 データと同じになる。l(y; y) はパラメータに依存しないので、l(µ; y) の最大化は、µ について D∗ (y; µ) の最 小化に対応する。 分散が既知である場合、1 つの観測に対する線形回帰モデルは、確率密度関数が以下で与えられる。 f(y; µ) = 1 √ 2πσ2 exp(− (y − µ)2 2σ2 ) (1.5) 2
3.
よって、対数尤度は l(y; µ) =
− 1 2 log(2πσ2 ) − (y − µ)2 2σ2 (1.6) 対数尤度を最大にする µ = y であるから、最大対数尤度は l(y; y) = − 1 2 log(2πσ2 ) (1.7) スケール逸脱度関数は D∗ (y; µ) = − (y − µ)2 2σ2 (1.8) となる。ここで、スケールパラメータが既知であることを除けば、この例では、逸脱度の関数は残差二乗和 と同じであり、最小の逸脱度は最小二乗法と同じである。 2 一般化線形モデルの基本 一般化線形モデルは、従来の線形モデルの拡張である。観測値 y を n × 1 のベクトルであるとし、確率変数 Yn×1 の実現値であると考える。また、Y の各要素は独立に平均 µn×1 の分布に従うと仮定する。モデルの系 統的な部分(Systematic Part)は、平均ベクトル µ によって記述され、µ は未知パラメータ β1, · · · , βp の関 数であると仮定する。一般的な線形モデルでは、以下のように µ が未知のパラメータ βp×1 と、既知の共変量 xj によって特徴付けられる。 µ = p j=1 xjβj (2.1) また、観測値 i の平均は、i = 1, 2, · · · , n として、以下のように表される。 E(Yi) = µi = p j=1 xijβj (2.2) 行列の形式で書き直せば、共変量行列(モデル行列)を Xn×p として、以下のように書き直すことができる。 E(Y ) = µ = Xβ 一方で、ランダムな部分は誤差が互いに独立、一定の分散を持つと仮定する。これらの仮定は強い仮定であ るから用いる場合には必ず確認する必要がある。特に、線形回帰モデルでは、線形モデルは誤差が分散が σ2 (一定)のガウス分布に従うと仮定する。 また、共変量の観測値には、平均値のみに影響を与えていて、誤差を伴わず観測されているという仮定をお いているため、こちらについても同様に確認する必要がある。 3
4.
以上を踏まえると、一般的な線形回帰モデルは次のように要約される。Y の各要素は、独立に分散 σ
の正規 分布に従い、 E(Y ) = µ = Xβ (2.3) を満たす。 2.1 一般化線形モデル 先ほどの古典的な線形回帰モデルを、一般化線形モデルへの形式で書き直すと以下のようになる。 ✓ ✏ 1. ランダムな要素(random component):確率変数ベクトル Y の要素は、互いに独立に正規分布に 従い、その期待値 E(Y ) = µ であり、一定の分散 σ2 を持つ. 2. 系統的な要素(Systematic Component):共変量 x1, · · · , xp の線形結合で表される線形予測子 η を以下のように定義する。 η = p j=1 xjβj 3. ランダムな要素(random component)と、系統的な要素(Systematic Component)は以下のよ うにリンク(link)されている。 µ = η ✒ ✑ 上記のような表現が、古典的線形モデルの一般化に当たる。ここで、 ηi = g(µi) とするとき、g(·) をリンク関数と呼ぶ。このような形式においては、古典的な線形モデルは、1 つめで正規分 布を仮定し、3 つ目でリンク関数を µ = η と指定していると解釈できる。 一般化線形モデルでは、このうち 2 つに拡張を施す。1 つ目の拡張は、要素 1 で Y 分布を指定する際に正規 分布以外の指数型分布族を仮定することである。もう1つは、要素 3 でリンク関数に微分可能な単調な関数を 仮定することである。まず、最初に分布の拡張について考えておく。 2.2 一般化線形モデルに対する尤度関数 確率変数ベクトル Y の各要素が、指数型分布族に従うとき、その密度関数は、2 つのパラメータ θ, φ を用い て以下のように表される。 fY (y; θ, φ) = exp{(yθ − b(θ))/a(φ) + c(y, φ)} (2.4) 4
5.
ここで、a(·), b(·), c(·)
には分布に応じて特定の関数が入る。また、パラメータ θ を正準パラメータ(canonical parameter)、φ をスケールパラメータと呼ぶ。よって、φ が既知であれば、指数型分布族は正準パラメータの みの関数となる。 正規分布を指数型分布族形式で表す✓ ✏ fY (y; θ, φ) = 1 √ 2πσ2 exp(− (y − µ)2 2σ2 ) = exp{(yµ − µ2 2 )/σ2 − 1 2 {y2 /σ2 + log(2πσ2 )}} と変形できるので、θ = µ, φ = σ2 とすれば、各関数は以下のようになる。 a(φ) = φ, b(θ) = θ2 /2, c(y, θ) = − 1 2 {y2 /σ2 + log(2πσ2 )} ✒ ✑ さて、対数尤度関数 l(θ, φ; y) = logfY (y; θ, φ) を φ, y が与えられたもとでの、θ の関数であると考える。Y の平均と分散は次の良く知られた 2 つの事実を用いれば比較的簡単に導くことができる。 E ∂l ∂θ = 0 (2.5) 及び E ∂2 l ∂θ2 + E ∂l ∂θ 2 = 0 (2.6) ここで、(2.4) より対数尤度は l(θ, φ; y) = (yθ − b(θ))/a(φ) + c(y, φ) であるから、 ∂l ∂θ = {y − b ′ (θ)}/a(φ) (2.7) ∂2 l ∂θ2 = −b ′′ (θ)/a(φ) (2.8) 上記の結果と (2.5),(2.6) の結果を用いれば、E(Y ) = µ とすると 0 = E ∂l ∂θ = {µ − b ′ (θ)}/a(φ) より µ = E(Y ) = b ′ (θ) 5
6.
である。同様に、(2.6),(2.7),(2.8) の結果を用いると、 0 =
− b ′′ (θ) a(φ) + var(Y ) a2(φ) となるので、Y の分散は以下のように表される。 var(Y ) = b ′′ (θ)a(φ) この結果から Y の分散は 2 つの関数の積で表されることが分かった。まず、b ′′ (θ) は正準パラメータのみ依 存する関数である(先ほどの結果から µ(平均)に依存する)。また、a(φ) は φ のみに依存して θ とは独立で あるから、b ′′ (θ) は分散関数(variance function)と呼ばれる。分散関数は µ のみに依存することから V (µ) と書くことにする。 一般的に、a(φ) は以下のような形をしている。 a(φ) = φ/ω (2.9) ここで、φ は σ2 を用いて書き直されるので、これを dispersion parameter(分散パラメータ)を呼ぶ。つま り Y は分散関数と分散パラメータに依存する関数の積である。そして、ω は観測毎に与えられる既知の異なる 重みである。 このように正規分布モデルでは、各観測値は独立な m 個の尺度の平均として以下のように表される(観測値 が m 個ある場合)。 a(φ) = σ2 /m (2.10) 2.3 リンク関数 リンク関数は、線形予測子 η と、y の期待値 µ を繋ぐ関数である。古典的な線形モデルでは、平均と線形予 測子は同じものであり、このようなリンク関数(本では identity と記述)は、η と µ はともに実数直線上のす べての値を取ることができるという点で妥当なものである。 しかしながら、カウントデータ(離散値)で、ポアソン分布の場合を考えると、µ > 0 である必要があるた め、”Identity Link”は良いものとは言えない。なぜなら、線形予測子 η は実数直線上のすべての値を取りうる が、µ > 0 であるからである。 そこで、クロス分類表(cross classified data)における各観測値が独立であるようなカウントデータに対す るモデルは、乗数的な効果として表すことになる。即ち、次のような対数リンク関数を考える。 η = logµ, µ = exp(η) (2.11) このようにすると、各説明変数が加法的に η に与える効果が、µ への乗数的な効果へと変換され、同時に µ > 0 となる。 6
7.
2 項分布の場合には、平均は 0
< µ < 1 の値をとるので、リンク関数はこの条件を満足するようにしなくて はならない。このようなリンク関数は複数存在している。 1. logit : η = log{µ/(1 − µ)} (2.12) 2. probit : Φ を正規分布の累積分布関数として、 η = Φ−1 (µ) (2.13) 3. complementary log-log(相補的な log-log) η = log{− log(1 − µ)} (2.14) また、観測値が正の平均値を持つ場合には、乗数的なリンク関数族(family)は重要な役割を果たす。この ようなリンク関数族は次のように記述される。 η = (µλ − 1)/λ (2.15) また、この極限値は η = log µ (λ → 0) (2.16) 2.4 十分統計量 正規分布、ポアソン分布、2 項分布、ガンマ分布、逆ガンマ分布は特別なリンク関数を持っている。上記の ような、正準パラメータ θ が用いられるとき、正準パラメータ θ が µ の関数として表される。このようなリン ク関数を正準リンク関数と呼ぶ。正準リンク関数は、次の性質を満たす。 θ = η (2.17) 正準パラメータは、実際に、(2.4) で用いたものと同様である。正準リンク関数は、各分布に対して以下のよう に定義される。 • 正規分布:η = µ • ポアソン分布:η = log µ • 2 項分布:η = log{π/(1 − π)} • ガンマ分布:η = µ−1 • 逆ガンマ分布:η = µ−2 7
8.
また、正準リンク関数の重要な性質として、正準リンク関数のもとで β の推定に対する十分統計量は、XT Y となるということがある。 ポアソン分布の正準リンク関数を導出する✓
✏ ポアソン分布はパラメータが 1 つなので、スケールパラメータは存在しないので a(φ) = 1 として議論を しても問題はない。ポアソン分布の確率関数は f(y; λ) = λx exp(−λ)/x! = exp{(y log(λ) − λ) − log(x!)} であるから、θ = log(λ), b(θ) = exp(θ) = λ とおけば指数型分布族であることが分かる。また、 さて、ここで正準リンク関数とは θ = η となるような関数のことであるから、log(λ) = η が正準リンク関 数である。ここで、ポアソン分布の平均は µ = λ であるから、log(µ) = η であることが分かる。よって、 正準リンク関数は log である。 ✒ ✑ 3 適合度 3.1 当てはめの相違 この節では、モデル適合度について記述する。ただし、モデル適合度の基準には様々なものがあるため、こ こでは尤度比に関して説明を行う。尤度比は逸脱度を測定する基準である。 n 個の観測値が観測されたとき、n 個以下のパラメータを持つモデルを当てはめることを考える。最も単純 なモデルは nullmodel と呼ばれ、1 つのパラメータしか持たないもので、すべての y に対して共通の µ で表 す。null モデルはこのように各 y 間の変動はすべてランダムな要素に委ねるようなモデルである。 一方で、フルモデルとは n 個のパラメータを用いる方法であり、各観測値毎にパラメータを設定する。つま り、各 µ はデータに正確に当てはまるように設定する。このようにフルモデルはすべてを系統的な要素で表 し、ランダム要素をなくすようなモデルである。 実際、null モデルは簡素過ぎるモデルであるし、フルモデルはデータを要約しないため意味のある情報は得 られない。しかしながら、フルモデルは、パラメータが p 個のモデルに対する逸脱度を測るための基準になる。 対数尤度関数を θ の関数と見るよりも、平均パラメータ µ の関数と見るほうが扱いやすい。そこで、対数 尤度関数を l(ˆµ, φ; y) を分散パラメータ φ を固定した状態で β について最大化することを考える。n 個のパラ メータのモデルにおける最大尤度は l(y, φ; y) である。正準パラメータの推定量を ˆθ = θ(ˆµ)、˜θ = θ(y) と書く ことにして、ai(φ) = φ/ωi と仮定すると、当てはまりの差は、2 つのモデルの最大尤度の差の 2 倍に比例する から、以下のように書くことができる。 2ωi{yi(˜θi − ˆθi) − b(˜θi) + b(ˆθi)}/φ = D(y; ˆµ)/φ (3.1) 8
9.
ここで、D(y; ˆµ) は用いているモデルの逸脱度として知られており、データから推定される。各分布に対す る逸脱度は以下のように表される。 •
正規分布: (y − ˆµ)2 • ポアソン分布: 2 {y log(y/ˆµ) − (y − ˆµ)} • 2項分布: 2 {y log(y/ˆµ) + (m − y) log[(m − y)/(m − ˆµ)]} • ガンマ分布: 2 {− log(y/ˆµ) + (y − ˆµ)/ˆµ} • 逆ガンマ分布: (y − ˆµ)/(ˆµ2 y) また、モデルの差の基準として重要な指標が、ピアソンの一般化 χ2 統計量である。これは次のように表さ れる。 χ2 = (y − ˆµ)2 /V (ˆµ) (3.2) ここで、V (ˆµ) は分布に対する分散関数である。正規分布に対しては、これは残差二乗和になり逸脱度の関 数と一致するが、一方でポアソン分布や 2 項分布に対しては本来の χ2 統計量であるだけで、逸脱度とは関係 なくなってしまう。よって、一般的には上記の逸脱度の関数を用いることにする。しかしながら、解釈の視点 からは χ2 統計量を用いる方が直感的に理解しやすいと考えることもできる。 3.2 逸脱度の解析 4 残差 4.1 ピアソン残差 4.2 アンスコム残差(Anscombe Residuals) 4.3 逸脱度残差(deviance residuals) 5 一般化線形モデルに対するアルゴリズム 参考文献 [1] McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN 0-412-31760-5. [2] Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370-384. 9
Download