SlideShare a Scribd company logo
1 of 28
データ解析のための
統計モデリング入門
2022年7月1日
後藤研 M2 YT
6.5~6.9
GLMの応用範囲を広げる
-ロジスティック回帰など-
/27
6章 GLMの応用範囲 2
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
/27
6.1-6.4 概要 3
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
/27
6.1-6.4 概要 4
6.3 二項分布で表現する「あり・なし」カウントデータ
• 「𝑁個の観察対象のうち𝑘個で反応がみられた」というタイプのデータにみられるばらつきをあら
わすために二項分布が使える
6.4 ロジスティック回帰とロジットリンク関数
• 生起確率と線形予測子を結びつけるロジットリンク関数を使ったGLMのあてはめは、ロジス
ティック回帰とよばれる
6.1
6.2
さまざまな種類のデータで応用できるGLM
例題:上限のあるカウントデータ
• GLMでは応答変数のばらつきを表現する確率分布はポアソン分布・二項分布・ガンマ分布な
どが選択できる
/27
6.5 交互作用項の入った線形予測子 5
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
/27
6.5 交互作用項の入った線形予測子 6
これまで使ってきた線形予測子
logit 𝑞𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + 𝛽3𝑓𝑖 1
施肥処理
体サイズ +
交互作用項の入った線形予測子
logit 𝑞𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + 𝛽3𝑓𝑖 + 𝛽4𝑥𝑖𝑓𝑖 2
施肥処理
体サイズ + 交互作用
+
ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果
𝑥𝑖:植物の体サイズ
𝑓𝑖:施肥処理
/27
6.5 交互作用項の入った線形予測子 7
図1 交互作用項が大きいため、
サイズ依存性が施肥処理によって大きく変わる場合の一例
Cは無処理、Tは施肥処理
生
存
種
子
数
𝑦
植物の体サイズ 𝑥
ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果
交互作用項の入った線形予測子
logit 𝑞𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + 𝛽3𝑓𝑖 + 𝛽4𝑥𝑖𝑓𝑖 2
施肥処理
体サイズ + 交互作用
+
/27
6.5 交互作用項の入った線形予測子 8
交互作用のあるモデル
交互作用項の導入は必ずしも良い結果に繋がらない
交互作用のないモデル
AIC = 272 AIC = 274
logit 𝑞𝑖 = −18.5 + 1.85𝑥𝑖 − 0.0638𝑓𝑖 + 0.216𝑥𝑖𝑓𝑖
logit 𝑞𝑖 = −19.5 + 1.95𝑥𝑖 + 2.02𝑓𝑖
図2 交互作用の有無を調べる図示
交互作用を追加してもほとんど変化しない
生
存
種
子
数
𝑦
植物の体サイズ 𝑥
生
存
種
子
数
𝑦
植物の体サイズ 𝑥
/27
6.5 交互作用項の入った線形予測子 9
交互作用項の導入を行う上でやってはいけないこと
1
2
交互作用項の
むやみな追加
AICのみでの評価
• 説明変数が多い場合、「組合せ論的爆発」で増加
してパラメータ推定が困難になる
• それが何を表しているのか解釈できなくなること
がある
• 現実問題では、交互作用項を多く含むモデルのAIC
が最良になることがよくあるが、交互作用項の効果
を過大推定している可能性がある
• 現実のデータでは、説明変数では説明できない「個
体差」「場所差」が発生するが、それらを考慮しない
GLMを当てはめると過度に複雑なモデルが最良とな
る傾向がある
/27
6.6 割算値の統計モデリングはやめよう 10
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
/27
観測データに対してやりがちな割算値の算出や変数変換は、
不必要であるばかりでなく、場合によっては間違った結果を導きかねない
6.6 割算値の統計モデリングはやめよう 11
情報の消失
1000打数300安打の打者と10打数
3安打の打者は、どちらも同じ程度に
確からしい「三割打者」ではなく、
確からしさの情報が消失
変換された値の分布が不明
分子・分母にそれぞれ誤差の入った
数量同士を割算して作られた
割算値が、どのような確率分布に
したがうのか不明
割算値
(観測データ) / (観測データ)
変数変換
log (観測データ) ・ avg (観測データ)
/27
オフセット項の導入で割算値を使わずに推定が可能
例題:人口密度を求めたいとき
6.6.1 割算値いらずのオフセット項わざ 12
• 森林のあちこちに調査地100箇所を設置した({𝑖 ∈ 1,2,∙∙∙, 100})
• 調査地 𝑖 ごとにその面積 𝐴𝑖 が異なる
• 調査地 𝑖 の「明るさ」𝑥𝑖を測っている
• 調査地 𝑖 における植物個体数 𝑦𝑖 を記録した
• (解析の目的) 調査地 𝑖 における植物個体の「人口密度」が 「明るさ」𝑥𝑖にどう影
響されているか知りたい
植
物
の
個
体
数
調査地の面積 𝐴𝑖
明
る
さ
𝑥𝑖
観測データ
図3 オフセット項を利用するGLMを説明するための例題
/27
例題:人口密度を求めたいとき
面積が 𝐴𝑖 である調査地 𝑖 における人口密度は
平均個体数 λ𝑖
𝐴𝑖
= 人口密度
人口密度は正の量であるため、指数関数と明るさ 𝑥𝑖 依存性を組み合わせて、
以下のようにモデル化したとする
𝜆𝑖 = 𝐴𝑖 × 人口密度
= 𝐴𝑖 × exp 𝛽1 + 𝛽2𝑥𝑖
= exp 𝛽1 + 𝛽2𝑥𝑖 + log 𝐴𝑖
よって、線形予測子は以下のように与えられる
線形予測子 :𝑧𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + log 𝐴𝑖
対数リンク関数:ポアソン分布
6.6.1 割算値いらずのオフセット項わざ 13
オフセット項
=パラメータがつかない項
(3)
/27
オフセット項わざの使いどころ
6.6.1 割算値いらずのオフセット項わざ 14
• GLM(とそれを発展させた統計モデル)で応用可能
• 「単位○○あたりのカウントデータ」 や 「(連続値)/(連続値)」となる
比率・密度などに使用可能
調査地の面積 𝐴𝑖
植
物
の
個
体
数
明
る
さ
𝑥𝑖
推定されたモデルによる予測
図4 オフセット項を利用するGLMを説明するための例題
明るさ 𝑥𝑖 ∈ {0.1、0.3、0.5、0.7、0.9}ごとに平均個体数を予測した
/27
6.7 正規分布とその尤度 15
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
/27
正規分布
平均値 𝜇、標準偏差 𝜎 をパラメータとする正規分布の数式表現は以下で表される
𝑝 𝑦 𝜇, 𝜎 =
1
2𝜋𝜎2
exp −
𝑦 − 𝜇 2
2𝜎2
6.7 正規分布とその尤度 16
図5 正規分布の確率密度関数
横軸は確率変数 𝑦、縦軸は確率密度
確
率
密
度
4
/27
確率 = 確率密度関数 × ∆𝒚
正規分布の確率密度関数を 𝑝 𝑦 𝜇, 𝜎) とすると、
確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝜇, 𝜎) は ‫׬‬1.2
1.8
𝑝 𝑦 𝜇, 𝜎) 𝑑𝑦 とあらわすことができる
6.7 正規分布とその尤度 17
図6 正規分布の確率密度関数
横軸は確率変数 𝑦、縦軸は確率密度
領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす
確
率
密
度
確
率
密
度
確
率
密
度
𝜇 = 0、𝜎 = 1 𝜇 = 0、𝜎 = 3 𝜇 = 2、𝜎 = 1
/27
確率密度関数の尤度計算方法
ある 𝑦𝑖 が 𝑦𝑖 − 0.5∆𝑦 ≤ 𝑦 ≤ 𝑦𝑖 + 0.5∆𝑦 である確率は、確率密度関数 𝒑 𝒚 𝝁, 𝝈) と区間幅 ∆𝒚
の積であると近似できるため、正規分布を使った統計モデルの尤度関数は以下で表せる
𝐿 𝜇, 𝜎 = ෑ
𝑖
𝑝 𝑦 𝜇, 𝜎)∆𝑦
= ෑ
𝑖
1
2𝜋𝜎2
exp −
(𝑦 − 𝜇)2
2𝜎2
∆𝑦
したがって、対数尤度関数は以下のようになる
log 𝐿 𝜇, 𝜎 = −0.5𝑁log 2𝜋𝜎2
−
1
2𝜎2
෍
𝑖
𝑦𝑖 − 𝜇 2
+ 𝑁log(∆𝑦)
ただし、𝑁log(∆𝑦)は定数でありパラメータ {𝜇, 𝜎} の最尤推定値に影響を与えないため、
尤度関数や対数尤度関数の表記では、𝑵𝐥𝐨𝐠(∆𝒚)を無視して省略することが多い
6.7 正規分布とその尤度 18
5
6
/27
正規分布における最尤推定法と最小二乗法の関係
対数尤度関数 : log 𝐿 𝜇, 𝜎 = −0.5𝑁log 2𝜋𝜎2
−
1
2𝜎2
σ𝑖 𝑦𝑖 − 𝜇 2
𝝈 が 𝝁 と無関係な定数であるとすると、
二乗誤差の和 σ𝑖 𝑦𝑖 − 𝜇 2 を最小にするパラメータ Ƹ
𝜇 において、 log 𝐿 𝜇, 𝜎 が最大となる
対数尤度関数の最大化 = σ𝑖 𝑦𝑖 − 𝜇 2の最小化
つまり、直線回帰は、正規分布を部品とするGLMであり、
「線形予測子: 𝑧𝑖 = 𝛽1 + 𝛽2𝑥𝑖 」 ・ 「恒等リンク関数を使い平均を 𝜇𝑖 = 𝑧𝑖」とした
GLMの最尤推定法によるパラメーター推定と、最小二乗法による直線の当てはめは
同等なものとみなすことができる
また、 𝜎 が出てこないことから、最小二乗法は標準偏差を無視してしまっているとわかる
6.7 正規分布とその尤度 19
7
/27
6.8 ガンマ分布のGLM 20
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
/27
ガンマ分布
ガンマ分布は確率変数のとりうる範囲が0以上の連続確率分布であり、
確率密度関数は、shapeパラメータ 𝑠、rateパラメータ 𝑟 、ガンマ関数 Γ ∙ を用いて
以下で定義される
𝑝 𝑦 𝑠, 𝑟 =
𝑟𝑠
Γ(𝑠)
𝑦𝑠−1 exp(−𝑟𝑦)
ガンマ分布の平均は 𝑠/𝑟、分散は 𝑠/𝑟2 で表せ、分散=平均/𝒓 の関係が成り立っている
6.8 ガンマ分布のGLM 21
図7 ガンマ分布の確率密度関数
横軸は確率変数 𝑦、縦軸は確率密度
確
率
密
度
8
/27
確率 = 確率密度関数 × ∆𝒚
ガンマ分布の確率密度関数を 𝑝 𝑦 𝑠, 𝑟) とすると、
確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝑠, 𝑟) は ‫׬‬1.2
1.8
𝑝 𝑦 𝑠, 𝑟) 𝑑𝑦 とあらわすことができる
6.8 ガンマ分布のGLM 22
図8 ガンマ分布の確率密度関数
横軸は確率変数 𝑦、縦軸は確率密度
領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす
確
率
密
度
確
率
密
度
確
率
密
度
𝑟 = 𝑠 = 1 𝑟 = 𝑠 = 5 𝑟 = 𝑠 = 0.1
/27
応答変数 𝒚𝒊 が正の量の場合は正規分布ではなくガンマ分布を仮定
例題:花の重量 𝑦𝑖 と葉の重量 𝑥𝑖 の関係を調べたいとき
6.8 ガンマ分布のGLM 23
• ある個体の花の重量 𝑦𝑖 が平均 𝜇𝑖 のガンマ分布に従っているとする
• 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖 の単調増加関数であり、さらに何らかの生物学的
根拠があり、 𝜇𝑖 = 𝐴𝑥𝑖
𝑏
と表せるとする
花
重
量
𝑦𝑖
葉重量 𝑥𝑖
観測データ
図9 ガンマ分布を使ったGLMの例題
横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦
/27
例題:花の重量 𝒚𝒊 と葉の重量 𝒙𝒊 の関係を調べたいとき
平均花重量 𝜇𝑖 が葉重量 𝑥𝑖 を用いて、 𝜇𝑖 = 𝐴𝑥𝑖
𝑏
と表せるとき、𝐴 = exp(𝑎) とおくと、
𝜇𝑖 = exp 𝑎 𝑥𝑖
𝑏
= exp(𝑎 + 𝑏log𝑥𝑖)
この両辺に対数をとると、
log𝜇𝑖 = 𝑎 + 𝑏log𝑥𝑖
となり、線形予測子 𝑎 + 𝑏log𝑥𝑖 と対数リンク関数を使って平均 𝜇𝑖 が与えられる
6.8 ガンマ分布のGLM 24
(9)
図10 ガンマ分布を使ったGLMの例題
横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦、赤い曲線は平均の予測
推定されたモデルによる予測
(10)
/27
25
適用例 確率分布 リンク関数 その他の特徴
6.1-6.4 生存確認の予測 二項分布 logit ー
6.5 生存確認の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン分布 対数リンク オフセット
6.7 連続値データ 正規分布 ー
連続値の
最尤推定
6.8
確率変数が
0以上の連続値
ガンマ分布 対数リンク ー
6.9 まとめ
6.9 まとめ
/27
26
6.5 交互作用項の入った線形予測子
• 線形予測子の構成要素として、複数の説明変数の積の効果をみる交互作用項が使える
6.6 割算値の統計モデリングはやめよう
• データ解析でしばしばみられる観測値どうしの割算値作成や、応答変数の変数変換の問題点
をあげ、ロジスティック回帰やオフセット項の工夫をすれば、情報消失の原因となる「データの
加工」は不要になる
6.7
6.8
正規分布とその尤度
ガンマ分布のGLM
• 連続値の確率変数のばらつきを表現する確率分布としては、正規分布・ガンマ分布などがあり、
これらを統計モデルの部品として使うときには、離散値と連続値の確率分布のちがいに注意し
なければならない
6.9 まとめ
/27
参考文献 27
[1] 久保拓弥、データ解析のための統計モデリング入門、岩波書店、2012.
ご清聴ありがとうございました

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

データ解析のための統計モデリング入門-6章後半

  • 2. /27 6章 GLMの応用範囲 2 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  • 3. /27 6.1-6.4 概要 3 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  • 4. /27 6.1-6.4 概要 4 6.3 二項分布で表現する「あり・なし」カウントデータ • 「𝑁個の観察対象のうち𝑘個で反応がみられた」というタイプのデータにみられるばらつきをあら わすために二項分布が使える 6.4 ロジスティック回帰とロジットリンク関数 • 生起確率と線形予測子を結びつけるロジットリンク関数を使ったGLMのあてはめは、ロジス ティック回帰とよばれる 6.1 6.2 さまざまな種類のデータで応用できるGLM 例題:上限のあるカウントデータ • GLMでは応答変数のばらつきを表現する確率分布はポアソン分布・二項分布・ガンマ分布な どが選択できる
  • 5. /27 6.5 交互作用項の入った線形予測子 5 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  • 6. /27 6.5 交互作用項の入った線形予測子 6 これまで使ってきた線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + 𝛽3𝑓𝑖 1 施肥処理 体サイズ + 交互作用項の入った線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + 𝛽3𝑓𝑖 + 𝛽4𝑥𝑖𝑓𝑖 2 施肥処理 体サイズ + 交互作用 + ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果 𝑥𝑖:植物の体サイズ 𝑓𝑖:施肥処理
  • 7. /27 6.5 交互作用項の入った線形予測子 7 図1 交互作用項が大きいため、 サイズ依存性が施肥処理によって大きく変わる場合の一例 Cは無処理、Tは施肥処理 生 存 種 子 数 𝑦 植物の体サイズ 𝑥 ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果 交互作用項の入った線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + 𝛽3𝑓𝑖 + 𝛽4𝑥𝑖𝑓𝑖 2 施肥処理 体サイズ + 交互作用 +
  • 8. /27 6.5 交互作用項の入った線形予測子 8 交互作用のあるモデル 交互作用項の導入は必ずしも良い結果に繋がらない 交互作用のないモデル AIC = 272 AIC = 274 logit 𝑞𝑖 = −18.5 + 1.85𝑥𝑖 − 0.0638𝑓𝑖 + 0.216𝑥𝑖𝑓𝑖 logit 𝑞𝑖 = −19.5 + 1.95𝑥𝑖 + 2.02𝑓𝑖 図2 交互作用の有無を調べる図示 交互作用を追加してもほとんど変化しない 生 存 種 子 数 𝑦 植物の体サイズ 𝑥 生 存 種 子 数 𝑦 植物の体サイズ 𝑥
  • 9. /27 6.5 交互作用項の入った線形予測子 9 交互作用項の導入を行う上でやってはいけないこと 1 2 交互作用項の むやみな追加 AICのみでの評価 • 説明変数が多い場合、「組合せ論的爆発」で増加 してパラメータ推定が困難になる • それが何を表しているのか解釈できなくなること がある • 現実問題では、交互作用項を多く含むモデルのAIC が最良になることがよくあるが、交互作用項の効果 を過大推定している可能性がある • 現実のデータでは、説明変数では説明できない「個 体差」「場所差」が発生するが、それらを考慮しない GLMを当てはめると過度に複雑なモデルが最良とな る傾向がある
  • 10. /27 6.6 割算値の統計モデリングはやめよう 10 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  • 12. /27 オフセット項の導入で割算値を使わずに推定が可能 例題:人口密度を求めたいとき 6.6.1 割算値いらずのオフセット項わざ 12 • 森林のあちこちに調査地100箇所を設置した({𝑖 ∈ 1,2,∙∙∙, 100}) • 調査地 𝑖 ごとにその面積 𝐴𝑖 が異なる • 調査地 𝑖 の「明るさ」𝑥𝑖を測っている • 調査地 𝑖 における植物個体数 𝑦𝑖 を記録した • (解析の目的) 調査地 𝑖 における植物個体の「人口密度」が 「明るさ」𝑥𝑖にどう影 響されているか知りたい 植 物 の 個 体 数 調査地の面積 𝐴𝑖 明 る さ 𝑥𝑖 観測データ 図3 オフセット項を利用するGLMを説明するための例題
  • 13. /27 例題:人口密度を求めたいとき 面積が 𝐴𝑖 である調査地 𝑖 における人口密度は 平均個体数 λ𝑖 𝐴𝑖 = 人口密度 人口密度は正の量であるため、指数関数と明るさ 𝑥𝑖 依存性を組み合わせて、 以下のようにモデル化したとする 𝜆𝑖 = 𝐴𝑖 × 人口密度 = 𝐴𝑖 × exp 𝛽1 + 𝛽2𝑥𝑖 = exp 𝛽1 + 𝛽2𝑥𝑖 + log 𝐴𝑖 よって、線形予測子は以下のように与えられる 線形予測子 :𝑧𝑖 = 𝛽1 + 𝛽2𝑥𝑖 + log 𝐴𝑖 対数リンク関数:ポアソン分布 6.6.1 割算値いらずのオフセット項わざ 13 オフセット項 =パラメータがつかない項 (3)
  • 14. /27 オフセット項わざの使いどころ 6.6.1 割算値いらずのオフセット項わざ 14 • GLM(とそれを発展させた統計モデル)で応用可能 • 「単位○○あたりのカウントデータ」 や 「(連続値)/(連続値)」となる 比率・密度などに使用可能 調査地の面積 𝐴𝑖 植 物 の 個 体 数 明 る さ 𝑥𝑖 推定されたモデルによる予測 図4 オフセット項を利用するGLMを説明するための例題 明るさ 𝑥𝑖 ∈ {0.1、0.3、0.5、0.7、0.9}ごとに平均個体数を予測した
  • 15. /27 6.7 正規分布とその尤度 15 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  • 16. /27 正規分布 平均値 𝜇、標準偏差 𝜎 をパラメータとする正規分布の数式表現は以下で表される 𝑝 𝑦 𝜇, 𝜎 = 1 2𝜋𝜎2 exp − 𝑦 − 𝜇 2 2𝜎2 6.7 正規分布とその尤度 16 図5 正規分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 確 率 密 度 4
  • 17. /27 確率 = 確率密度関数 × ∆𝒚 正規分布の確率密度関数を 𝑝 𝑦 𝜇, 𝜎) とすると、 確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝜇, 𝜎) は ‫׬‬1.2 1.8 𝑝 𝑦 𝜇, 𝜎) 𝑑𝑦 とあらわすことができる 6.7 正規分布とその尤度 17 図6 正規分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす 確 率 密 度 確 率 密 度 確 率 密 度 𝜇 = 0、𝜎 = 1 𝜇 = 0、𝜎 = 3 𝜇 = 2、𝜎 = 1
  • 18. /27 確率密度関数の尤度計算方法 ある 𝑦𝑖 が 𝑦𝑖 − 0.5∆𝑦 ≤ 𝑦 ≤ 𝑦𝑖 + 0.5∆𝑦 である確率は、確率密度関数 𝒑 𝒚 𝝁, 𝝈) と区間幅 ∆𝒚 の積であると近似できるため、正規分布を使った統計モデルの尤度関数は以下で表せる 𝐿 𝜇, 𝜎 = ෑ 𝑖 𝑝 𝑦 𝜇, 𝜎)∆𝑦 = ෑ 𝑖 1 2𝜋𝜎2 exp − (𝑦 − 𝜇)2 2𝜎2 ∆𝑦 したがって、対数尤度関数は以下のようになる log 𝐿 𝜇, 𝜎 = −0.5𝑁log 2𝜋𝜎2 − 1 2𝜎2 ෍ 𝑖 𝑦𝑖 − 𝜇 2 + 𝑁log(∆𝑦) ただし、𝑁log(∆𝑦)は定数でありパラメータ {𝜇, 𝜎} の最尤推定値に影響を与えないため、 尤度関数や対数尤度関数の表記では、𝑵𝐥𝐨𝐠(∆𝒚)を無視して省略することが多い 6.7 正規分布とその尤度 18 5 6
  • 19. /27 正規分布における最尤推定法と最小二乗法の関係 対数尤度関数 : log 𝐿 𝜇, 𝜎 = −0.5𝑁log 2𝜋𝜎2 − 1 2𝜎2 σ𝑖 𝑦𝑖 − 𝜇 2 𝝈 が 𝝁 と無関係な定数であるとすると、 二乗誤差の和 σ𝑖 𝑦𝑖 − 𝜇 2 を最小にするパラメータ Ƹ 𝜇 において、 log 𝐿 𝜇, 𝜎 が最大となる 対数尤度関数の最大化 = σ𝑖 𝑦𝑖 − 𝜇 2の最小化 つまり、直線回帰は、正規分布を部品とするGLMであり、 「線形予測子: 𝑧𝑖 = 𝛽1 + 𝛽2𝑥𝑖 」 ・ 「恒等リンク関数を使い平均を 𝜇𝑖 = 𝑧𝑖」とした GLMの最尤推定法によるパラメーター推定と、最小二乗法による直線の当てはめは 同等なものとみなすことができる また、 𝜎 が出てこないことから、最小二乗法は標準偏差を無視してしまっているとわかる 6.7 正規分布とその尤度 19 7
  • 20. /27 6.8 ガンマ分布のGLM 20 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  • 21. /27 ガンマ分布 ガンマ分布は確率変数のとりうる範囲が0以上の連続確率分布であり、 確率密度関数は、shapeパラメータ 𝑠、rateパラメータ 𝑟 、ガンマ関数 Γ ∙ を用いて 以下で定義される 𝑝 𝑦 𝑠, 𝑟 = 𝑟𝑠 Γ(𝑠) 𝑦𝑠−1 exp(−𝑟𝑦) ガンマ分布の平均は 𝑠/𝑟、分散は 𝑠/𝑟2 で表せ、分散=平均/𝒓 の関係が成り立っている 6.8 ガンマ分布のGLM 21 図7 ガンマ分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 確 率 密 度 8
  • 22. /27 確率 = 確率密度関数 × ∆𝒚 ガンマ分布の確率密度関数を 𝑝 𝑦 𝑠, 𝑟) とすると、 確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝑠, 𝑟) は ‫׬‬1.2 1.8 𝑝 𝑦 𝑠, 𝑟) 𝑑𝑦 とあらわすことができる 6.8 ガンマ分布のGLM 22 図8 ガンマ分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす 確 率 密 度 確 率 密 度 確 率 密 度 𝑟 = 𝑠 = 1 𝑟 = 𝑠 = 5 𝑟 = 𝑠 = 0.1
  • 23. /27 応答変数 𝒚𝒊 が正の量の場合は正規分布ではなくガンマ分布を仮定 例題:花の重量 𝑦𝑖 と葉の重量 𝑥𝑖 の関係を調べたいとき 6.8 ガンマ分布のGLM 23 • ある個体の花の重量 𝑦𝑖 が平均 𝜇𝑖 のガンマ分布に従っているとする • 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖 の単調増加関数であり、さらに何らかの生物学的 根拠があり、 𝜇𝑖 = 𝐴𝑥𝑖 𝑏 と表せるとする 花 重 量 𝑦𝑖 葉重量 𝑥𝑖 観測データ 図9 ガンマ分布を使ったGLMの例題 横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦
  • 24. /27 例題:花の重量 𝒚𝒊 と葉の重量 𝒙𝒊 の関係を調べたいとき 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖 を用いて、 𝜇𝑖 = 𝐴𝑥𝑖 𝑏 と表せるとき、𝐴 = exp(𝑎) とおくと、 𝜇𝑖 = exp 𝑎 𝑥𝑖 𝑏 = exp(𝑎 + 𝑏log𝑥𝑖) この両辺に対数をとると、 log𝜇𝑖 = 𝑎 + 𝑏log𝑥𝑖 となり、線形予測子 𝑎 + 𝑏log𝑥𝑖 と対数リンク関数を使って平均 𝜇𝑖 が与えられる 6.8 ガンマ分布のGLM 24 (9) 図10 ガンマ分布を使ったGLMの例題 横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦、赤い曲線は平均の予測 推定されたモデルによる予測 (10)
  • 25. /27 25 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ 6.9 まとめ
  • 26. /27 26 6.5 交互作用項の入った線形予測子 • 線形予測子の構成要素として、複数の説明変数の積の効果をみる交互作用項が使える 6.6 割算値の統計モデリングはやめよう • データ解析でしばしばみられる観測値どうしの割算値作成や、応答変数の変数変換の問題点 をあげ、ロジスティック回帰やオフセット項の工夫をすれば、情報消失の原因となる「データの 加工」は不要になる 6.7 6.8 正規分布とその尤度 ガンマ分布のGLM • 連続値の確率変数のばらつきを表現する確率分布としては、正規分布・ガンマ分布などがあり、 これらを統計モデルの部品として使うときには、離散値と連続値の確率分布のちがいに注意し なければならない 6.9 まとめ