More Related Content
Similar to 確率統計-機械学習その前に v2.0 (20)
確率統計-機械学習その前に v2.0
- 12. 回帰分析でわかること
傾きと切片
結果=傾き✕原因+切片
原因=説明変数、結果=目的変数、傾きは係数、切片は定数項と呼ばれる
先ほどの例だと「人時工数=97✕機能数+25000 」
切片は常に0と仮定し原点を通る前提で求めることも出来る
傾きや切片はEXCELを使うと簡単に求められる。
決定係数(R2)
当てはまりの良さを表す指標値。1に近いほど当てはまりはいい
おおむね相関係数の2乗と捉えていい(厳密にはいろいろある)
先ほどの例だと R2 = 0.08 ⇒ 当てはまりは良くない
決定係数もEXCELで簡単に求められる
有意性(p値)
効果がないのに効果があるとしてしまっていないかを判断する指標値。小さいほど有
意性が高い。
一般に p値<0.05 以下で統計的有意であると呼ばれる(5%有意)
先ほどの例だと p値 =0.00000002 ⇒ 有意
p値などを求める場合は、RやPythonを使う(EXCELでも計算できなくはない) 12
- 16. バイアス(偏り)
Garbage In Garbage Out (GIGO)
クズなデータからは、クズな結果しか得られない
16
選択バイアス 測定バイアス
母集団からサンプリングすると
きに生じる偏りのこと
• 標本抽出バイアス
• 自己選抜バイアス
• 脱落バイアス
• 生存(勝者)バイアス
• 所属バイアス
サンプルから得られる情報や情
報の受け手による偏りのこと
• 先入観バイアス
• 報告バイアス
• 測定バイアス
• 想起バイアス
• リードタイムバイアス
- 20. じゃあ、どうすればいいの?
1. 他の方法を使う
効果量の信頼区間:統計学者おすすめの方式
効果量:サンプル数に依存せずに関係の強さを表すことができる指標
情報量基準:変数が少なく予測精度が高い方が良いとする指標
AIC(赤池情報量基準)、BIC(ベイズ情報量規準)、WAIC、WBIC
ベイズ統計を使う:仮説が正しい確率を直接的に計算できる
⇒ いずれも p値ほど簡単に使えるものではない
2. 気にしない
論文書くならともかく、業務ならもっとカジュアルに使えばいい
たいていの場合、因果関係があるかないかは自ずと明らかでは?
データを眺めるだけでも気づきがある
そもそも、未知の要因は無数にあるため、因果関係を機械的な方法だけで
判定するのは無理がある
とはいえ、因果関係がある! と決めつける前に「そうでない可能性」
がないかは検討したほうがいい
特に時系列データには注意が必要(後述) 20
- 23. 統計モデルの種類
(一般)線形モデル (LM)
• 通常の単回帰/重回帰分析のモデルのこと
• 誤差分布は正規分布を仮定
一般化線形モデル (GLM)
• ロジスティック回帰:誤差がニ項分布。影響度合い
(オッズ比)を求めることができる。クラス分類手法とし
てもよく使われる
• ポアソン回帰:誤差がポアソン分布。影響割合(リスク
比)を求めることができる
一般化線形混合モデル (GLMM)
• 個体差、場所差といった、データに共通しない違い
(変量効果)を考慮できるよう拡張されたモデル
• 階層線形モデル (HLM)、マルチレベルモデル (ML)
とも呼ばれる
正規表現以外の誤差
分布を使いたい
23
グループごとに相関が
ある対象を分析したい
次の3モデルが基本。下に行くほど前提条件が緩くなり、その分推定が難しくなる
- 35. 参考文献
Takashi J. OZAKI「統計学と機械学習の違い」はどう論じたら良いのか」など
http://tjo.hatenablog.com/entry/2015/09/17/190000
https://tjo.hatenablog.com/entry/2013/04/23/190417
佐藤俊夫「回帰分析の語源」
http://satotoshio.net/blog/?p=1264
林岳彦「因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ」など
http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
http://takehiko-i-hayashi.hatenablog.com/entry/20130902/1378119705
アレックス・ラインハート「ダメな統計学」
http://id.fnshr.info/2014/12/17/stats-done-wrong-toc/
himaginary「新発見の統計的有意性のp値の閾値は5%から0.5%に下げよ」
http://d.hatena.ne.jp/himaginary/20170829/Redefine_Statistical_Significance
久保拓弥「GLMM の紹介 - GLM→GLMM→階層ベイズモデル」
http://hosho.ees.hokudai.ac.jp/~kubo/stat/2015/jssp/kubo2015jssp.pdf
Logics_of_Blue「時系列データへの回帰分析」
https://logics-of-blue.com/time-series-regression/
Hiroshi Shimizu「MCMCでマルチレベルモデル」
https://www.slideshare.net/simizu706/mcmc-35634309
35