SlideShare a Scribd company logo
1 of 25
Download to read offline
5/11/2014 1
がうす・まるこふの定理 とかそのへん
@tanimocchi
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 2
自己紹介
 Twitter ID: @tanimocchi
(もっちぃ)
 数学科出身、博士(情報科学)
 所属:タヒにかけ半導体
 仕事:マーケティングなのか?
新規事業開拓なのか?
 統計解析は必要! だと信じてる
 統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。
 アンケート設計・分析にも従事
今回の資料には、RやPythonなどのコードは一切ないです!
また、対象は「線形モデル」のみに限定しています!!
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 3
出典:「自然科学の統計学 (基礎統計学)」
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
「第2章 線形モデルと最小二乗法」から適当につまんだ感じ
5/11/2014 4
不偏性って?
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5
不遍性って?
 全ての可能な標本それぞれに対して求めた推定量の期
待値 が、母集団特性値 に一致:    ˆE ˆE 
Dˆ推定量:
Cˆ推定量:
Aˆ推定量:
Bˆ推定量:
    ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値 
:母集団特性値
5/11/2014 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 6
誤差の仮定と標本平均
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 7
誤差εiの仮定
 仮定
 仮定の多次元拡張
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  
  
    jiCov
V
E
ji
i
i



0,
0
2



無相関性:ⅲ
等分散性:ⅱ
普遍性 :ⅰ
    
   
  誤差ベクトル:
:単位行列:零ベクトル、ここで、 
無相関性:等分散性ⅲⅱ
平均ベクトル :普遍性       ⅰ
,,
,
1
2




n
V
E


ε
I0
Iε
0ε
              
   
     
     
     
I
εεε
εεεεyyyyy
2
21
2212
1211
,,
,,
,,
,





















nnn
n
n
VCovCov
CovVCov
CovCovV
VCov
EEEEEEV




5/11/2014 8
線形モデル
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
 
 
 
  
        XθεXθεXθyεXθy
X
θ
y
ε
I
0








EEEE
pnM
yy
n
n
n
1
,,
,,
,,
,,
1
1
1
   線形モデル 
画行列実験の計画で定まる計の元:既知係数行列 
未知母数ベクトル:
観測値ベクトル:
誤差ベクトル:
:単位行列
:零ベクトル 





5/11/2014 9
標本平均の性質:BLUE
 命題:標本平均は線形結合で表される不偏推定量の中で最小分散
(最良線形不偏推定量:BLUE(Best Linear Unbiased Estimator))
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
    
             
       
 
   
 
    で分散最小このとき
  より、 
件は、 であり、等号成立条相乗の関係から、  相加
    
が不偏性を持つ事から一方、
  
  
と書く。ここで、線形結合を
nn
lylV
y
n
y
ylni
n
llll
ll
n
lllylEylE
ylEyl
lyVlylVylV
VEEEyEyV
yEyyl
n
i
n
i i
n
i ii
n
i
in
i iiin
n
i
n
i
n
i i
n
i i
n
i i
n
i i
n
i ii
n
i ii
n
i ii
n
i ii
n
i i
n
i ii
n
i ii
n
i ii
iiiiii
iii
n
i ii
2
2
1
2
2
1
2
1
11
22
2
2
1
2
11
2
11111
11
2
1
2
1
2
11
22222
1
1
1
1
1
1,














































5/11/2014 10
最小二乗法
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 11
最小二乗法の原理
 母数θのある係数l=(l1,…,lp)Tによる線形結合
の線形推定量を考える。
 一般のXに対して、lが与えられる度にlTθのBLUEを直接求める事は可能
ではあるにしても煩雑。
 そこでlとは無関係にデータyとその期待値の偏差二乗和
を最小にする解 を求めておき、単に とする事で、 のBLUE
を求めようというのが、最小二乗法の原理
⇒ ガウス・マルコフの定理
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
     XθyXθyXθyθS 
2
ppll  
11θl
θθ

 θl

θl
5/11/2014 12
正規方程式
 最小二乗法の の満たす方程式
 正規方程式の解 が偏差二乗和 を最小化
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
        
        
 の正規方程式   θyXXθX
0XθXyXyX
θXXXX
θ
yXθ
θ
θyX
θ
XθXθ
θ
yXθ
θ
Xθy
θ
θS
XθXθyXθXθyyyXθyXθyXθyXθyθS


























2
θ
  wAA
w
Aww
a
x
ax
x
xa 










,
微分の公式
θ

 θS
           
               
         θSXθθXXθθXθXyθXy
θXyXθθXXθθXθXyXθθXXθθXθXyθXy
θθXθXyθθXθXyXθyXθyθS









=0
       
     
               
               
    0









θXXθθXXθθXXθθθXX
θXXθθXXθθXXθθXXθθθXXθXXθθθXXθθXX
θXXθyXθθXXθyXθθθXXθXXθθyXθyX
θXyXθXθXθθXXθy
θXyXθθXXθθXθXy





5/11/2014 13
推定可能関数
 任意の線形式 が推定可能とは限らない。
 実際、 のランクが未知母数の次元pより小さいと、 より、正規方程式
の解は不定となり、 は一意に定まらない。
 尚、偏差二乗和 は下に凸な二次式であり、正規方程式は の極小値を与え
る条件であるため、正規方程式の解が不能となる事はない。
 線形モデル の母数に関する整形式 で、 の線形式から
成る不偏推定量が存在するものを推定可能関数(Estimable Function)
という。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
θl
X PM
XX
yXXθX 

θ

 θS  θS
 εXθy  θl
y
5/11/2014 14
ガウス・マルコフの定理
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 15
ガウス・マルコフの定理
 推論を推定可能モデルに限りと、最小二乗法に関する基本定理である、
次の定理が成り立つ。
 証明の方針
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
 
乗解。を満たす任意の最小二
は、正規方程式を与える。但し、が一意に
について、能関数に関する任意の推定可 線形モデル
理ガウス・マルコフの定
yXθXXθθθl
θlεXθy





TheoremsMarkov'-Gauss
BLUE
   
 
を持つ。
  
小二乗解正規方程式も一意な最
り、自身も、推定可能であ関数が、従ってこの場合、任意の線形
のときのみ示す。の次元がフルランク、即ち
yXXXθ
θ
θXX



1
prank
5/11/2014 16
証明 [1/3]
 不偏性
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
 
       
     
    

















pp
ii
i
piEE
EE












,,,,,
1
0,0,1,0,,0
2121
11
1
θθ
θlθl
l
θlθl
θlXθXXXlyXXXlθl
yXXXlθl
θl
ここで、
となる事に注意。と置くと、
  
がわかる。特にの不偏推定量である事がとなって、
  
、操作が線形であるためを構成すると、期待値
  
に対して、今、任意の線形式
        XθεXθεXθy  EEEE 1
5/11/2014 17
証明 [2/3]
 最小分散性 [1/2]
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
 
  
 
 
   
       
          
が成り立つ。
  
の分散はが成り立つから、
  
に対し、確率変数 次に、一般に2つの
が成り立つ。従って、
  
ここで、
  
ってとなるべきであり、よ
  
偏性からと置く。このとき、不
  
両者の差を
を考え、不偏推定量とは別に、勝手な線形次に
ybybyXXXlθlybθlyL
yL
0Xb
Xθbθ
Xθbybyb
ybθ
θlyLθ
ybyLXXXlyLθl
yLyθl


















VCovVVV
YVYXCovXVYXV
YX
EE
E
E
,2
,2
,
0,
0,
,
:
t
1
1



5/11/2014 18
証明 [3/E]
 最小分散性 [2/E]
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
 
       
    
 
     
          
     
        
         
のときに成立。、即ち尚等号は、である事が示された。
が量だったから、これでは任意の線形不偏推定ここで、
分散は常に非負    
  
となる事から
  
  
    
  
  
  
  
の共分散は
  
確率変数を満たすとき、2つの定が無相関、等分散の仮 一方、誤差
0
BLUE
0,
,,,
0
,
,
V
111
22
,
2
,
2
θlyLyb
θlyL
θlybθlyL
yXbXXlbyXXXlybyXXXl
ba
εbεa
εεbεaεεbaεεba
XθXθθaεεbaεXθbεXθaXθXθa
XθXθθaεεbaXθθbXθθaXθXθa
XθXθθaεXθbεXθa
ybyayybaybya
ybya
Iσεε
































VVVV
Cov
baba
CovbabaCovCov
EEEEE
EEE
E
E
EEECov
ybya
i
ii
ji
ijji
ji
jijijjii
iiii


5/11/2014 19
最小二乗推定量の分散
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 20
最小二乗推定量の分散
 一般に線形推定量は任意の線形式
と表す事ができる。したがって、その分散は
のように求める事が出来る。特に がフルランクの場合、推定量
の分散は、
で与えられる。
 特に、 自体の分散は、 とおけば、 の対角要素から
として求められ、同様に
のように表す事ができる。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
   
ii yLt yLy
      22
LLyL 
  iiii yVLyLVV
X
  yXXXlθl 

1

 L
             21211211
 lXXllXXXXXXlXXXlXXXlθl





V
i







 0,,0,1,0,,0 


i
l XX
     要素の jiV i ,21


 XX

     要素の jiCov ji ,, 21


 XX

5/11/2014 21
最小二乗推定量の
標本分布
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 22
正規線形モデル
 線形モデル では、誤差に関して、
だけを仮定し、特別な分布を想定していない。
 以下、
を仮定し、正規線形モデル(Normal Linear Model)に関して、最小二乗
推定量の標本分布を考察
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
 εXθy 
    
   
  誤差ベクトル:
:単位行列:零ベクトル、ここで、 
無相関性:等分散性ⅲⅱ
平均ベクトル :普遍性       ⅰ
,,
,
1
2




n
V
E


ε
I0
Iε
0ε
 I0ε 2
..
,N
dii
~
5/11/2014 23
最小二乗推定量の標本分布 [1/2]
 正規線形モデルの場合、BLUEは更に強い最適性を持つ。
 推定量 は、線形関数に限らず、全ての不偏推定量の中で考えても、最小分散の不
偏推定量(証明略)
 最小二乗推定量は の線形結合だから、再び正規分布に従うので、平均
と分散が求まれば標本分布が定まる。
 任意の推定可能関数 についても、そのBLUEである最小二乗推定
の期待値は であり、分散は、
特に、 がフルランクならば
となる。従って、最小二乗推定量の は以下の正規分布に従う。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
y
y
θl
θl

θl
    
iiiii yLLyLV θl

 ここで、22

X
    21
lXXlθl



V
θl

   
     prankifN
prankifLN i




XlXXlθl
Xθl
    
       
21
22
,
,

 
5/11/2014 24
最小二乗推定量の標本分布 [2/E]
 特に、 とすると、フルランクの場合、各傾き 及び、
それを纏めた は以下を満たす。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
i

    
   ~
 成分の~
21
21
,
,,




XXθθ
XX
N
iiN ii








 0,,0,1,0,,0 


i
l
θ

5/11/2014 38th Tokyo.R 25
Thanks a lot!

More Related Content

What's hot

無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)Shuyo Nakatani
 
非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2ndMika Yoshimura
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門Momoko Hayamizu
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールhoxo_m
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考Ichigaku Takigawa
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
リスクベースポートフォリオの高次モーメントへの拡張
リスクベースポートフォリオの高次モーメントへの拡張リスクベースポートフォリオの高次モーメントへの拡張
リスクベースポートフォリオの高次モーメントへの拡張Kei Nakagawa
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)Tatsuya Yokota
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
 
アセットアロケーションの未来
アセットアロケーションの未来アセットアロケーションの未来
アセットアロケーションの未来Kei Nakagawa
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM. .
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 

What's hot (20)

無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
リスクベースポートフォリオの高次モーメントへの拡張
リスクベースポートフォリオの高次モーメントへの拡張リスクベースポートフォリオの高次モーメントへの拡張
リスクベースポートフォリオの高次モーメントへの拡張
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 
アセットアロケーションの未来
アセットアロケーションの未来アセットアロケーションの未来
アセットアロケーションの未来
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 

Viewers also liked

第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編T T
 
みどりぼん3章前半
みどりぼん3章前半みどりぼん3章前半
みどりぼん3章前半Akifumi Eguchi
 
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半Shinya Akiba
 
Awkでeffective前処理
Awkでeffective前処理Awkでeffective前処理
Awkでeffective前処理Shinya Akiba
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響されるMitsuo Shimohata
 
第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」T T
 
データ解析のための勉強会第7章
データ解析のための勉強会第7章データ解析のための勉強会第7章
データ解析のための勉強会第7章TokorosawaYoshio
 
相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性もT T
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
1 6.変数選択とAIC
1 6.変数選択とAIC1 6.変数選択とAIC
1 6.変数選択とAIClogics-of-blue
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
Robust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the CloudRobust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the CloudYuto Yamaguchi
 

Viewers also liked (15)

第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編
 
みどりぼん3章前半
みどりぼん3章前半みどりぼん3章前半
みどりぼん3章前半
 
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半
 
Awkでeffective前処理
Awkでeffective前処理Awkでeffective前処理
Awkでeffective前処理
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響される
 
第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」
 
RでWAIC
RでWAICRでWAIC
RでWAIC
 
データ解析のための勉強会第7章
データ解析のための勉強会第7章データ解析のための勉強会第7章
データ解析のための勉強会第7章
 
相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
1 6.変数選択とAIC
1 6.変数選択とAIC1 6.変数選択とAIC
1 6.変数選択とAIC
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
Robust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the CloudRobust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the Cloud
 

Similar to がうす・まるこふ の定理とかそのへん

StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章Shushi Namba
 
逐次ベイズ学習 - サンプリング近似法の場合 -
逐次ベイズ学習 - サンプリング近似法の場合 -逐次ベイズ学習 - サンプリング近似法の場合 -
逐次ベイズ学習 - サンプリング近似法の場合 -y-uti
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなしToru Imai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statisticsKohta Ishikawa
 

Similar to がうす・まるこふ の定理とかそのへん (6)

Regression2
Regression2Regression2
Regression2
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
逐次ベイズ学習 - サンプリング近似法の場合 -
逐次ベイズ学習 - サンプリング近似法の場合 -逐次ベイズ学習 - サンプリング近似法の場合 -
逐次ベイズ学習 - サンプリング近似法の場合 -
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 

More from T T

A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...T T
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」T T
 
Optimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire AnalysisOptimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire AnalysisT T
 
Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明T T
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半T T
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量T T
 

More from T T (7)

A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」
 
Optimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire AnalysisOptimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire Analysis
 
Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量
 

がうす・まるこふ の定理とかそのへん

  • 1. 5/11/2014 1 がうす・まるこふの定理 とかそのへん @tanimocchi 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 2. 5/11/2014 2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  数学科出身、博士(情報科学)  所属:タヒにかけ半導体  仕事:マーケティングなのか? 新規事業開拓なのか?  統計解析は必要! だと信じてる  統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。  アンケート設計・分析にも従事 今回の資料には、RやPythonなどのコードは一切ないです! また、対象は「線形モデル」のみに限定しています!! 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 3. 5/11/2014 3 出典:「自然科学の統計学 (基礎統計学)」 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会 「第2章 線形モデルと最小二乗法」から適当につまんだ感じ
  • 4. 5/11/2014 4 不偏性って? 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 5. 5 不遍性って?  全ての可能な標本それぞれに対して求めた推定量の期 待値 が、母集団特性値 に一致:    ˆE ˆE  Dˆ推定量: Cˆ推定量: Aˆ推定量: Bˆ推定量:     ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値  :母集団特性値 5/11/2014 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 6. 5/11/2014 6 誤差の仮定と標本平均 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 7. 5/11/2014 7 誤差εiの仮定  仮定  仮定の多次元拡張 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会           jiCov V E ji i i    0, 0 2    無相関性:ⅲ 等分散性:ⅱ 普遍性 :ⅰ            誤差ベクトル: :単位行列:零ベクトル、ここで、  無相関性:等分散性ⅲⅱ 平均ベクトル :普遍性       ⅰ ,, , 1 2     n V E   ε I0 Iε 0ε                                      I εεε εεεεyyyyy 2 21 2212 1211 ,, ,, ,, ,                      nnn n n VCovCov CovVCov CovCovV VCov EEEEEEV    
  • 8. 5/11/2014 8 線形モデル 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会                  XθεXθεXθyεXθy X θ y ε I 0         EEEE pnM yy n n n 1 ,, ,, ,, ,, 1 1 1    線形モデル  画行列実験の計画で定まる計の元:既知係数行列  未知母数ベクトル: 観測値ベクトル: 誤差ベクトル: :単位行列 :零ベクトル      
  • 9. 5/11/2014 9 標本平均の性質:BLUE  命題:標本平均は線形結合で表される不偏推定量の中で最小分散 (最良線形不偏推定量:BLUE(Best Linear Unbiased Estimator)) 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会                                        で分散最小このとき   より、  件は、 であり、等号成立条相乗の関係から、  相加      が不偏性を持つ事から一方、       と書く。ここで、線形結合を nn lylV y n y ylni n llll ll n lllylEylE ylEyl lyVlylVylV VEEEyEyV yEyyl n i n i i n i ii n i in i iiin n i n i n i i n i i n i i n i i n i ii n i ii n i ii n i ii n i i n i ii n i ii n i ii iiiiii iii n i ii 2 2 1 2 2 1 2 1 11 22 2 2 1 2 11 2 11111 11 2 1 2 1 2 11 22222 1 1 1 1 1 1,                                              
  • 10. 5/11/2014 10 最小二乗法 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 11. 5/11/2014 11 最小二乗法の原理  母数θのある係数l=(l1,…,lp)Tによる線形結合 の線形推定量を考える。  一般のXに対して、lが与えられる度にlTθのBLUEを直接求める事は可能 ではあるにしても煩雑。  そこでlとは無関係にデータyとその期待値の偏差二乗和 を最小にする解 を求めておき、単に とする事で、 のBLUE を求めようというのが、最小二乗法の原理 ⇒ ガウス・マルコフの定理 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会      XθyXθyXθyθS  2 ppll   11θl θθ   θl  θl
  • 12. 5/11/2014 12 正規方程式  最小二乗法の の満たす方程式  正規方程式の解 が偏差二乗和 を最小化 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会                    の正規方程式   θyXXθX 0XθXyXyX θXXXX θ yXθ θ θyX θ XθXθ θ yXθ θ Xθy θ θS XθXθyXθXθyyyXθyXθyXθyXθyθS                           2 θ   wAA w Aww a x ax x xa            , 微分の公式 θ   θS                                      θSXθθXXθθXθXyθXy θXyXθθXXθθXθXyXθθXXθθXθXyθXy θθXθXyθθXθXyXθyXθyθS          =0                                                   0          θXXθθXXθθXXθθθXX θXXθθXXθθXXθθXXθθθXXθXXθθθXXθθXX θXXθyXθθXXθyXθθθXXθXXθθyXθyX θXyXθXθXθθXXθy θXyXθθXXθθXθXy     
  • 13. 5/11/2014 13 推定可能関数  任意の線形式 が推定可能とは限らない。  実際、 のランクが未知母数の次元pより小さいと、 より、正規方程式 の解は不定となり、 は一意に定まらない。  尚、偏差二乗和 は下に凸な二次式であり、正規方程式は の極小値を与え る条件であるため、正規方程式の解が不能となる事はない。  線形モデル の母数に関する整形式 で、 の線形式から 成る不偏推定量が存在するものを推定可能関数(Estimable Function) という。 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会 θl X PM XX yXXθX   θ   θS  θS  εXθy  θl y
  • 14. 5/11/2014 14 ガウス・マルコフの定理 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 15. 5/11/2014 15 ガウス・マルコフの定理  推論を推定可能モデルに限りと、最小二乗法に関する基本定理である、 次の定理が成り立つ。  証明の方針 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会   乗解。を満たす任意の最小二 は、正規方程式を与える。但し、が一意に について、能関数に関する任意の推定可 線形モデル 理ガウス・マルコフの定 yXθXXθθθl θlεXθy      TheoremsMarkov'-Gauss BLUE       を持つ。    小二乗解正規方程式も一意な最 り、自身も、推定可能であ関数が、従ってこの場合、任意の線形 のときのみ示す。の次元がフルランク、即ち yXXXθ θ θXX    1 prank
  • 16. 5/11/2014 16 証明 [1/3]  不偏性 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会                                       pp ii i piEE EE             ,,,,, 1 0,0,1,0,,0 2121 11 1 θθ θlθl l θlθl θlXθXXXlyXXXlθl yXXXlθl θl ここで、 となる事に注意。と置くと、    がわかる。特にの不偏推定量である事がとなって、    、操作が線形であるためを構成すると、期待値    に対して、今、任意の線形式         XθεXθεXθy  EEEE 1
  • 17. 5/11/2014 17 証明 [2/3]  最小分散性 [1/2] 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会                                 が成り立つ。    の分散はが成り立つから、    に対し、確率変数 次に、一般に2つの が成り立つ。従って、    ここで、    ってとなるべきであり、よ    偏性からと置く。このとき、不    両者の差を を考え、不偏推定量とは別に、勝手な線形次に ybybyXXXlθlybθlyL yL 0Xb Xθbθ Xθbybyb ybθ θlyLθ ybyLXXXlyLθl yLyθl                   VCovVVV YVYXCovXVYXV YX EE E E ,2 ,2 , 0, 0, , : t 1 1   
  • 18. 5/11/2014 18 証明 [3/E]  最小分散性 [2/E] 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会                                                            のときに成立。、即ち尚等号は、である事が示された。 が量だったから、これでは任意の線形不偏推定ここで、 分散は常に非負        となる事から                        の共分散は    確率変数を満たすとき、2つの定が無相関、等分散の仮 一方、誤差 0 BLUE 0, ,,, 0 , , V 111 22 , 2 , 2 θlyLyb θlyL θlybθlyL yXbXXlbyXXXlybyXXXl ba εbεa εεbεaεεbaεεba XθXθθaεεbaεXθbεXθaXθXθa XθXθθaεεbaXθθbXθθaXθXθa XθXθθaεXθbεXθa ybyayybaybya ybya Iσεε                                 VVVV Cov baba CovbabaCovCov EEEEE EEE E E EEECov ybya i ii ji ijji ji jijijjii iiii  
  • 19. 5/11/2014 19 最小二乗推定量の分散 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 20. 5/11/2014 20 最小二乗推定量の分散  一般に線形推定量は任意の線形式 と表す事ができる。したがって、その分散は のように求める事が出来る。特に がフルランクの場合、推定量 の分散は、 で与えられる。  特に、 自体の分散は、 とおけば、 の対角要素から として求められ、同様に のように表す事ができる。 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会     ii yLt yLy       22 LLyL    iiii yVLyLVV X   yXXXlθl   1   L              21211211  lXXllXXXXXXlXXXlXXXlθl      V i         0,,0,1,0,,0    i l XX      要素の jiV i ,21    XX       要素の jiCov ji ,, 21    XX 
  • 21. 5/11/2014 21 最小二乗推定量の 標本分布 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
  • 22. 5/11/2014 22 正規線形モデル  線形モデル では、誤差に関して、 だけを仮定し、特別な分布を想定していない。  以下、 を仮定し、正規線形モデル(Normal Linear Model)に関して、最小二乗 推定量の標本分布を考察 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会  εXθy             誤差ベクトル: :単位行列:零ベクトル、ここで、  無相関性:等分散性ⅲⅱ 平均ベクトル :普遍性       ⅰ ,, , 1 2     n V E   ε I0 Iε 0ε  I0ε 2 .. ,N dii ~
  • 23. 5/11/2014 23 最小二乗推定量の標本分布 [1/2]  正規線形モデルの場合、BLUEは更に強い最適性を持つ。  推定量 は、線形関数に限らず、全ての不偏推定量の中で考えても、最小分散の不 偏推定量(証明略)  最小二乗推定量は の線形結合だから、再び正規分布に従うので、平均 と分散が求まれば標本分布が定まる。  任意の推定可能関数 についても、そのBLUEである最小二乗推定 の期待値は であり、分散は、 特に、 がフルランクならば となる。従って、最小二乗推定量の は以下の正規分布に従う。 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会 y y θl θl  θl      iiiii yLLyLV θl   ここで、22  X     21 lXXlθl    V θl           prankifN prankifLN i     XlXXlθl Xθl              21 22 , ,   
  • 24. 5/11/2014 24 最小二乗推定量の標本分布 [2/E]  特に、 とすると、フルランクの場合、各傾き 及び、 それを纏めた は以下を満たす。 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会 i          ~  成分の~ 21 21 , ,,     XXθθ XX N iiN ii          0,,0,1,0,,0    i l θ 
  • 25. 5/11/2014 38th Tokyo.R 25 Thanks a lot!