数学
• 線形代数
• 確率・統計
• 情報理論
ラビットチャレンジの課題として
機械学習に必要な最低限の数学知識について、よく使う公式等をまとめる。
各ページの説明は必要最低限しか記載していない。
様々な書籍、Web媒体等を参考にしているため、記号の一貫性がないので注意。
また、誤記等もあるかもなので注意。
1.線形代数-覚書
• 各種行列の種類をちゃんと覚える。
• 行列はベクトルを別のベクトルに変換するもの。
• 行列式は、線形変換後に空間が何倍になるのかを示している。マイナスの場合は鏡像となる。
• 正方行列Aに対して、(A-λI)が正則行列の場合、固有値・固有ベクトルを持たない。
• 正方行列でない場合は特異値分解によって、特異値・得意ベクトルを求めることができる。
• 固有値分解/特異値分解によって効率よく計算できるようになる。
所感:図形的にイメージできるまで頑張ると多少理解しやすい。おそらく、ここからが本番。。
1.線形代数-よく見る行列の種類
正方行列
正則行列・逆行列
転置行列
直交行列
対称行列
対角行列
逆行列を持つ正方行列が正則行列。逆行列を持た
ない行列を特異行列という。
線形変換した空間を元に戻せるのが逆行列。というよ
うなイメージ
異なる固有値に対応する固有ベクトルは直交する。
対称行列 例)
直行行列は、行列式 |A|=±1、
固有値 λ=±1 となる。例)
逆行列・転置行列のよく使う性質
対角直行行列 例)
3次正方行列 例)
は余因子行列
1.線形代数-行列式
3次正方行列Bの行列式はサラスの方法より以下のように計算できる。
行列式の性質
行列式は、線形変換後に空間が何倍になるのかを示している。
マイナスの場合は鏡像となる。
行列式(2次正方行列)
行列式の公式
Aut(n):n次対称群
sgn:置換の符号
|A|≠0 のときAは正則行列(逆行列が存在する)
|A|=0 のときAは特異行列(逆行列が存在しない)
補足)2次正方行列Aで線形変換後の面積が0となる時、つまり、
線形従属の時、|A|=0 となり逆行列は存在しない。
逆行列・余因子行列
※たすき掛けになっている
1.線形代数-固有値・固有ベクトル
固有値・固有ベクトルの解釈
・Av ⇒ ベクトルvの変換
・λv ⇒ ベクトルvの長さの変換
行列Aの変換によって、向きが変わらず、長さだけが変
わるベクトルが固有ベクトル。長さが変わった倍率(スカ
ラー)が固有値。
固有値分解のメリット
・A^nの計算が楽
・主成分分析/部分空間法などのベースとなる考え方
・数学的に直交/対角行列は色々便利そう。。。
固有値・固有ベクトル
固有値・固有ベクトルの求め方
固有ベクトルは線形独立である。
(A-λI)が正則行列なら|A-λI|≠0であり、(A-λI)^(-1)が
存在するので、x=0。
⇒ 固有ベクトルを持たない
(A-λI)が特異行列なら|A-λI|=0であり、(A-λI)^(-1)は
存在しないから、(A-λI)はx=0以外の解を持つ。
⇒ 固有ベクトルを持つ
1.線形代数-特異値分解
特異値分解
特異値・特異ベクトルの求め方
特異値分解の解釈
・正方行列でなくても、固有値分解のメリットを享受
できるよう考えられた手法。
活用方法
・画像をベクトルとして扱う場合、特異値分解する
ことでその画像の独立した特徴を抽出できる。
・その特徴の一部だけ用いても画像の特徴は概ね
維持される。(画像に写っているものを認識できる)
・つまり、扱うデータ容量の低減、処理高速化に繋がる。
Aは以下のようにも表せる。
1.線形代数-その他よくみる式
ミンコフスキー距離
マンハッタン(市街地)距離
ユークリッド距離
チェビシェフ距離
x, y間の距離として考えると 、マンハッタン距離の場合、
d(x,y)=∑|x_{i}-y_{i}|となり理解しやすい。
他、マハラノビス距離は以下式で表られる。
D(x,y)=((x_{i}-y_{i})∑^{-1}(x_{i}-y_{i}))^{1/2}
ここで∑は共分散行列である。
この他、ハミング距離、キャンベラ尺度、方向余弦などがある。
ベクトルx=(x1,…xn)を考えたとき、1≦p<∞に対して、以下をp次
平均ノルム、または p-ノルムという。
p=1、p=2の時は正則化等でよく使う。
1.線形代数-その他よくみる式
スカラーでの微分
記号の定義
ベクトルでの微分
行列での微分
便利な式
2.確率・統計-覚書
• ベイズの定理、尤度・周辺確率
事後確率 = 尤度/周辺確率 × 事前確率
尤度:とあるクラスであるときの、xの確率であり、値がもっとも大きくなるクラスが最ももっともらしい
周辺確率:各クラスとの同時確率分布の和
所感:分散・共分散行列など線形代数(行列・ベクトル)に確率・統計を乗っけて計算するのがなれない
2.確率・統計
平均(算術平均)
平均偏差
分散・標準偏差
算術平均のほか、
幾何平均:x_g=n√(x_1・x_2・・・x_n)
調和平均:1/x_h=1/n(1/x_1+・・・1/x_n)
相関係数
順列・組み合わせ
条件付確率
2.確率・統計
スターリングの公式:
正整数nに対して、以下が成立する。
分配法則:
3つの事象A,B,Cについて考える。
次の法則が成り立つ
(A⋁B)⋀C = (A⋀C)⋁(B⋀C)
(A⋀B)⋁C = (A⋁C)⋀(B⋁C)
加法定理:
AとBが排反事象であるとすると、
P(A⋁B) = P(A) + P(B)
となる。
2.確率・統計
ベイズの定理
連続値の確率密度関数を小文字のp、離散
値の確率密度関数を大文字のPを用いて表
す。
2.確率・統計
確率変数・確率分布・確率密度関数
名義尺度:あるものが他と同一かどうかという
判断のみの基準。
持家/借家、未婚/既婚、男/女
順序尺度:あるものが他より大きいなどの判断の基準
良い/悪い、多い/少ない
間隔尺度:あるものが他よりもある単位によって
~だけ多いなどの判断の基準
℃、cm、分
比尺度:あるものが他よりもある単位によって~倍だけ
多いなどの判断の基準
身長(長さ)、体重(重さ)
2.確率・統計
累積分布関数
期待値
2.確率・統計
分散と標準偏差
分散V(X)は、期待値を使うことで簡単に求め
ることができる。
2.確率・統計-おもな離散型の確率分布
二項分布
ポアソン分布
この他、幾何分布、負の二項分布、一様分
布などがある。
二項分布のグラフ
ポアソン分布のグラフ
2.確率・統計-おもな連続型の確率分布
正規分布
正規分布のグラフ
2.確率・統計-おもな連続型の確率分布
指数分布
指数分布のグラフ
この他、ガンマ分布、ベータ分布、一様分布、
コーシー分布、対数正規分布、ワイブル分布
などがある。
3.情報理論
• 情報量は確率が低い事象ほど大きい値となる。
• エントロピーは、確率分布の偏りが大きいほど小さい値になる。
• KL情報量は、2つの確率分布の自己情報量差の期待値を取っている。
• 交差エントロピーはpのエントロピーにpのqに対するKL情報量を足したもの。
所感:直感的なイメージをつかむまでが大変。
3.情報理論
自己情報量
シャノンエントロピー(期待値)
M=2(確率p, 1-p)のときのエントロピー
H(X) = -plog(p)-(1-p)log(1-p) =ℋ(p)
ℋをエントロピー関数という。
p=0 or 1 のとき、最小値 0
p=0.5のとき、最大値 1
p
ℋ(p)
エントロピーの性質
M個の値をとる確率変数Xのエントロピー
H(X)は次の性質を満たす。
(1)0≦H(X)≦log M
(2)H(X)が最小値0となるのは、ある値を取る
確率が1で他のM-1個の値を取る確率が
すべて0の時に限る。すなわち、Xの取る値
が初めから確定している場合のみである。
(3)H(X)が最大値logMとなるのは、M個の値
をすべて等確率1/Mでとる場合に限る。
3.情報理論
カルバック・ライブラー情報量
カルバック・クライスラー情報量は非対称のため
DKL(p||q) ≠ DKL(q||p)となる。
交差エントロピー
3.情報理論
結合エントロピー
参考文献
• 線形代数レクチャーノート:http://minami106.web.fc2.com/math/linear_lecture.pdf
• HEADBOOST:https://www.headboost.jp/linear-algebra/#21
• 統計学入門:東京大学出版会
• はじめてのパターン認識(平井有三):森北出版株式会社
• 情報理論:http://www-ikn.ist.hokudai.ac.jp/~arim/lecture/info_theory/
• 他wikipedia、youtubeなど

機械学習に必要な数学基礎