集合知2回目
- 8. 2. 回帰分析
• (重)回帰分析とは
① 予測・潜在能力・評価
② 説明変数の目的変数に及ぼす影響度
③ 説明変数の重要性の格付け
一般式
y = a2x2 +a2x2 + +apxp +a0
目的変数
(結果)
説明変数
(原因)
:係数、 :定数項
:目的変数、 :説明変数、 :説明変数の個数y pxxx ,,, 21 p
paaa ,,, 21 0a
2015/2/17 多変量解析講座 8
- 13. 2.重回帰分析の例
売上額(y)
(千万円)
広告費(x1)
(百万円)
セールスマン数
(x2) (人)
A 8 5 6
B 9 5 8
C 12 7 10
D 11 5 12
E 13 8 12
F 17 12 12
G ? 17 14
ある会社の6営業所における売上額、広告費、セールスマン数を示したもの
重回帰分析を行うと、以下の式が
導かれる
0196.14608.0
8627.0
2
1
x
xy
単回帰の変数が増えただけで、考え方は全く同じです.
今日の宿題1:重回帰式の一般式を解いてみよう.
2015/2/17 多変量解析講座 13
- 16. 係数 は以下の連立方程式により導かれる
2.関係式の係数-偏回帰係数
paaa ,,, 21
ypppppp
ypp
ypp
sasasas
sasasas
sasasas
2211
22222121
11212111
iis
前述の係数⇒偏回帰係数(partial regression coefficient)という
●偏回帰係数の算出
jisij
0a
pp xaxaxaya 22110
pxxxy ,,,, 21
:偏差平方和(分散を求
めるときの分子の値)
:積和(相関を求め
るときの分子の値)
は以下の式によって求められる
:それぞれの変数の平均
2015/2/17 多変量解析講座 16
- 19. 3. Principal Component Analysis
• 分析目的
– 変数間の類似関係の総合的特性を定量的に
把握する手法
1. 元の変数間の類似性にもとづいて、あたらに少数の変
数へ集約
2. 新しい変数の潜在的要因を類推
3. 新しい変数により,標本の特徴を捉える
2015/2/17 多変量解析講座 19
- 29. 4. 分類技術
• 分類の目的
– ある集団の個体をいくつかの郡に分ける.
1. 教師あり
既知のデータを元に、求めたい変数がどの郡に
属するかを判別
・SVM,ブースティング,ナイーブベイズ
2. 教師なし
データを分類する(「出力すべきもの」が予めな
い。データの背後の構造を捉える)
・主成分分析,クラスター分析(階層型,k-means)
EMアルゴリズム
2015/2/17 多変量解析講座 29
Editor's Notes
- 単回帰分析はy=ax+b
aは説明変数係数(ようするに重み)
基本的には線形関係
- 主成分分析は情報の集約といいましたが、18個の要素がある場合、集約しても(全体-1)で17種類は残るのです。 「全然集約されてないじゃん。」って思うかもしれませんが、主成分分析によって一つ一つの要素の重みが変わってきます。つまり、要素に濃縮した情報を詰め込むのです。その重みの計算をしたのが固有値なのです。
主成分分析では、計算結果重みの高い順に、要素の名前を第1主成分、第2主成分・・・ と命名します。
下表で第1主成分の固有値は8.425となっています。これは元々18種類あったデータを集約して8.425個分の価値を集約しているという感じです。で8.425というのは全体が18個であるので、第1主成分のたった一つをみれば、全体の(8.425÷18個=)46.8%の情報価値が集約されているといえるのです
- 値の小さな選手に「まじめにコツコツ」と付けたのはあっさりでしたが、値の大きな選手は「一発ねらいの大振りで結果が残していない」とか「打撃に期待されていないレギュラー陣」とか「死球が多くて欠場ぎみ」とか「ホームランまで届かず犠飛までなら」とか色々です。