集合知2回目

1日で学ぶ、多変量解析講座
Goodfind Engineer 番外編
〜ブレイン◯ッドも惚れる、セクシーな
データサイエンティストになるには〜

1.はじめに
• 多変量解析とは？
大竹は言った。
2015/2/17 多変量解析講座 2

多変量解析とは
• 複数の変数に関するデータを元に、変数間の
相互関連を分析する統計的技法の総称。
（体系マーケティング・リサーチ辞典：同友館）
• 解析（解く）
– 事物の構成要素を細かく理論的に調べることによって、
その本質を明らかにする
• 分析（分ける）
– 複雑な事柄を1つひとつの要素や成分に分け、その構成
を明らかにすること
例：水質汚染は解析の結果、リン系の化合物が含まれているであろうと推測
され、分析の結果それは正しいと言えた
2015/2/17 多変量解析講座 3

多変量解析が扱えるデータ
2015/2/17 多変量解析講座 4

非常に多くの分析手法があります!!
こ
こ
こ
こ
こ
こ
2015/2/17 多変量解析講座 5

気をつけてほしいこと
• 何が目的で分析を行うのかを明確に
– 多変量解析は手段であって,目的でない
• データクレンジングを正確にやらなければ,理想
となる結果は得られない.
– 対象標本は (目的とする)分析に関係がありますか？
• 最後にデータを解釈するのは,結局人です
– 分析結果を全部鵜呑みにしないように
2015/2/17 多変量解析講座 6

2. 回帰分析
• (重)回帰分析とは
① 予測・潜在能力・評価
② 説明変数の目的変数に及ぼす影響度
③ 説明変数の重要性の格付け
一般式
y = a2x2 +a2x2 + +apxp +a0
目的変数
（結果）
説明変数
（原因）
：係数、：定数項
：目的変数、：説明変数、：説明変数の個数y pxxx ,,, 21  p
paaa ,,, 21  0a
2015/2/17 多変量解析講座 8

2.身長と体重の関係（単回帰分析）
このデータより、165cmの人の体重は65kgと予測できる
どうやって回帰直線を推測するの？？→最小2乗法
2015/2/17 多変量解析講座 9

2.定数・係数の決定
• 誤差の2乗和を最小にする.(最小2乗法)
• 偏微分より,a（傾き）とb（切片）を求める.
2015/2/17 多変量解析講座 10

2.単回帰分析の例
単回帰分析はエクセルでもできちゃいます.
※散布図を確認して,外れ値に注意.
R^2=0.82
2015/2/17 多変量解析講座 11

2.モデルの検証
• 回帰直線（モデル）の妥当性検証
1. 相関分析
2変数間の関係の強さをみる.(相関係数R)
・R = 0.6 やや相関関係がある
・R = 0.8〜0.9 強い相関関係がある
※値が0でも2変数が独立でない場合もある
2. 寄与率（決定係数R^2）
回帰式がどれくらい全データを示しているのか
を示す.
・R^2=0.7
回帰式は全体を70%を説明している.
2015/2/17 多変量解析講座 12

2.重回帰分析の例
売上額(y)
(千万円)
広告費(x1)
(百万円)
セールスマン数
(x2) (人)
A 8 5 6
B 9 5 8
C 12 7 10
D 11 5 12
E 13 8 12
F 17 12 12
G ? 17 14
ある会社の6営業所における売上額、広告費、セールスマン数を示したもの
重回帰分析を行うと、以下の式が
導かれる
0196.14608.0
8627.0
2
1


x
xy
単回帰の変数が増えただけで、考え方は全く同じです.
今日の宿題1:重回帰式の一般式を解いてみよう.
2015/2/17 多変量解析講座 13

重回帰分析の前提
2015/2/17 多変量解析講座 14

｢予測｣のほかにも、｢潜在能力｣｢評価｣についても明らかにできる
予測と変数の影響力
求められた関係式を用いて新設の営業所の売上げ予測ができる
1.220196.1144608.0178627.0
0196.14608.08627.0 21

 xxy
よって、営業所Gの売上げ予測は22.1千万円
●予測・潜在能力・評価
●説明変数の目的変数に対する影響力
係数のデータ単位は目的変数のデータ単位と同じになる
広告費の係数：0.8627(千万円)，データ単位：百万円
セールスマン数の係数：0.4608(千万円)，データ単位：人
広告費100万円使うと売上げは860万円増加
セールスマン1人増加で売上げは460万円増加
2015/2/17 多変量解析講座 15

係数は以下の連立方程式により導かれる
2．関係式の係数－偏回帰係数
paaa ,,, 21 










ypppppp
ypp
ypp
sasasas
sasasas
sasasas




2211
22222121
11212111
iis
前述の係数⇒偏回帰係数(partial regression coefficient)という
●偏回帰係数の算出
 jisij 
0a
pp xaxaxaya  22110
pxxxy ,,,, 21 
：偏差平方和(分散を求
めるときの分子の値)
：積和(相関を求め
るときの分子の値)
は以下の式によって求められる
：それぞれの変数の平均
2015/2/17 多変量解析講座 16

・偏回帰係数と単相関係数の符号が一致しているかどうかを調査
・各変数に対する偏回帰係数と単相関係数の符号が全て一致すればマル
チコは生じない
マルチコに注意
ia yir
1009.28.0 21  xxy
目的変数と相関の高いいくつかの説明変数を選択し、重回帰分析を
行ったとき、偏回帰係数がおかしな値になることがある
この現象を「マルチコリニアリティ」という
（略してマルチコ、日本語では多重共線性）
「説明変数の絞込み」の①を怠ったために生じる
マルチコ発生の調査
重回帰式：
95.0,92.0 21  yy rr
符号が異なる⇒マルチコ発生
2015/2/17 多変量解析講座 17

3. Principal Component Analysis
• 分析目的
– 変数間の類似関係の総合的特性を定量的に
把握する手法
1. 元の変数間の類似性にもとづいて、あたらに少数の変
数へ集約
2. 新しい変数の潜在的要因を類推
3. 新しい変数により,標本の特徴を捉える
2015/2/17 多変量解析講座 19

解析の流れ
1. 仮説を立てる（説明変数の列挙）
2. 主成分の式を求める
3. 寄与率および累積寄与率より採用する
主成分の個数を決定
4. 因子負荷量より,各主成分がどのような指標
かを解釈する
5. 主成分得点プロットにより,サンプルの意味
付け・分類を行う.
6. 結論！
2015/2/17 多変量解析講座 20

野球を例に（打者の特徴を把握！）
2000年度の野球データ
2015/2/17 多変量解析講座 21

STEP1 相関行列をまずは見てみる
簡単に変数間の関係を把握する.
2015/2/17 多変量解析講座 22

主成分を求め、採用個数の決定
・固有値が高いものから,第1主成分
となる.
・固有値が高いほど,元のデータの
情報量を多く保っている.
(寄与率が元データの何%を説明
しているのかを示す)
主成分の採用個数基準
1.カイザー基準
固有値が1以上を採用
2.累積寄与率
70〜80に達したら切る.（今回は80%）
3.スクリープロット
視覚的手法
カイザー基準
累積寄与率
2015/2/17 多変量解析講座 23

因子負荷量より、各主成分軸の解釈
各主成分の因子負荷量
第1主成分
正：試合数、打席数、犠打
負：出塁率、打率、本塁打、打点、四球、etc...
打者の総合的打撃力の指標
（負の値が強いほど強打者になる）
※第1主成分は基本,元データの総合的指標
第2主成分
正：犠飛、四球、死球、本塁打、打点
負：打率、打席数、安打、二塁打
打者の特徴を表す指標
安打製造機型（負）vs長距離砲型（正）
解釈はあなた次第！！
2015/2/17 多変量解析講座 24

主成分得点および、得点プロット
サンプルの主成分得点
松井：総合的打撃能力がかなり高く,長打と安打を場面
応じて打つことができるスーパーマン.
ローズ：打撃能力はそこそこ高く,ヒットもそこそこ打つ
（松井劣化バージョン）
中村：総合的打撃能力が低く,長距離砲型.強振狙いの
ため,打率は低いが当たれば長打が出る.
木村：総合的打撃能力が低く,ヒットを多く打つ.パワーが
ないので,長距離打はあまり打てない.
2015/2/17 多変量解析講座 25

２変量データの主成分分析の原理
• 第１主成分の軸．この軸にそった方向の測定
値の散らばり（分散）が最大
各測定値での第１主成分の値は，
測定値を表す点から第１主成分の
軸に下ろした垂線の足（垂線と軸
との交点）．
主成分分析は，データの散らばり
が最大となる軸の方向を見つけ，
その軸上での原点からの距離を
新しいスコアとする変数をつくる
方法である．
もとの２変数の平均を原点とする
2015/2/17 多変量解析講座 26

• 第２主成分の軸は第１主成分と直交
第１主成分の軸
第２主成分の軸
Y1
Y2
各測定値での第２主成分は，
第２主成分の軸に垂線を
下ろした点の座標（左図の Y2）
２変量データの主成分分析の原理
2015/2/17 多変量解析講座 27

4. 分類技術
• 分類の目的
– ある集団の個体をいくつかの郡に分ける.
1. 教師あり
既知のデータを元に、求めたい変数がどの郡に
属するかを判別
・SVM,ブースティング,ナイーブベイズ
2. 教師なし
データを分類する（「出力すべきもの」が予めな
い。データの背後の構造を捉える）
・主成分分析,クラスター分析(階層型,k-means)
EMアルゴリズム
2015/2/17 多変量解析講座 29

クラスター分析
• 力尽きたので,後はスライドシェアに...
– http://www.slideshare.net/hnisiji/tokyo-r10
凄く良くまとまってます(この本はオフィスにあります)
2015/2/17 多変量解析講座 30

オススメ書籍（統計編）
多変量解析入門
（サイエンス社）
永田靖
入門書には最適,基本
手法が全部例と一緒に
解説されています.一番
オススメ
入門統計解析額
（日科技連出版）
永田靖
解析を行う前提知識,
種々の確立分布および
検定手法が載ってます
数理統計学
（裳華房）
稲垣宣生
アクチュアリー入門向け.
ハードだけど１通りやると
試験科目：数学は合格できる
レベルに!?
2015/2/17 多変量解析講座 32

オススメ書籍（テキスト・機械学習編）
テキストマイニングを
使う技術/作る技術
（東京電機大出版局）
那須川哲哉
IBMの事例を元に利用
方法を説明.プログラミ
ングは一切触れない
Rによるテキスト
マイニング入門
（森北出版）
石川基広
RMeCabを使って,テキ
ストデータの主成分,ク
ラスター分析を行いま
す
パターン認識と
機械学習
（丸善出版）
ビショップ
王道中の王道. データ解析
システムを社内に導入した
いなら,絶対やるべし.
2015/2/17 多変量解析講座 33

集合知2回目

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (13)

集合知2回目

Editor's Notes