データ解析 第10回
2018年6月21日 八谷 大岳
1
講義内容
2
数学の復習
機械学習の基礎
内容:
3
 主成分分析の復習
 因子分析の基礎
 因子分析とは
 分散共分散行列と因子負荷量の関係
 因子負荷量の求め方(1因子の場合)
 共通性と独自性
主成分分析の復習
4
 次元削減:可視化可能な次元にデータを変換
 データ要約:主成分軸に意味付けしデータの分布を解釈
 X1 Sepal length(がく長)
 X2 Sepal width(がく幅)
 X3 Petal length(花びら長)
 X4 Petal width(花びら幅)
4次元の観測データ
2次元で可視化
英
語
A
B
C D
E
F
H
G
J
I
0 2 4 6 8 10
10
8
6
4
2
数学 𝑥𝑥1
第2主成分軸𝑍𝑍2
第1主成分𝑍𝑍1
𝜆𝜆1 = 5.45
𝜆𝜆2 = 0.87
【元のデータの散布図】
第
2主
成
分
得
点
-3 -1.5 0 1.5 3 4.5
B
A
C
D
E
F
G
H
第1主成分得点𝑧𝑧1
I
J
-
1.5
1.5
-
0.5
0.5
【主成分得点の散布図】
どちらも苦手
平均的、
どちらかというと英語
平均的、どちらかというと数学
どちらも得意
数学苦手、英語が得意
主成分分析の考え方
5
 観測データの変数の例:数学の得点𝑥𝑥1,英語の得点𝑥𝑥2
 固有ベクトル𝒘𝒘1と𝒘𝒘2を用いた主成分得点の式:
 観測データから影響を受ける主成分を抽出し、データを要約
 𝒘𝒘1 = (0.8,0.8)Τの場合、第1主成分は「総合能力」と解釈
数学の得点𝑥𝑥1
英語の得点𝑥𝑥2
第1主成分𝑧𝑧1
第2主成分𝑧𝑧2
𝑤𝑤11
𝑤𝑤21
𝑤𝑤12
𝑤𝑤22
第1主成分得点𝑧𝑧1 = 𝑤𝑤11 𝑥𝑥1 + 𝑤𝑤12 𝑥𝑥2
第2主成分得点𝑧𝑧2 = 𝑤𝑤21 𝑥𝑥1 + 𝑤𝑤22 𝑥𝑥2
【主成分分析のパス図】
内容:
6
 主成分分析の復習
 因子分析の基礎
 因子分析とは
 分散共分散行列と因子負荷量の関係
 因子負荷量の求め方(1因子の場合)
 共通性と独自性
因子分析とは
7
 因子:観測データに影響を与える潜在的な要因
 観測データに影響を与える因子を抽出し、データを要約
 心理学にて、観測できない人間の心理量や知能指数を扱うために発展
 観測変数𝑥𝑥1、 𝑥𝑥2のモデル式:
数学の得点𝑥𝑥1
英語の得点𝑥𝑥2
第1因子𝑓𝑓1
第2因子𝑓𝑓2
数学の得点𝑥𝑥1 = 𝑎𝑎11 𝑓𝑓1 + 𝑎𝑎12 𝑓𝑓2 + 𝑒𝑒1
英語の得点𝑥𝑥2 = 𝑎𝑎21 𝑓𝑓1 + 𝑎𝑎22 𝑓𝑓2 + 𝑒𝑒2
数学の独自因子𝑒𝑒1
英語の独自因子𝑒𝑒2
【モデルのパス図】
数学の得点𝑥𝑥1
英語の得点𝑥𝑥2
第1主成分𝑧𝑧1
第2主成分𝑧𝑧2
𝑤𝑤11
𝑤𝑤21
𝑤𝑤12
𝑤𝑤22
【主成分分析のパス図】
因子分析の用語
8
数学の得点𝑥𝑥1 = 𝑎𝑎11 𝑓𝑓1 + 𝑎𝑎12 𝑓𝑓2 + 𝑒𝑒1
英語の得点𝑥𝑥2 = 𝑎𝑎21 𝑓𝑓1 + 𝑎𝑎22 𝑓𝑓2 + 𝑒𝑒2
𝐴𝐴 =
𝑎𝑎11 𝑎𝑎12
𝑎𝑎21 𝑎𝑎22
:因子負荷量
共通因子:数学と英語の得点に
共通して現れる因子
 以下の因子分析ならではの用語を覚えてください。
独自因子:数学と英語の得点に
それぞれに個別に現れる因子
𝑓𝑓1、 𝑓𝑓2の値:因子得点
数学の得点𝑥𝑥1
英語の得点𝑥𝑥2
𝑎𝑎11
𝑎𝑎21
𝑎𝑎12
𝑎𝑎22
第1因子𝑓𝑓1
第2因子𝑓𝑓2
数学の独自因子𝑒𝑒1
英語の独自因子𝑒𝑒2
【モデルのパス図】
観測データと因子得点表
9
 主成分得点と同様に、因子分析では各データ点ごとに
因子得点が得られる
学生 数学(𝑥𝑥1) 英語(𝑥𝑥2)
第1因子
得点(𝑓𝑓1)
第2因子
得点(𝑓𝑓2)
1 𝑥𝑥1
1
𝑥𝑥2
1
𝑓𝑓1
1
𝑓𝑓2
1
2 𝑥𝑥1
2
𝑥𝑥2
1
𝑓𝑓1
2
𝑓𝑓2
2
…
…
…
…
…
N 𝑥𝑥1
𝑁𝑁
𝑥𝑥2
𝑁𝑁
𝑓𝑓1
𝑁𝑁
𝑓𝑓2
𝑁𝑁
共通因子と独自因子の関係
10
 観測データの変数𝑥𝑥𝑖𝑖は、
 共通因子で説明できる部分(共通因子)
 共通因子で説明できない部分(独自因子)
に分けることができると考える
観測変数𝑥𝑥𝑖𝑖
共通因子で説明
できる部分
共通因子で説明
できない部分
独自因子
演習1
11
 国語𝑥𝑥1、数学𝑥𝑥2、理科𝑥𝑥3、社会𝑥𝑥4の得点に関する観測データを、因子の
数を2個に設定して因子分析したところ、以下の結果が得られた。
1. パス図を描きなさい。
2. それぞれの観測変数を、共通因子と独自因子の式で表しなさい。
3. 因子負荷量に基づき、共通因子𝑓𝑓1と𝑓𝑓2の解釈をしなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上に記載
因子負荷量:𝐴𝐴 =
0.7 −0.3
0.6
0.8
0.6
0.7
0.4
−0.4
独自因子:𝐞𝐞 =
1
2
1
2
内容:
14
 主成分分析の復習
 因子分析の基礎
 因子分析とは
 分散共分散行列と因子負荷量の関係
 因子負荷量の求め方(1因子の場合)
 共通性と独自性
因子分析の準備:データの標準化
15
 データ変数𝑥𝑥𝑗𝑗ごとに、値から平均を引いて標準偏差で割る
𝑥𝑥𝑗𝑗
𝑖𝑖
=
𝑥𝑥𝑗𝑗
𝑖𝑖
− �𝑥𝑥𝑗𝑗
𝑆𝑆𝑥𝑥𝑗𝑗
データ変数𝑥𝑥𝑗𝑗の𝑖𝑖番目の値
データ変数𝑥𝑥𝑗𝑗の標準偏差
データ変数𝑥𝑥𝑗𝑗の平均
因子分析の準備:因子の条件
16
 共通因子𝑓𝑓1、 𝑓𝑓2は標準化されている
 独自因子𝑒𝑒1、𝑒𝑒2の平均は0である
 因子は、どの2つをとっても共分散は0(独自)
教科書p201を参照
𝐸𝐸 𝑓𝑓1 = 𝐸𝐸 𝑓𝑓2 = 0 𝑉𝑉𝑉𝑉𝑉𝑉 𝑓𝑓1 = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑓𝑓2 = 1
𝐸𝐸 𝑒𝑒1 = 𝐸𝐸 𝑒𝑒1 = 0
𝐶𝐶𝐶𝐶𝐶𝐶 𝑓𝑓1, 𝑒𝑒1 = 𝐶𝐶𝐶𝐶𝐶𝐶 𝑓𝑓1, 𝑒𝑒2 = 𝐶𝐶𝐶𝐶𝐶𝐶 𝑓𝑓2, 𝑒𝑒1 = 𝐶𝐶𝐶𝐶𝐶𝐶 𝑓𝑓2, 𝑒𝑒2 = 0
𝐶𝐶𝐶𝐶𝐶𝐶 𝑒𝑒1, 𝑒𝑒2 = 𝐶𝐶𝐶𝐶𝐶𝐶 𝑒𝑒2, 𝑒𝑒1 = 0
分散共分散と因子負荷量の関係
17
 まずは、簡単な因子数が1の場合を考える
 観測データの分散共分散行列を求める
 行列𝑅𝑅を因子負荷量𝑎𝑎11、𝑎𝑎21と独自因子𝑒𝑒1、𝑒𝑒2で表現したい
教科書p201を参照
分散共分散:𝑅𝑅 =
𝑆𝑆𝑥𝑥1 𝑥𝑥1
𝑆𝑆𝑥𝑥1 𝑥𝑥2
𝑆𝑆𝑥𝑥2 𝑥𝑥1
𝑆𝑆𝑥𝑥2 𝑥𝑥2
数学の得点𝑥𝑥1
英語の得点𝑥𝑥2
𝑎𝑎11
𝑎𝑎21
第1因子𝑓𝑓1
数学の独自因子𝑒𝑒1
英語の独自因子𝑒𝑒2
【パス図】
数学の得点𝑥𝑥1 = 𝑎𝑎11 𝑓𝑓1 + 𝑒𝑒1
英語の得点𝑥𝑥2 = 𝑎𝑎21 𝑓𝑓1 + 𝑒𝑒2
観測データは標準化されているため、
分散共分散行列=相関行列
演習2(6/28までの課題)
18
 因子の条件と、分散と共分散の特性を利用して、以下の分散と
共分散を因子負荷量𝑎𝑎11、𝑎𝑎21と独自因子𝑒𝑒1、𝑒𝑒2で表しなさい。
 分散と共分散の特性:
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上
に記載
𝑆𝑆𝑥𝑥1 𝑥𝑥1
= Var 𝑥𝑥1 = Var 𝑎𝑎11 𝑓𝑓1 + 𝑒𝑒1
𝑆𝑆𝑥𝑥1 𝑥𝑥2
= Cov 𝑥𝑥1, 𝑥𝑥2 = Cov 𝑎𝑎11 𝑓𝑓1 + 𝑒𝑒1, 𝑎𝑎21 𝑓𝑓1 + 𝑒𝑒2
Var 𝑥𝑥 + 𝑦𝑦 = Var 𝑥𝑥 + 2Cov x, y + Var 𝑦𝑦
Cov 𝑥𝑥 + 𝑦𝑦, 𝑧𝑧 + 𝑤𝑤 = Cov 𝑥𝑥, 𝑧𝑧 + Cov 𝑥𝑥, 𝑤𝑤 + Cov 𝑦𝑦, 𝑧𝑧 + Cov 𝑦𝑦, 𝑤𝑤
Var 𝑎𝑎𝑎𝑎 = 𝑎𝑎2Var 𝑥𝑥
分散共分散と因子負荷量の関係2
21
 分散共分散行列と因子負荷量との関係式の行列表現
 関係式は、任意の数の観測変数と因子に対して成り立つ
 観測変数が3、因子数が1つの場合:
 観測変数が2、因子数が2つの場合:
𝑅𝑅 =
𝑆𝑆𝑥𝑥1 𝑥𝑥1
𝑆𝑆𝑥𝑥1 𝑥𝑥2
𝑆𝑆𝑥𝑥2 𝑥𝑥1
𝑆𝑆𝑥𝑥2 𝑥𝑥2
=
𝑎𝑎11 𝑎𝑎11 𝑎𝑎11 𝑎𝑎21
𝑎𝑎21 𝑎𝑎11 𝑎𝑎21 𝑎𝑎21
+
Var(𝑒𝑒1)
0
0
Var(𝑒𝑒2)
=
𝑎𝑎11
𝑎𝑎21
𝑎𝑎11 𝑎𝑎21 +
Var(𝑒𝑒1)
0
0
Var(𝑒𝑒2)
= 𝐴𝐴𝐴𝐴Τ + 𝐸𝐸
𝐴𝐴 =
𝑎𝑎11
𝑎𝑎21
𝑎𝑎31
𝐴𝐴 =
𝑎𝑎11
𝑎𝑎21
𝑎𝑎12
𝑎𝑎22
𝐸𝐸 =
Var(𝑒𝑒1)
0
0
0
Var(𝑒𝑒2)
0
0
0
Var(𝑒𝑒3)
𝐸𝐸 =
Var(𝑒𝑒1)
0
0
Var(𝑒𝑒2)
𝑆𝑆𝑥𝑥1 𝑥𝑥1
= 𝑎𝑎11 𝑎𝑎11 + Var(𝑒𝑒1) 𝑆𝑆𝑥𝑥1 𝑥𝑥2
= 𝑎𝑎11 𝑎𝑎21
内容:
22
 主成分分析の復習
 因子分析の基礎
 因子分析とは
 分散共分散行列と因子負荷量の関係
 因子負荷量の求め方(1因子の場合)
 共通性と独自性
因子負荷量を求める例(因子数=1)
23
 3変数(数学𝑥𝑥1、国語𝑥𝑥2、理科𝑥𝑥3)観測データの共分散の値が
𝑆𝑆𝑥𝑥1 𝑥𝑥2
= 0.72、𝑆𝑆𝑥𝑥2 𝑥𝑥3
= 0.56、𝑆𝑆𝑥𝑥3 𝑥𝑥1
= 0.63の場合を考える
①分散共分散と因子負荷量の関係式より連立方程式を作る
𝑅𝑅 =
1
0.72
0.63
0.72
1
0.56
0.63
0.56
1
= 𝐴𝐴𝐴𝐴Τ + 𝐸𝐸
=
𝑎𝑎11 𝑎𝑎11 + Var(𝑒𝑒1)
𝑎𝑎21 𝑎𝑎11
𝑎𝑎31 𝑎𝑎11
𝑎𝑎11 𝑎𝑎21
𝑎𝑎21 𝑎𝑎21 + Var(𝑒𝑒2)
𝑎𝑎31 𝑎𝑎21
𝑎𝑎11 𝑎𝑎31
𝑎𝑎21 𝑎𝑎31
𝑎𝑎31 𝑎𝑎31 + Var(𝑒𝑒3)
教科書p201を参照
𝑎𝑎11 𝑎𝑎11 + Var(𝑒𝑒1) = 𝑎𝑎21 𝑎𝑎21 + Var(𝑒𝑒2) = 𝑎𝑎31 𝑎𝑎31 + Var(𝑒𝑒3) = 1
𝑎𝑎21 𝑎𝑎11 = 0.72 𝑎𝑎31 𝑎𝑎11 = 0.63 𝑎𝑎21 𝑎𝑎31 = 0.56
因子負荷量を求める例(因子数=1) 2
24
②連立方程式から因子負荷量を求める
③求めた共通因子を方程式に代入し独自因子の分散を求める
教科書p201を参照
𝑎𝑎11 𝑎𝑎11 =
𝑎𝑎21 𝑎𝑎11 𝑎𝑎31 𝑎𝑎11
𝑎𝑎21 𝑎𝑎31
=
0.72 0.63
0.56
= 0.81 𝑎𝑎11 = 0.9
𝑎𝑎21 =
𝑎𝑎21 𝑎𝑎11
𝑎𝑎11
=
0.72
0.9
= 0.8 𝑎𝑎31 =
𝑎𝑎31 𝑎𝑎11
𝑎𝑎11
=
0.63
0.9
= 0.7
Var 𝑒𝑒1 = 0.19
Var 𝑒𝑒2 = 0.36
Var 𝑒𝑒3 = 0.51
0.81 + Var 𝑒𝑒1 = 1
0.64 + Var 𝑒𝑒2 = 1
0.49 + Var 𝑒𝑒3 = 1
【連立方程式】
𝑎𝑎11 𝑎𝑎11 + Var(𝑒𝑒1) = 𝑎𝑎21 𝑎𝑎21 + Var(𝑒𝑒2) = 𝑎𝑎31 𝑎𝑎31 + Var(𝑒𝑒3) = 1
𝑎𝑎21 𝑎𝑎11 = 0.72 𝑎𝑎31 𝑎𝑎11 = 0.63 𝑎𝑎21 𝑎𝑎31 = 0.56
演習3
25
1. 3変数(数学𝑥𝑥1、国語𝑥𝑥2、理科𝑥𝑥3)観測データの共分散の値
が𝑆𝑆𝑥𝑥1 𝑥𝑥2
= 0.1、𝑆𝑆𝑥𝑥2 𝑥𝑥3
= 0.1、𝑆𝑆𝑥𝑥3 𝑥𝑥1
= 0.81で、因子数が1つ
の場合の因子負荷量を求めなさい。
2. 独自因子の分散を求めなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
内容:
27
 主成分分析の復習
 因子分析の基礎
 因子分析とは
 分散共分散行列と因子負荷量の関係
 因子負荷量の求め方(1因子の場合)
 共通性と独自性
因子負荷量のプロット
28
 主成分負荷量と同様に、各軸に因子負荷量をレーダーチャート
で可視化することにより各因子の解釈を行う。
 第1因子負荷量は、数学、国語、理科の得点全てにおいて
高いので、第1因子は「総合力」を表していると解釈
第1因子負荷量
第2因子負荷量
0−1 1
−0.5 0.5
1
−0.5
0.5
−1
数学𝑎𝑎11 = 0.9
国語𝑎𝑎21 = 0.8
理科𝑎𝑎31 = 0.7
数学の得点𝑥𝑥1 = 0.9 𝑓𝑓1 + 𝑒𝑒1
国語の得点𝑥𝑥2 = 0.8 𝑓𝑓1 + 𝑒𝑒2
理科の得点𝑥𝑥3 = 0.7 𝑓𝑓1 + 𝑒𝑒3
第1因子負荷量
共通性&独自性
29
 共通性:各観測変数に対する因子負荷量の二乗和
 各観測変数の分散のうち、共通因子で説明できる割合
 各因子負荷量の原点からの距離に対応
 独自性:各変数の分散のうち共通因子
で説明できなかった割合
数学の得点𝑥𝑥1 = 0.9𝑓𝑓1 + 𝑒𝑒1
国語の得点𝑥𝑥2 = 0.8𝑓𝑓1 + 𝑒𝑒2
理科の得点𝑥𝑥3 = 0.7𝑓𝑓1 + 𝑒𝑒3
観測変数𝑥𝑥1の共通性:ℎ1
2
= 𝑎𝑎11
2
= 0.92
= 0.81
観測変数𝑥𝑥2の共通性:ℎ2
2
= 𝑎𝑎21
2
= 0.82
= 0.64
観測変数𝑥𝑥3の共通性:ℎ3
2
= 𝑎𝑎31
2
= 0.72
= 0.49
第1因子負荷量
第2因子負荷量
0−1 1
−0.5 0.5
1
−0.5
0.5
−1
理科𝑎𝑎31 = 0.7
共通性 独自性
各観測変数の分散=共通性+独自性=1
観測変数𝑥𝑥1の独自性:1 − ℎ1
2
= 1 − 0.81 = 0.19
観測変数𝑥𝑥2の独自性:1 − ℎ2
2
= 1 − 0.64 = 0.36
観測変数𝑥𝑥3の独自性:1 − ℎ3
2
= 1 − 0.49 = 0.51
課題1
30
1. 3変数(数学𝑥𝑥1、国語𝑥𝑥2、理科𝑥𝑥3)観測データの共分散の値
が𝑆𝑆𝑥𝑥1 𝑥𝑥2
= 0.1、𝑆𝑆𝑥𝑥2 𝑥𝑥3
= 0.1、𝑆𝑆𝑥𝑥3 𝑥𝑥1
= 0.81で、因子数が1つ
の場合の因子負荷量を求めなさい。
2. 因子負荷量のレーダーチャートを作成し、第1因子の意味
を解釈しなさい。
3. 各観測変数の共通性と独自性を求めなさい。
課題2
34
 観測変数が4つ、共通因子が2つの因子分析を行う。
1. パス図とモデル式を書きなさい。
2. 各観測変数の共通性と独自性をそれぞれ求めなさい。
共通因子𝑓𝑓1 共通因子𝑓𝑓2
観測変数𝑥𝑥1 -0.70 -0.60
観測変数𝑥𝑥2 -0.65 0.43
観測変数𝑥𝑥3 -0.63 0.60
観測変数𝑥𝑥4 -0.58 -0.39
レポートの提出方法
37
 演習レポート:
 タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載
 課題レポート :
 タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載
 2ページ以上になる場合は、ホッチキス留め
 A4サイズの用紙を使用
 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

データ解析10 因子分析の基礎