第4回DARM勉強会 (構造方程式モデリング)

構造方程式モデリング
(Structural
Equa,on
Modeling)
広島大学総合科学研究科

博士課程後期３年

竹林由武
DARM勉強会#4
2013.06.22

(Structural Equation Modeling: SEM)
•  検証的因子分析＋パス解析 (＋α)
•  潜在変数と観測変数を組み合わせて
様々な分析モデルを表現可能
潜在変数
観測変数
=直接測定できない要因
=直接測定可能な要因

•  検証的因子分析 (Conﬁrmatory Factor Analysis: CFA)
直接観測できない構成概念を記述
複数の観測変数を縮約
構成概念
観測変数1
誤差1
観測変数2
誤差2
観測変数3
誤差3

•  パス解析 (Path Analysis: PA)
構成概念と構成概念
観測変数と観測変数　の関係性を検討
観測変数⇒構成概念
構成概念
A
構成概念
B

•  構造方程式モデリング
PAとCFAを統合的に評価
構成概念
A
構成概念
B
観測変数

１
観測変数

２
観測変数

３
誤差

１
誤差

2
誤差

3
観測変数

４
観測変数

５
観測変数

６
誤差

１
誤差

2
誤差

3

reporting guideline
Mueller, R. O., & Hancock, G. R. (2008). Structural
Equation Modeling. In G. R., Hancock & R. O. Mueller
(Eds.), The Reviewer’s Guide to Quantitative Methods in
the Social Sciences. (pp. 281-288) New York: Routledge.
ガイドの編者!!

項目
テーマ
セクション
1
仮説モデル•競合モデルの構築
I
2
パス図の呈示
I
3
潜在変数の定義
I
(M)
4
観測変数の定義
M
5
潜在変数に対する観測変数の数
M
6
統制変数の扱い
M
7
サンプリング法•サンプル数
M
8
欠損データ•外れ値の処理
M,
(R)
9
統計ソフトの情報•推定法の明示
M,
(R)
I = introduction, M = method, R = results, D = discussion
ガイドの項目概要

項目
テーマ
セクション
10
収束，過剰推定，モデルの識別性の問題
R
11
観測変数の要約統計量の明示
R
12
二段階分析プロセスの遵守
R
13
適合度指標
R
14
モデルの比較
(尤度比検定，情報量基準)
R
15
最終的なモデルの正当性
R
16
潜在因子の信頼性と妥当性
R
17
推定値の有意性
R,
(D）
18
モデルの解釈に関わる言葉使い
D
I = introduction, M = method, R = results, D = discussion
ガイドの項目概要

レポーティングガイド
項目1: 詳細
•  十分に理論を統括し検討モデルが設定されている
•  競合モデルが呈示されている

SEMの強み

アプリオリな理論の
評価を補助する能力
事後的な理論生成>
文献レビューによる，構成概念の明確な定義，
概念間の関連に関する強い論拠が必要

項目2: 詳細
•  概念モデルの理解や統計モデルの特定を促すため
に，パス図が示されている
•  可能中限り，構造方程式と測定方程式の
双方を図示する
•  仮説モデルと解析結果の双方のパス図を乗せるの
が望ましい

パス図

観測変数
潜在変数
誤差変数
因果 (的なもの)
相関 (共分散)

構造方程式

誤差
構成概念
A
構成概念
B
誤差
潜在変数
A
潜在変数
B
γ
η = γζ + ς
潜在変数B
潜在変数A
誤差
パス係数

測定方程式

x1
x2
x3
誤差

１
誤差

2
誤差

3
y1
y2
y3
誤差

１
誤差

2
誤差

3
潜在変数
A
潜在変数
B
λx1 λx 2 λx3
λy1 λy2 λy3
x1 = λx1ζ + δ1
x2 = λx 2ζ + δ2
x3 = λx 3ζ + δ3
y1 = λy1η + ε1
y2 = λy 2η + ε2
y3 = λy3η + ε3

構造方程式＋測定方程式

x1
x2
x3
誤差

１
誤差

2
誤差

3
y1
y2
y3
誤差

１
誤差

2
誤差

3
誤差
潜在変数
A
潜在変数
B
γ
λx1 λx 2 λx3
λy1 λy2 λy3

構造方程式＋測定方程式
(RAM構造)

ζ
η
x1
x2
x3
y1
y2
y3
!
"
#
#
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
&
&
=
0 0 0 0 0 0 0 0
γ 0 0 0 0 0 0 0
λx1 0 0 0 0 0 0 0
λx2 0 0 0 0 0 0 0
λx3 0 0 0 0 0 0 0
0 λy1 0 0 0 0 0 0
0 λy2 0 0 0 0 0 0
0 λy3 0 0 0 0 0 0
!
"
#
#
#
#
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
&
&
&
&
ζ
η
x1
x2
x3
y1
y2
y3
!
"
#
#
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
&
&
+
ζ
ς
δ1
δ2
δ3
ε1
ε2
ε3
!
"
#
#
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
&
&

項目３: 詳細
•  潜在因子が定義され、それらの潜在変数としての
ステータスが指定されている

原因結果
観測変数 cause

indicator
eﬀect

indicator
潜在変数 latent

factor
emergent

factor
ε
ε
ε
ε

formative vs. reﬂective

latent
factor
effect indicator 1
effect indicator 2
effect indicator 3
emergent
factor
cause indicator 1
cause indicator 2
cause indicator 3
ε
ε
ε
ε
17
formative
model
reﬂective
model
どちらのモデルで構成概念を測定するのが適切か要検討

formative model reflective model
ライフ
ストレス
η
Y1: 将来の心配
Y2: 睡眠への支障
Y3:心拍の亢進
ライフ
ストレス
η
X1: 職の喪失
X2:家族の死
X3:離婚
ε
ε
ε
ε
主成分分析モデル
因子分析モデル
18
概念の変化は全ての項目に
影響を与える
概念の変化に，全ての項目の
変化が寄与するとは限らない
formative vs. reﬂective

項目4: 詳細
•  全ての観測変数が定義されている
•  観測変数が関連する因子のindicatorとしての適
切性が示されている (必要に応じて)
•  exogenous vs. endogenous

　例えば…

　　　a)
latent
factorのeﬀect
indicatorはendogenous

b)
emergent
factorのcause
indicatorはexogenous)

　　　c)
潜在変数と関連しない変数
(stand
alone
variables:
性別など)

exogenous endogenous

項目4: 詳細
・既に確立された指標であるならば，引用文献を明示
・観測変数の尺度水準を明示
連続変数以外では特別な推定手続きが必要

変数名内容例
2 値変数（Binary variable） 2 カテゴリ診断有/無
合格/不合格
順序変数（Ordinal variable）順序あり•3 カテゴリ以上中卒/高卒/大卒
名義変数（Nominal variable）順序のなし•3カテゴリ以上未婚／既婚／離別／死別
打ち切り変数（Censored variable）ある範囲を超えると値が観察されない勉強時間，
賃金，塾の費用
カウント変数（Count variable）何らかのイベントが生じた回数殺人の件数，
自殺未遂の回数

項目5: 詳細
• 潜在因子が十分な数の適切な観測変数で示されている
　　 ⇒識別性，因子の信頼性や妥当性を考慮

• 潜在因子のindicatorの性質が述べられている

識別性

>

方程式の数
>
求める母数の数

⇒
一意の解が得られない

　　※方程式の数=標本共分散の下三角要素

　　　　　　　　(観測変数をnとすると，n(n+1)/2)
f1
x1
e1
a1
s
e11
1
観測変数が1つの場合

求める母数の数=3
(s

a1

e11)

方程式の数=
1

⇒識別性なし
s=潜在変数の分散，a1=パス係数,
e11=誤差

項目5: 詳細

　求める母数の数=5
(s

a1
a2
e11
e22)

　方程式の数=
3

　⇒識別性なし


(a1,
a2,
a3,

e11,
e22,
e33)

方程式の数=
6

　⇒識別性あり

f1
x1 e1a1
1
e11
1
x2
a2
e2
e22
1
x3a3 e3
e33
1

　求める母数の数=6

(a1,
a2,
a3,
a4,
e11,
e22,
e33,
e44)

方程式の数=
10

　⇒識別性あり

f1
x1 e1a1
1
e11
1
x2a2 e2
e22
1
x3a3
e3
e33
1
x4
a4
e4
e44
1
f1
x1 e1a1s
e11
1
x2a2 e2
e22
1
indicator数 3 4以上であれば制約を置かずに識別可能
実用的には4 6で全てパス係数が.6 .7以上が理想的

indicatorが少ない場合の対処

⇒母数を固定することで，求める母数を少なくする

　

f1
x1
e1
a1
1
1
1
　

　　因子の分散を固定⇒
s=1

　　測定誤差を固定⇒
e11=1

　　信頼性係数から算出する誤差分散で固定

　
⇒誤差分散=(1-‐信頼性係数)×観測変数の分散
　

　　　　　　　　　

　　　　　　　　　求める母数の数=1
(a1)

　　　　　　　　　方程式の数=
1

　　　　　　　　　⇒識別可能

項目5: 詳細

indicatorが少ない場合の対処

⇒母数を固定することで，求める母数を少なくする

　

　因子パタンor誤差分散に等値制約

　因子パタン：　a1=a2=0

誤差分散：　

e11=e22=0

(“s,
e11,
e12”
or
“s,
a1,
a2”)

　方程式の数=
3

f1
x1
e1
0
s
e11
1
x2
0
e2
e22
1
項目5: 詳細

観測変数が多い場合にはparcelingを考慮する

　　parceling (小包化変数)：
　いくつかの観測変数を合成(小包化)し，indicatorにする

小包の作り方は複数あるので，
Coffman & MacCallum（2005）を参照
適当に小包を作ってはだめ
項目5: 詳細
f1
x1 e1a1
1
e11
1
x2a2 e2
e22
1
x3a3 e3
e33
1
x4 e4a4
e44
1
x5a5 e5
e55
1
x6a6
e6
e66
1
f1
x1+x2+x3 e1a1
1
e11
1
x4+x5+x6
a2
e2
e22
1

•  理論的に関連する統制変数がどのようにモデルに
組み込まれたか説明されている
•  統制変数は分析から除外せず，モデルに含む方が
望ましい
•  統制変数は一つの潜在変数のindicatorにすべき
ではない
•  統制変数をモデル含んだ場合，統制変数とアウト
カムの関係は基本的に線形
非線形を想定⇒他母集団同時分析など
項目６: 詳細

•  サンプリング方法やサンプルサイズが明示
され，指定されている
サンプリング法 (詳細は徳岡君)
a) random (ランダム)
b) stratiﬁed (層化)
c) cluster (クラスター)
• 
項目7: 詳細
サンプル数

　　　　　推定値につき少なくとも5ケース以上

　　　
ADFの場合はもっと制約は緩い

simsemで例数設計
f1
y1 y3y2
e1 e2 e3
f2
y4 y6y3
e4 e5 e6
.50
.51 .51 .51 .51 .51 .51
.70 .70 .70 .70 .70 .70
1 1
>
popModel
<-‐
"

f1
=~
0.7*y1
+
0.7*y2
+
0.7*y3

f2
=~
0.7*y4
+
0.7*y5
+
0.7*y6

f1
~~
1*f1

f2
~~
1*f2

f1
~~
0.5*f2

y1
~~
0.51*y1

y2
~~
0.51*y2

y3
~~
0.51*y3

y4
~~
0.51*y4

y5
~~
0.51*y5

y6
~~
0.51*y6

“

>
analyzeModel
<-‐
"

f1
=~
y1
+
y2
+
y3

f2
=~
y4
+
y5
+
y6

"
>
Output
<-‐
sim(NULL,
n=50:1000,

model
=
analyzeModel,

generate
=
popModel,
std.lv
=
TRUE,

lavaanfun
=
"cfa")

>
summary(Output)
simsemで例数設計

200 600 1000
0510152025
chisq
N
Value
200 600 1000
50001000015000
aic
N
Value
200 600 1000
50001000015000
bic
N
Value
200 600 1000
0.000.050.100.15
rmsea
N
Value
200 600 1000
0.900.940.98
cfi
N
Value
200 600 1000
0.800.901.001.10
tli
N
Value
200 600 1000
0.020.060.10
srmr
N
Value
>
plotCutoﬀ(Output,
0.05)

>
Cpow
<-‐
getPower(Output)

>
ﬁndPower(Cpow,
”N”,
0.80)

>
plotPower(Output,
powerParam=c("f1=~y1",
"f1~~f2"))
200 400 600 800
0.00.20.40.60.81.0
f1=~y1
N
Power
200 400 600 800
0.00.20.40.60.81.0
f1~~f2
N
Power

•  欠損値や外れ値の処理の仕方が述べられている
> 処理方法と欠損割合を報告する
> 推奨される欠損値処理

　

a)
完全情報最尤推定法
(Mplus•Lavaanはデフォルト)

　

b)
多重代入法

　 (詳細は第３回DARM資料を参照)

※平均値代入
or
リスト(ペア)ワイズ削除はだめ

> はずれ値の処理

　　　　　単変量：　通常zscoreの±3

　　　　　多変量：　mahalanobisの距離(D2)で判定

　　　　　　　　　　　　⇒　D2<.001を削除

• 
項目８: 詳細

−4 −2 0 2 4 6
−202
1
2
34
5 6
7
8
9
10
11
12
13
14
15
1617
18
19
20
21
22
23 24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
4849 5051
52
5354 55
56
5758
59
60
6162
6364
65
6667 68
69
70 71
72
73 74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93 94
95
96
97
98
99
100
101102103 104
105
106
107108
109
110
111
112
113
114115
116
117118
119
120
121
122
123
124
125
126
127128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150151
152
153
154
155
156
157
158
159
160
161 162
163
164
165
166
167
168
169
170
171
172
173
174 175176
177
178
179180
181
182
183
184
185
186
187
188
189190
191
192
193
194
195196 197
198199
200
201
202
203
204
205
206
207 208209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224 225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
0 5 10 15 20 25
0.00.20.40.60.81.0
Ordered squared robust distance
Cumulativeprobability
2922821421382251321122301991361812214223921033295260763820125341326212927114822016173270110175108727147273298702515425415315219478170351322414928224342611886029628416621289259742069452169771772914492911052761181631222052471042881142041071451282972482558821127326417216217126971741847187272294242551022272281501302654311641492365820312532277361111724123121281119801912322312671431132507919745180131465313525372862991822871371061402091906516551217275519224398666179156202196278207158681769519266218101245209016830083852831572806129097237268307115462258183214109882229186111694822611513424963108571419518550252592332168613927419867289155116392359312410092112612681722191932345617816715213184246172082159964847526312012713341891512409616125615923238312852001032932571414429122227924422340 22 146 160
97.5%Quantile
−4 −2 0 2 4 6
−202
Outliers based on 97.5% quantile
22
40
146
160
222
223
244
279
1
2
34
5 6
7
8
9
10
11
12
13
14
15
1617
18
19
20
21
23 24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
41
42
43
44
45
46
47
4849 5051
52
5354 55
56
5758
59
60
6162
6364
65
6667 68
69
70 71
72
73 74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93 94
95
96
97
98
99
100
101102103 104
105
106
107108
109
110
111
112
113
114115
116
117118
119
120
121
122
123
124
125
126
127128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
147
148
149
150151
152
153
154
155
156
157
158
159
161 162
163
164
165
166
167
168
169
170
171
172
173
174 175176
177
178
179180
181
182
183
184
185
186
187
188
189190
191
192
193
194
195196 197
198199
200
201
202
203
204
205
206
207 208209
210
211
212
213
214
215
216
217
218
219
220
221
224 225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266267
268
269
270
271
272
273
274
275
276
277
278
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
−4 −2 0 2 4 6
−202
Outliers based on adjusted quantile
1
2
34
5 6
7
8
9
10
11
12
13
14
15
1617
18
19
20
21
22
23 24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
4849 5051
52
5354 55
56
5758
59
60
6162
6364
65
6667 68
69
70 71
72
73 74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93 94
95
96
97
98
99
100
101102103 104
105
106
107108
109
110
111
112
113
114115
116
117118
119
120
121
122
123
124
125
126
127128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150151
152
153
154
155
156
157
158
159
160
161 162
163
164
165
166
167
168
169
170
171
172
173
174 175176
177
178
179180
181
182
183
184
185
186
187
188
189190
191
192
193
194
195196 197
198199
200
201
202
203
204
205
206
207 208209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224 225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
mvoutlierパッケージ
>
library(mvoutlier)

>
ap.plot(x,
alpha=.01)

•  使用した統計ソフト (パッケージ)の名前とバー
ジョンが報告されている
•  パラメタの推定法が指定され，前提となる仮定
が述べられている
デフォルトは最尤法が多い
最尤法の前提
　　　⇒多変量正規性
多変量正規性の検定
　　⇒1変量ずつ尖度•歪度を検討 (e.g., 尖度<7, 歪度<2)
　　　⇒Mardiaの多変量尖度検定 (1.96以上で逸脱)
項目９: 詳細

MVNパッケージで
多変量尖度検定
plotが直線から逸脱してなければ，OK

a)  収束の問題：デフォルトの反復回数で収束しない

対処⇒反復回数を増やす

b)  ヘイウッドケース: 誤差分散が0 or 負の値をとる

　対処①
：誤差分散が負の値をとる変数を分析から除外する

　対処②
誤差分散を0に固定

　対処③
ADF推定法を用いる

c)  not positive deﬁnite
(相関行列に1以上の値が含まれる)

項目10: 詳細
収束，過剰推定，モデルの識別性に関
わる問題が報告され，議論されている

行列内に1以上の値が含まれる

問題の原因となる行列

　①
標本共分散
(相関)行列

　②
情報行列

　③
推定のための重み行列

　④
モデルから構成される共分散行列

　⑤
母数行列
(←問題なし)　

Task
1.000
Rela,ons
.937
1.000
Management
.908
.906
1.000
Auribute
.985
1.010
.951
1.000
not positive deﬁnite

①標本共分散
(相関)行列における原因と対処

　原因A:
観測変数間に完全な線形関係がある

　　対処：他の変数から線形従属となっている変数を生成

　原因B:
欠損値が含まれる

　　　対処：欠損値代入

　原因C:
カテゴリカル変数の相関行列

　　対処：推定法(WLS,
WLSMV)

　原因D:
観測変数の数より標本が少ない場合

対処：標本数を増やす

　原因E:
識別性の問題

　　対処：母数を固定など


②
情報行列

　　原因：識別性の問題

　　対処：母数固定など

③
推定のための重み行列が原因

　　対処：標本数を増やす，推定法をGLS,
ULS，MLに

④
モデルから構成される共分散行列が原因

　　主成分分析であればモデルに原因なし

　　正統な理由があればULSで解を求めることが可能

　　

初期値設定によって対処可能である場合もある

　　　


•観測変数の要約統計量が提示されている
•ローデータへのアクセス方法が呈示されている

　　サンプルサイズ

　　相関(共分散)行列

　　標準誤差

　　平均，信頼性

項目11：詳細

•  潜在変数間の構造的な関連を含むモデルにお
いて，二段階分析プロセスに準じてまとめら
れている

　　　測定モデルの検討⇒構造モデルの検討

項目12：詳細
A B
# # #
# #
2
#
3
# # #
# #
2
#
3

13.
適合度
項目13：詳細
適合度は以下の指標から総合的に判断する
基準値の参照元を明示する
　a) 絶対的指標：　データとモデルの共分散行列の類似度
　 (absolute indices) 　　　
　b) 増分的指標：　独立モデルと比較して，分析モデルによって
　 (incremental indices)　データの適合が改善した度合い
　c) 倹約的指標：モデルの複雑さを考慮した，モデルのデータ
　 (parsimonious indices) に対する近似度
　
　　
指標
内容
基準
a)
SRMR
モデルで説明できなかった分散の大きさ
.08以下
b)
CFI
自由度を考慮した乖離度の改善の大きさ
.95以上
c)
RMSEA
1自由度あたりの乖離度の大きさ
.05以下

競合モデルにおいて，統計的検定や情報量
基準を用いた比較がされている

> モデル間にネスト関係あり
　
⇒
尤度比検定：

2つのモデルのχ2値の差 (⊿χ2)
の有意性

> ネスト関係なし
　
⇒
情報量基準

　　　AIC,
BIC,
aBIC
(値が小さいほど当てはまりがよい)

項目14：詳細

15.
モデルの再特定
事後的に特定されたモデルにおいて，理論的，
統計的な正当性が呈示されている

> wald検定

　　　　パスを0とした場合を帰無仮説とし，棄却されなけれ
　　　ば(C.R. が1.96未満)パスを減らす

　　>
LM検定，修正指数 (modiﬁcation index)
パスを増やして，χ2値が有意に減少 (3.84)すれば，　
　　　パスを追加

※最近は

　減少が10以上とする

　場合が多い

(Mplusのデフォは10)

項目15：詳細

•  誤差共分散を仮定する

　⇒理論的な正当性が必要

　

項目15：詳細
v2
v1
v5
v4
v6
e
2
e
1
e
1

•  潜在因子の質が信頼性と妥当性の観点か
ら述べられている

　　>妥当性

eﬀect
indicatorへのパスの平均が.50以上

> 信頼性

coeﬃent
H
(Hancock,
&
Mueller,
2001)

.70以上が良い

項目16：詳細
H =1/ 1+ ( i
2
/1− i
2
i=1
k
∑
#
$
%
&
'
(
i
2
=
因子負荷の２乗

•  標準化，非標準化パラメータ推定値が統計的有意
性に関する情報と共に提供されている
•  主要な構造的アウトカムに対するR2値が呈示さ
れている
　　推定値

　　　⇒標準化、非標準化の双方を乗せるの望ましい

　　有意性
(z値,
R2値,
パス図なら＊)を明示

項目17：詳細

•モデルの適合が良くても，あくまで，観察
データの関係に対する説明の一つとして耐えう
るもの
　　モデルが確証された

　　 (a
model
was
conﬁrmed)

　　理論が真であると証明された

　　 (a
theory
was
proven
to
be
true)

　などと表現しない

　
• 個々のパラメタの推定結果の解釈で，
因果を言及するの悪くない (反論はある)
項目18：詳細

第4回DARM勉強会 (構造方程式モデリング)

More Related Content

What's hot

Viewers also liked

Similar to 第4回DARM勉強会 (構造方程式モデリング)

第4回DARM勉強会 (構造方程式モデリング)