6. 基础部数学教研室
6/49
数学
建模
11.1 偏最小二乘回归分析
考 虑 p 个 因 变 量 1 2
, , , p
y y y 与 m 个 自 变 量
1 2
, , , m
x x x 的建模问题。偏最小二乘回归的基本作法
是首先在自变量集中提出第一成分 1
u ( 1
u 是 1, , m
x x
的线性组合,且尽可能多地提取原自变量集中的变异
信息);同时在因变量集中也提取第一成分 1
v ,并要
求 1
u 与 1
v 相关程度达到最大。
然后建立因变量 1, , p
y y
与 1
u 的回归,如果回归方程已达到满意的精度,则算
法中止。
7. 基础部数学教研室
7/49
数学
建模
否则继续第二对成分的提取,直到能达到满意的
精 度 为 止 。 若 最 终 对 自 变 量 集 提 取 r 个 成 分
1 2
, , , r
u u u ,偏最小二乘回归将通过建立 1, , p
y y 与
1 2
, , , r
u u u 的回归式,然后再表示为 1, , p
y y 与原自变
量的回归方程式,即偏最小二乘回归方程式。
8. 基础部数学教研室
8/49
数学
建模
为了方便起见,不妨假定 p个因变量 1, , p
y y 与m
个自变量 1, , m
x x 均为标准化变量。自变量组和因变
量组的n次标准化观测数据矩阵分别记为
11 1
1
m
n nm
a a
A
a a
,
11 1
1
p
n np
b b
B
b b
.
偏最小二乘回归分析建模的具体步骤如下
9. 基础部数学教研室
9/49
数学
建模 (1)分别提取两变量组的第一对成分,并使之相
关性达最大。
假设从两组变量分别提出第一对成分为 1
u 和 1
v , 1
u
是自变量集 1
[ , , ]T
m
X x x
的线性组合
(1)
1 11 1 1
T
m m
u x x X
,
1
v 是因变量集 1
[ , , ]T
p
Y y y
的线性组合
(1)
1 11 1 1
T
p p
v y y Y
。
为了回归分析的需要,要求
i) 1
u 和 1
v 各自尽可能多地提取所在变量组的变异信
息;
ii) 1
u 和 1
v 的相关程度达到最大。
10. 基础部数学教研室
10/49
数学
建模
由两组变量集的标准化观测数据矩阵A和B,
可以
计算第一对成分的得分向量,记为 1
û 和 1
v̂
11 1 11
(1)
1
1 1
ˆ
m
n nm m
a a
u A
a a
, (11.1)
11 1 11
(1)
1
1 1
ˆ
p
n np p
b b
v B
b b
. (11.2)
11. 基础部数学教研室
11/49
数学
建模
第一对成分 1
u 和 1
v 的协方差 1 1
Cov( , )
u v 可用第一
对成分的得分向量 1
û 和 1
v̂ 的内积来计算。故而以上两
个要求可化为数学上的条件极值问题
(1) (1) (1) (1)
1 1
ˆ ˆ
max ( ) ( ) T T
u v A B A B
s.t.
2
(1) (1) (1)
2
(1) (1) (1)
1,
1.
T
T
(11.3)
12. 基础部数学教研室
12/49
数学
建模
利用Lagrange乘数法,问题化为求单位向量 (1)
和
(1)
,
使 (1) (1)
1
T T
A B
达到最大。
问题的求解只须通
过计算m m
矩阵 T T
M A BB A
的特征值和特征向
量,且M的最大特征值为 2
1
,相应的单位特征向量就
是所求的解 (1)
,而 (1)
可由 (1)
计算得到
(1) (1)
1
1 T
B A
(11.4)
13. 基础部数学教研室
13/49
数学
建模
(2)
建立 1, , p
y y 对 1
u 的回归及 1, , m
x x 对 1
u 的回
归。
假定回归模型为
(1)
1 1
(1)
1 1
ˆ ,
ˆ ,
T
T
A u A
B u B
(11.5)
其中 (1)
11 1
[ , , ]T
m
,(1)
11 1
[ , , ]T
p
分别是多对
一的回归模型中的参数向量, 1
A 和 1
B 是残差阵。
15. 基础部数学教研室
15/49
数学
建模
(3)用残差阵 1
A 和 1
B 代替A和B重复以上步骤。
记 (1)
1
ˆ ˆ T
A u
, (1)
1
ˆ ˆ T
B u
,则残差阵 1
ˆ
E A A
,
1
ˆ
B B B
。如果残差阵 1
B 中元素的绝对值近似为 0,
则认为用第一个成分建立的回归式精度已满足需要
了,
可以停止抽取成分。
否则用残差阵 1
A 和 1
B 代替A和
B重复以上步骤即得
(2)
21 2
[ , , ]T
m
, (2)
21 2
[ , , ]T
p
,
16. 基础部数学教研室
16/49
数学
建模
而 (2)
2 1
û A
, (2)
2 1
v̂ B
为第二对成分的得分向量,
2
(2)
1 2 2
ˆ ˆ
T
A u u
,
2
(2)
1 2 2
ˆ ˆ
T
B u u
分别为 ,
X Y 的第二对成分的负荷量。这时有
(1) (2)
1 2 2
(1) (2)
1 2 2
ˆ ˆ ,
ˆ ˆ .
T T
T T
A u u A
B u u B
17. 基础部数学教研室
17/49
数学
建模
(4)设n m
数据阵 A的秩为 min( 1, )
r n m
,则
存在r个成分 1 2
, , , r
u u u ,使得
(1) ( )
1
(1) ( )
1
ˆ ˆ ,
ˆ ˆ .
T r T
r r
T r T
r r
A u u A
B u u B
(11.7)
把 1 1
k k km m
u x x
( 1,2, ,
k r
), 代 入
(1) ( )
1
r
r
Y u u
,
即得 p个因变量的偏最小二乘回
归方程式
1 1
j j jm m
y c x c x
, 1,2, ,
j p
. (11.8)
19. 基础部数学教研室
19/49
数学
建模
每次舍去第i个观测数据( 1,2, ,
i n
)
,对余下
的 1
n 个观测数据用偏最小二乘回归方法建模,并考
虑抽取h(h r
)个成分后拟合的回归式,然后把舍
去的自变量组第i个观测数据代入所拟合的回归方程
式,得到 ( 1,2, , )
j
y j p
在第i 个观测点上的预测值
( )
ˆ ( )
i j
b h 。
20. 基础部数学教研室
20/49
数学
建模
对 1,
i 2, ,n重复以上的验证,即得抽取h个成
分时第 j个因变量 ( 1,2, , )
j
y j p
的预测误差平方和
为
2
( )
1
ˆ
PRESS ( ) ( ( ))
n
j ij i j
i
h b b h
, 1,2, ,
j p
,
1
[ , , ]T
p
Y y y
的预测误差平方和为
1
PRESS( ) PRESS ( )
p
j
i
h h
.
30. 基础部数学教研室
30/49
数学
建模
解 1 2 3
, ,
x x x 分别表示自变量指标体重、腰围、脉
搏, 1 2 3
, ,
y y y 分别表示因变量指标单杠、弯曲、跳高,
自变量的观测数据矩阵记为 20 3
( )
ij
A a
,因变量的观
测数据矩阵记为 20 3
( )
ij
B b
。
31. 基础部数学教研室
31/49
数学
建模
(1)数据标准化
将各指标值 ij
a 转换成标准化指标值 ij
a ,
(1)
(1)
ij j
ij
j
a
a
s
, 1,2, ,20
i , 1,2,3
j ,
其中
20
(1)
1
1
20
j ij
i
a
, (1) (1) 2
1
1
( )
20 1
n
j ij j
i
s a
,
( 1,2,3
j ),即 (1) (1)
,
j j
s
为第 j个自变量 j
x 的样本均值和
样本标准差。对应地,称
(1)
(1)
j j
j
j
x
x
s
, 1,2,3
j ,
为标准化指标变量。
32. 基础部数学教研室
32/49
数学
建模
类似地,将 ij
b 转换成标准化指标值 ij
b ,
(2)
(2)
ij j
ij
j
b
b
s
, 1,2, ,20
i , 1,2,3
j ,
其中
20
(2)
1
1
20
j ij
i
b
, (2) (2) 2
1
1
( )
20 1
n
j ij j
i
s b
,
( 1,2,3
j ),即 (2) (2)
,
j j
s
为第 j个因变量 j
y 的样本均值和
样本标准差;对应地,称
(2)
(2)
j j
j
j
y
y
s
, 1,2,3
j ,
为对应的标准化变量。
35. 基础部数学教研室
35/49
数学
建模
(3)分别提出自变量组和因变量组的成分
使用 Matlab 软件,求得的各对成分分别为
1 1 2 3
1 1 2 3
0.0951 0.1244 0.0385 ,
2.1191 2.5809 0.8869 ,
u x x x
v y y y
2 1 2 3
2 1 2 3
0.1279 0.2429 0.2202 ,
0.8054 0.1171 0.5486 ,
u x x x
v y y y
3 1 2 3
3 1 2 3
0.4416 0.3790 0.1055 ,
0.7781 0.1987 0.0381 .
u x x x
v y y y
前两个成分解释自变量的比率为 92.13%,只要取
两对成分即可。
38. 基础部数学教研室
38/49
数学
建模
将标准化变量 , ( 1,2,3)
j j
y x j 分别还原成原始变
量 ,
j j
y x ,得到回归方程
1 1 2 3
47.0375 0.0165 0.8246 0.0970
y x x x
,
2 1 2 3
612.7674 0.3497 10.2576 0.7422
y x x x
,
3 1 2 3
183.9130 0.1253 2.4964 0.0510
y x x x
.
48. 基础部数学教研室
48/49
数学
建模
标准化变量的偏最小二乘回归方程为
1 1 2 3 4
5 6 7
0.0103 0.1019 0.0034 0.2559
0.3404 0.2785 0.1607
y x x x x
x x x
2 1 2 3 4
5 6 7
0.2845 0.4648 0.3146 0.1645
0.3065 0.1885 0.0262
y x x x x
x x x
3 1 2 3 4
5 6 7
0.6418 1.1426 0.7213 0.5789
0.9702 0.6517 0.0677
y x x x x
x x x
4 1 2 3 4
5 6 7
0.0034 0.1211 0.0121 0.2774
0.3713 0.3022 0.1708
y x x x x
x x x
.
49. 基础部数学教研室
49/49
数学
建模
最终得到的偏最小二乘回归方程为
1 1 2 3
5 6 7
79424.4109 0.0218 0.0136 0.0139 2.537
1363.7331 36.6921 1.1572
y x x x
x x x
2 1 2
3 4 5
6 7
129900688.8451 5414.9287 557.4809
11510.3590 14707.6028 11070274.6617
223847.8474 1700.6600
y x x
x x x
x x
3 1 2 3
4 5 6 7
21077.0402 0.2465 0.0277 0.5328
1.0447 707.4398 15.6215 0.0887
y x x x
x x x x
4 1 2 3
4 5 6 7
767.8584 0.0026 0.0058 0.0177
0.9929 536.9458 14.3677 0.4438
y x x x
x x x x