SlideShare a Scribd company logo
1 of 24
Download to read offline
Bài 7: Lựa chọn mô hình hồi quy
STA301_Bài 7_v1.0013101214 93
BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY
Mục tiêu
Sau khi kết thúc bài, học viên sẽ hiểu
được những vấn đề sau đây:
 Các thuộc tính của một mô hình tốt.
 Các loại sai lầm về định dạng của
mô hình.
 Hậu quả khi chọn mô hình định dạng sai.
 Kiểm định phát hiện mô hình định
dạng sai.
 Giới thiệu mô hình dạng lôga tuyến tính.
 Giới thiệu mô hình với biến giả.
Nội dung Hướng dẫn học
 Tiêu chuẩn cho một mô hình tốt.
 Các loại sai lầm định dạng của mô hình.
 Hậu quả nếu một mô hình định dạng sai.
 Các kiểm định phát hiện sai lầm định dạng.
 Các loại mô hình với biến giả.
 Ôn lại các bài học trước để hiểu được
các loại mô hình hồi quy.
 Tập trung phân biệt các hậu quả xảy
ra khi có một loại sai lầm định dạng
nào đó.
 Tập trung vào các phương pháp kiểm
định để phát hiện các sai lầm định dạng.
 Tập trung hiểu rõ bản chất của việc
đưa biến giả vào mô hình và các loại
mô hình có biến giả.
 Xem xét kỹ các ví dụ trong giáo trình
và bài giảng.
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
94 STA301_Bài 7_v1.0013101214
TÌNH HUỐNG DẪN NHẬP
Tình huống
Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng
mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề
xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng
mô hình nào tốt hơn để phân tích trong tình huống này?
Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem
xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới
tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy
E(TN/Di) = β1 + β2Di
trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ.
Câu hỏi
 Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập
hay không?
 Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí
nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không.
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 95
Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình
hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần
nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy
luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa
biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số
liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô
hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì
càng tốt hay không, hay một mô hình phải có phương trình hồi quy
thật phức tạp, thật đẹp về mặt toán học mới là tốt?
7.1. Các thuộc tính của một mô hình tốt
BÀI TOÁN
Xét hai mô hình hồi quy tuyến tính
i 1 2 2i 3 3i k ki iY X X ... X u          , (7.1)
i 1 2 2i 3 3i m mi iY X X ... X v          , (7.2)
trong đó m k (do vậy sai số iu có xu thế nhỏ hơn sai số iv ). Có thể kết luận là mô
hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến
nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không?
Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn?
Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay
không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu
chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận
dụng rộng rãi trong thực tế, bao gồm:
 Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy
nhiên phải chứa đựng những biến độc lập chủ yếu
ảnh hưởng đến biến phụ thuộc để giải thích được
các hiện tượng cần nghiên cứu.
Việc đánh giá biến độc lập nào ảnh hưởng một
cách có ý nghĩa đến biến phụ thuộc, một mặt phải
dựa trên ý nghĩa thực tế của mô hình. Mặt khác có thể
dựa vào phép kiểm định về các hệ số trong phương
trình hồi quy.
 Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với
một tập số liệu cho trước.
Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định
không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn
và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số
ước lượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô
hình hồi quy có tính xác định.
 Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc
càng nhiều càng tốt.
Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá
tính thích hợp của mô hình so với số liệu.
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
96 STA301_Bài 7_v1.0013101214
 Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng.
Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và
phương sai thuần nhất của sai số, ... sẽ đảm bảo về mặt lý thuyết của mô hình hồi
quy tuyến tính cổ điển.
 Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết
quả dự báo càng sát với thực tế càng tốt.
7.2. Cách tiếp cận lựa chọn mô hình
Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta
có thể tiến hành lần lượt theo các bước sau:
 Bước 1: Xác định danh sách các biến độc lập có
thể có trong mô hình. Dựa vào ý nghĩa thực tế của
bài toán đã được đặt ta, ta cần liệt kê tất cả những
biến độc lập có thể có của mô hình, là những biến
có khả năng ảnh hưởng đến giá trị của biến phụ
thuộc. Những biến này có thể đã có sẵn trong danh
sách các biến của bộ số liệu, song cũng có thể là
biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi.
 Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao
gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi,
tự tương quan, phân bố không chuẩn của sai số, ... và khắc phục các vi phạm phát
hiện được.
 Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên
kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử
dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi
quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc
lập và biến phụ thuộc. Chẳng hạn nếu trên đồ thị, các chấm tương ứng với các
quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể
chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một
đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi
quy phi tuyến thích hợp.
 Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa
chọn mô hình. Hệ số xác định là một thước đo
thường được dùng đầu tiên để đánh giá chất lượng
của mô hình hồi quy. Nếu hệ số xác định có giá trị
lớn hơn 50% thì có thể coi mô hình khá phù hợp
với tập số liệu. Còn nếu hệ số xác định nhỏ hơn
30% thì có thể khẳng định mô hình không phù hợp
và nên tìm mô hình khác.
Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đánh giá các
mô hình hồi quy như:
o Tiêu chuẩn log-hợp lý (log-likelihood):
n
2 2
i
i 1
n n 1
L ln ln(2 ) u
2 2 2 
       .
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 97
Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương.
Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì
cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình
cho rằng không hề có quan hệ giữa các biến độc
lập và biến phụ thuộc). Trong thực hành, giá trị
của hàm L được ước lượng bằng công thức:
n RSS
L (1 ln(2 ) ln( ))
2 n
     .
o Tiêu chuẩn AIC (Akaike info criterion):
2k /nRSS
AIC ( ).e ,
n

trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì
mô hình càng phù hợp với số liệu.
o Tiêu chuẩn Schwarz (Schwarz criterion):
k / nRSS
SC ( ).n
n

trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô
hình càng phù hợp với số liệu.
Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều
khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây:
 Nếu hai mô hình hồi quy chứa danh sách các
biến độc lập khác nhau thì hệ xác định của
hai mô hình đó (có thể bằng nhau) không
giúp kết luận được mô hình nào tốt hơn;
 Có thể việc loại bỏ bớt một số biến nào đó ra
khỏi phương trình hồi quy tuy làm giảm hệ số
xác định, song về thực chất lại không làm giảm
đáng kể chất lượng của mô hình. Mặt khác,
trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế”
hơn, mặc dù sai số ước lượng có thể lớn hơn.
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu
chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy:
o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 1
0 2 3 k
1 i
H : ... 0
H : 0
      

 
Việc chấp nhận giả thuyết 0H có nghĩa là tất cả các biến độc lập không hề ảnh
hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0H có
nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô
hình hồi quy phù hợp với số liệu ở một mức độ nhất định.
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
98 STA301_Bài 7_v1.0013101214
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số:
2
2
R / k
F
(1 R ) /(n k 1)

  
,
trong đó 2
R là hệ số xác định của mô hình hồi quy, k là số tham số trong mô
hình, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp
xỉ phân phối Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được
xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã
cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H .
Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước
đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài 88D và
biến độc lập là tổng sản phẩm quốc nội 88Y . Thực hiện hồi quy 88D theo 88Y ,
ta có kết quả trong bảng sau:
Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô
hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá
trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000
(rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và
log - hợp lý.
7.3. So sánh hai mô hình hồi quy
Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh
giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 99
mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình.
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô
hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 2
0 m 1 m 2 k
1 i
H : ... 0
H : 0,i {m 1,m 2,...,k}
       

    
Việc chấp nhận giả thuyết 0H có nghĩa các biến độc lập m 1 m 2 kX ,X ,...,X  không có vai
trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự
báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa mô hình (7.1)
với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho
biến phụ thuộc.
Trong thực hành, nếu giả thuyết 0H được chấp nhận
thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít
hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết
bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho
kết quả thực sự chính xác hơn.
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số
2 2
k m
2
k
R Rn k
F
k m 1 R

 
 
,
trong đó 2
kR là hệ số xác định của mô hình (7.1) với k tham số, 2
mR là hệ số xác định
của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số
này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể
xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết 0H .
7.4. Hậu quả của việc chọn mô hình không phù hợp
Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái
niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với
thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay
không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả
các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi
giải quyết một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một
trong những nguyên nhân sau gây ra:
 Chọn dạng hàm không thích hợp. Dạng hàm hồi
quy không thích hợp có thể dẫn đến các hậu quả sau:
o Các hệ số hồi quy bị ước lượng chệch, thậm chí
dấu của hệ số hồi quy bị sai, dẫn đến những
diễn giải mâu thuẫn với thực tế;
o Hệ số xác định thể hiện độ phù hợp của mô
hình với số liệu có thể không cao;
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
100 STA301_Bài 7_v1.0013101214
o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê;
o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến
động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ
bản của mô hình hồi quy.
 Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô
hình phù hợp thực sự phải là
0 1 1 2 2Y X X u     ,
nhưng ta lại sử dụng mô hình
0 1 1Y X v    
nghĩa là biến 2X bị thiếu, trong khi biến này thực
sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác
nhau. Nếu biến 2X tương quan với biến 1X thì các ước lượng 0 và 1 của 0 và
1 sẽ là những ước lượng chệch và không vững của 0 và 1 , tức là
0 0E( )   ; 1 1E( )   .
Thực vậy, vì hai biến 1X và 2X tương quan với nhau nên ta có
2 0 1 1X X      ,
với 0 , 1 và  lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến
2X theo biến 1X . Lúc đó,
1 1 2 1E( )     ; 0 0 2 2 1 1E( ) (X X )      .
Do vậy, tùy theo dấu của 2 1  mà 1 sẽ cho ước lượng quá cao hoặc quá thấp so
với giá trị thực của 1 .
Trong trường hợp 2X và 1X không tương quan với nhau thì 1 0  và khi đó 1 là
ước lượng không chệch của 1 , nhưng 0 lại là ước lượng chệch của 0 , nếu
2X 0 .
Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số
cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo
theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm
định thông thường không còn hiệu lực.
 Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại
những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là
0 1 1Y X u    , (7.3)
nhưng ta lại sử dụng mô hình
0 1 1 2 2Y X X v       (7.4)
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 101
nghĩa là dùng thừa biến 2X . Khi đó các hệ số hồi
quy ước lượng được từ mô hình (7.4) vẫn là các
ước lượng vững, không chệch, nghĩa là ta vẫn có
0 0E( )   ; 1 1E( )   và 2 2E( ) 0    .
Đồng thời, phương sai của của sai số vẫn được ước
lượng một cách không chệch, do đó khoảng tin cậy
vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường
vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là
ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng
tương ứng thu được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số
sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị
đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể
hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu được ước
lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động
một cách có ý nghĩa lên biến phụ thuộc).
7.5. Kiểm định phát hiện sự bỏ sót biến
Với một tập số liệu cho trước, giả sử ta sử dụng mô
hình hồi quy
i 0 1 i iY X u    . (7.5)
Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến
phụ thuộc Y, còn có biến độc lập nào khác có ảnh
hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần
giải quyết bài toán kiểm định sau:
BÀI TOÁN KIỂM ĐỊNH 3
0H : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
1H : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
Việc chấp nhận giả thuyết 0H có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự
ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có
mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc
lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa là mô hình
(7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan
trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình.
Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô
hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W
i 0 1 i 2 i iY X W v       . (7.6)
Với mô hình này, ta xét hai trường hợp như sau:
 Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết
bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như:
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
102 STA301_Bài 7_v1.0013101214
o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi
dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô
hình (7.6) và kiểm định giả thuyết 2 0  . Lúc đó, nếu giả thuyết này bị bác
bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết 2 0  được chấp
nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô
hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau.
o Cách 2: Sử dụng hàm log-hợp lý. Xét thống
kê 1 0LR 2(l l )   , trong đó 1l và 0l tương
ứng là giá trị lớn nhất của lôgarit hàm hợp lý
ứng với mô hình (7.6) và (7.5). Khi giả thuyết
0H đúng, thống kê LR có phân phối tiệm cận
phân phối khi bình phương với 1 bậc tự do
( 2
(1) ). Nếu 2
LR (1)  ( thường được lấy
bằng 5%) thì ta bác bỏ 0H và kết luận có hiện
tượng bỏ sót biến độc lập W.
o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định
2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1)
và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình
như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu
giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy.
Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong
mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc
bỏ sót một nhóm biến độc lập trong mô hình.
Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1
biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã
kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có
mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2)
hay không.
Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng
cách lập thống kê k mLR 2(l l )   , trong đó kl và ml tương ứng là giá trị lớn nhất
của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết 0H đúng,
thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do
( 2
(k m)  ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa
ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không.
 Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc
lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của
các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình
đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay
chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh
hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước
như sau:
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 103
o Bước 1: Dùng số liệu để ước lượng các giá trị 0
ˆ và 1
ˆ của các hệ số hồi quy
trong mô hình (7.5);
o Bước 2: Dùng các hệ số 0
ˆ và 1
ˆ và các giá trị quan sát được của biến độc lập
để ước lượng các giá trị của biến phụ thuộc
i 0 1 i
ˆ ˆˆY X   .
Biến ˆY với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập
thêm các biến phụ 2ˆY , 3ˆY và 4ˆY . Có thể thấy
biến ˆY chứa phần thông tin của biến phụ thuộc
được thể hiện qua biến độc lập X. Đồng thời có
thể cho rằng các biến 2ˆY , 3ˆY và 4ˆY có thể còn
chứa một phần thông tin khác của biến phụ
thuộc chưa được mô tả qua biến X. Như vậy, để
kiểm tra xem mô hình (7.5) có bỏ sót biến độc
lập nào đó hay không, ta có thể tiến hành kiểm
định để biết liệu các biến 2ˆY , 3ˆY và 4ˆY đúng
là nhóm biến bị bỏ sót hay không.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Bước 3: Ta kiểm định giả thuyết 0 2 3 4H : 0      bằng cách dùng thống kê
2 2
k m
2
k
R Rn k
F
k m 1 R

 
 
với n là số quan sát có trong số liệu, k=5, m=2, còn 2
kR và 2
mR lần lượt là hệ
số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với
bậc tự do n – 5 vàk m 3  , qua đó tính được xác suất ý nghĩa để đưa ra kết
luận chấp nhận hay bác bỏ giả thuyết 0H . Việc chấp nhận giả thuyết cho phép
khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì
có nghĩa trong mô hình (7.5) còn sót biến độc lập.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến 2ˆY , 3ˆY
và 4ˆY đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình
hồi quy (7.5),
i 0 1 i iY X u    ,
và mô hình
2 3 4
i 0 1 i 2 i 3 i 4 i i
ˆ ˆ ˆY X Y Y Y v           . (*)
o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành,
bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
104 STA301_Bài 7_v1.0013101214
 Thứ nhất: Dùng các hệ số 0
ˆ và 1
ˆ và các giá trị quan sát được của biến
độc lập để thu ước lượng biến phụ thuộc ˆY và biến phụ 2ˆY , 3ˆY , 4ˆY , đồng
thời xác định các giá trị của biến phần dư
i i i
ˆˆu Y Y  ; i 1,2,...,n .
 Thứ hai: Xét phương trình hồi quy
2 3 4
i 0 1 i 2 i 3 i 4 i i
ˆ ˆ ˆˆu X Y Y Y v          
và dùng số liệu để ước lượng hệ số xác định 2
R của phương trình hồi quy đó;
 Thứ ba: Lập giả thuyết 0 2 3 4H : 0     
và dùng thống kê 2
nR để kiểm định giả
thuyết ấy. Thống kê này có phân phối khi
bình phương với 3 bậc tự do, qua đó tính
được xác suất ý nghĩa để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết 0H . Việc
chấp nhận giả thuyết này đồng nghĩa với
việc khẳng định không có hiện tượng bỏ sót
biến. Ngược lại, nếu giả thuyết bị bác bỏ thì
mô hình (7.5) còn bỏ sót biến độc lập.
Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng
của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định
được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến
và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của
chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ
sót để cải tiến mô hình.
7.6. Kiểm định phát hiện hiện tượng thừa biến
Ta thấy bài toán kiểm định phát hiện hiện tượng thừa
biến độc lập trong mô hình hồi quy chính là một phần
của bài toán “ngược” đối với bài toán kiểm định 3
nhằm phát hiện sự bỏ sót biến độc lập trong mô hình,
với giả thuyết của bài toán này được đổi thành đối
thuyết của bài toán kia, và ngược lại, đối thuyết được
chuyển tương ứng thành giả thuyết, hơn nữa đã có số
liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình. Như vậy, hoàn
toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để
phát hiện hiện tượng thừa biến.
7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính
Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố
chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô
hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố
chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có
phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, với số liệu về thu nhập trên đầu
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 105
người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong
hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người”
(incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita
bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải
với dạng của phân bố chuẩn.
Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy
tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính
với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình
0 1Y X v     , (7.7)
ta nên dùng mô hình
10 0 1log (Y) X u    . (7.8)
Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy 0
ˆ và 1
ˆ của phương
trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của
biến phụ thuộc nguyên thủy Y qua biểu thức:
0 1 0 1
ˆ ˆ ˆ ˆX XˆY 10 10 .(10 )   
  . (7.9)
Mô hình (7.8) được gọi là mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn
hay dùng mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ
thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông
thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương
10 0 1 10log (Y) log (X) W     . (7.10)
Với các giá trị 0
ˆ và 1
ˆ của phương trình hồi quy tuyến
tính trên ước lượng được bằng phương pháp bình phương
bé nhất, ta có thể xây dựng công thức để dự báo giá trị
của biến phụ thuộc nguyên thủy Y như sau:
0 1 0 1
ˆ ˆ ˆ ˆlog(X)ˆY 10 10 .(X)   
  . (7.11)
Trên đây, các mô hình (7.8)-(7.11) được trình bày cho
trường hợp hồi quy đơn, tức là khi phương trình hồi quy chỉ chứa một biến độc lập.
Mô hình hồi quy bội tương ứng với nhiều biến độc lập cũng có thể trình bày hoàn toàn
tương tự.
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
106 STA301_Bài 7_v1.0013101214
Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý
nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại
giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn
như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước.
7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả
Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc
theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến
trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được
là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lập,
yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là biến định lượng mà
là biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với
các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc
tính, tính chất, đặc điểm, ... nào đó của đối tượng.
Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một
chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh
hưởng đến khả năng sẵn sàng chi trả của khách. Các yếu tố đó có thể bao gồm tuổi,
giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa
tiến hành chuyến du lịch, ... Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời
gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng.
Như vậy, trước tiên ta cần mã hóa lại các biến định tính
để có các biến nhận các giá trị số đại diện cho biến
định tính trong phương trình. Có thể dùng các biến giả
nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các
biến định tính. Cách mã hoá bằng các biến giả như vậy
khá đơn giản và có thể giúp diễn giải các hệ số ước lượng
được của phương trình hồi quy một cách rất rõ ràng.
Chẳng hạn, ta có thể mã hóa biến giới tính thành biến
giả GT nhận giá trị 0 nếu khách hàng là nam giới, nhận giá trị 1 nếu khách hàng là phụ
nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy
0 1Y GT u     ,
trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn 0 chính bằng giá trị
chi phí trung bình của nhóm khách hàng nữ,
0 E(Y GT 0)   .
Đồng thời, hệ số dốc 1 chính là giá trị chênh lệch giữa chi phí trung bình của nhóm
khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng 0 1  
của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách
hàng nữ,
0 1 E(Y GT 1)     .
Phép kiểm định giả thuyết 0 1H : 0  về sự bằng không của hệ số dốc trong mô hình
này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam
có ngang bằng với chi phí của nhóm khách hàng nữ hay không.
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 107
Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định
tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng
với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các
quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến
giả 1D , 2D , 3D , 4D và 5D để mã hóa biến định tính “quốc tịch” như trong bảng sau:
Quốc tịch D1 D2 D3 D4 D5
Pháp 1 0 0 0 0
Nga 0 1 0 0 0
Nhật 0 0 1 0 0
Mỹ 0 0 0 1 0
Trung Quốc 0 0 0 0 1
Việt Nam 0 0 0 0 0
Trong bảng trên, biến 1D ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối
với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến 2D
ứng với nhóm khách mang quốc tịch Nga, nhận giá trị
1 đối với quan sát của khách đến từ nước Nga, nhận
giá trị 0 đối với các quan sát nhóm khác; ... Riêng đối
với nhóm quan sát ứng với khách nội địa Việt Nam, tất
cả các biến giả từ 1D đến 5D đều nhận giá trị bằng 0.
Nhóm này được lấy làm nhóm “nền” (hay còn gọi là
nhóm “chứng”), với các kết quả được lấy làm mức cơ
sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy
0 1 1 2 2 3 3 4 4 5 5Y D D D D D u.        (7.12)
để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả
ước lượng được của hệ số chặn 0 cho biết mức chi phí trung bình của nhóm khách
nội địa
0 1 2 3 4 5E(Y D D D D D 0)      
Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các
nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm
khách Pháp được ước lượng bằng 0 1 
0 1 1E(Y D 1)   
chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng
bằng 1 ; chi phí trung bình của nhóm khách Nga được ước lượng bằng 0 2 
0 2 2E(Y D 1)   
chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng
bằng 2 ; ...
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
108 STA301_Bài 7_v1.0013101214
Các phép kiểm định 1
0 1H : 0  , 2
0 2H : 0  , 3
0 3H : 0  , 4
0 4H : 0  và 5
0 5H : 0  sẽ
lần lượt cung cấp các kết luận so sánh chi phí trung
bình của từng nhóm khách phân theo quốc tịch với chi
phí trung bình của nhóm khách nội địa.
Chú ý: Các phép kiểm định trên chỉ so sánh chi phí
trung bình của các nhóm khách nước ngoài với chi phí
của nhóm “nền” (khách nội địa), chứ không so sánh
được chi phí trung bình của các nhóm khách nước ngoài
với nhau.
7.9. Mô hình hồi quy với một biến lượng và một biến chất
Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi
phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên
quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô
hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của
chuyến du lịch), vừa có biến định tính là biến biểu diễn quốc tịch của khách du lịch.
Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã
trình bày trên đây. Ta xét phương trình hồi quy
0 1 1 2 2 3 3 4 4 5 5Y D D D D D TG u          . (7.13)
Ta thấy trong mô hình này, hệ số dốc  cho biết chi
phí hàng ngày của khách du lịch, không phân biệt
người khách đó đến từ nước nào. Như vậy hệ số này
đại diện cho tính chất chung của tất cả các khách về
mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ
số còn lại thể hiện đặc thù riêng của các nhóm khách
du lịch đến từ các nước khác nhau. Có thể nói mô hình
(7.13) là mô hình tổng hợp của 6 mô hình hồi quy
tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biết quy luật chi tiêu của khách
hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự
báo chi phí của khách du lịch nội địa theo phương trình
0
ˆˆ ˆY TG    ;
chi phí của khách Pháp bằng
0 1
ˆ ˆˆ ˆY ( ) TG     ;
chi phí của khách Nga bằng
0 2
ˆ ˆˆ ˆY ( ) TG     ;
chi phí của khách Nhật bằng
0 3
ˆ ˆˆ ˆY ( ) TG     ;
chi phí của khách Mỹ bằng: 0 4
ˆ ˆˆ ˆY ( ) TG     ;
chi phí của khách Trung Quốc bằng: 0 5
ˆ ˆˆ ˆY ( ) TG     .
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 109
Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các
đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên
đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau.
Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn,
nên các phép kiểm định 1
0 1H : 0  , 2
0 2H : 0  , 3
0 3H : 0  , 4
0 4H : 0  và
5
0 5H : 0  về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự
báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của
nhóm khách nội địa. Nếu giả thuyết k
0 kH : 0  được chấp nhận thì hai mô hình
0 k
ˆ ˆˆ ˆY ( ) TG     và 0
ˆˆ ˆY TG    được coi là như nhau, chi phí của khách du lịch
của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy.
7.10. Mô hình hồi quy với một biến lượng và hai biến chất
Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du
lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là
giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành
các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau:
0 1 1 1 2 2 3 3 4 4 5 5Y GT D D D D D TG u            . (7.14)
Với mô hình này, hệ số dốc  vẫn thể hiện quy luật chung về chi phí hàng ngày của
khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù
riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số 1 cho biết sự khác nhau
giữa khách nam và khách nữ; các hệ số 1 2 3 4 5, , , ,     biểu diễn sự khác biệt về chi
phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số
0 lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu.
Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do
đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn
được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút
ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và
nữ nội địa,
0Y TG u     (đối với nam),
0 1Y TG u       (đối với nữ);
TG
Y
  0 k
 0 1
0
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
110 STA301_Bài 7_v1.0013101214
hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp,
0 1Y ( ) TG u      (đối với nam),
0 1 1Y ( ) TG u        (đối với nữ);
. . .
và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người
Trung Quốc,
0 5Y ( ) TG u      (đối với nam),
0 1 5Y ( ) TG u        (đối với nữ).
Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song
song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung.
Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12
mô hình trên đây. Cụ thể, phép kiểm định giả thuyết 0 1H : 0  cho phép chúng ta
đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính
thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định
1
0 1H : 0  ; 2
0 2H : 0  ; 3
0 3H : 0  ; 4
0 4H : 0  và 5
0 5H : 0  sẽ lần lượt cung cấp
các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số
chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn
của mô hình ứng với nhóm khách nội địa).
7.11. Sử dụng biến giả trong phân tích mùa
Tại các thời điểm khác nhau trong năm, có sự khác
nhau về giá phòng của các khách sạn và giá các dịch
vụ khác đi kèm. Do vậy, cần sử dụng biến giả để xây
dựng mô hình biểu diễn được đặc điểm “mùa” của quy
luật. Trong thực tế, đối với các địa phương, các mùa
“cao điểm”, “thấp điểm” đối với du lịch thường kéo
dài khác nhau và vào quãng thời gian khác nhau trong
năm. Tuy nhiên, để tiện trình bày, ta tạm coi một năm có bốn mùa “Xuân”, “Hạ”,
“Thu” và “Đông”. Lúc đó, ta có thể dùng ba biến giả 1M , 2M và 3M để mã hóa biến
“Mùa” theo bảng sau:
Mùa M1 M2 M3
Xuân 1 0 0
Hạ 0 1 0
Thu 0 0 1
Đông 0 0 0
Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính
theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là 1 1TG M *TG ,
2 2TG M *TG và 3 3TG M *TG , từ đó xây dựng và tiến hành phân tích mô hình
0 1 1 2 2 3 3Y TG TG TG TG u           . (7.15)
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 111
Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với
quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn , chỉ khác
nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành
0 1Y ( )TG u       .
Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là:
0 2Y ( )TG u       (mùa Hạ); (7.15b)
0 3Y ( )TG u       (mùa Thu) (7.15c)
và
0Y TG u     (mùa Đông). (7.15d)
Các phép kiểm định 1
0 1H : 0  , 2
0 2H : 0  và
3
0 3H : 0  được thực hiện khi phân tích mô hình
(7.15) sẽ lần lượt cung cấp các kết luận so sánh hệ số
dốc của từng mô hình (7.15a), (7.15b) và (7.15c) với
hệ số dốc của mô hình (7.15d), cho biết chi phí hàng
ngày của khách du lịch vào mỗi mùa Xuân, Hạ và
Thu có khác biệt một cách có ý nghĩa thống kê so
với chi phí hàng ngày của khách du lịch vào mùa
Đông hay không.
Chú ý:
 Với việc chọn nhóm các quan sát của mùa Đông làm nhóm “nền” (các biến giả
1M , M2 và M3 nhận giá trị bằng 0 tại nhóm này), các phép kiểm định trên chỉ giúp
so sánh hệ số dốc trong mô hình hồi quy của các mùa khác với hệ số dốc trong mô
hình tương ứng của mùa Đông, chứ không so sánh được hệ số dốc trong các mô
hình ứng với các mùa Xuân, Hạ và Thu với nhau. Tuy nhiên, bằng cách chọn lại
nhóm nền và lập các biến giả một cách thích hợp,
hoàn toàn có thể tiến hành kiểm định so sánh các
cặp hệ số dốc tùy ý nào đó.
 Có thể kết hợp mô hình (7.15) với mô hình (7.13)
hoặc (7.14) để có một mô hình diễn tả được cả quy
luật chung và các quy luật riêng cho các nhóm
khách du lịch và cho các mùa trong năm. Chẳng
hạn, kết hợp (7.15) với (7.13), ta sẽ có mô hình
0 1 1 1 2 2 3 3 4 4 5 5 0 1 1 2 2 3 3Y GT D D D D D TG TG TG TG u              
biểu diễn được các đặc thù về mùa và đặc thù về quốc tịch của các nhóm khách
du lịch.
 Trong các mục từ 7.8 đến 7.11, thí dụ về chi phí của khách du lịch được dùng minh
họa cho việc sử dụng biến giả để xây dựng các mô hình. Tuy nhiên, các mô hình này
có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp.
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
112 STA301_Bài 7_v1.0013101214
7.12. Hồi quy tuyến tính từng khúc
Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa
thực tế của các kết quả phân tích thu được. Tuy nhiên, có thể quy luật tuyến tính của
mô hình không phải mang tính toàn cục mà chỉ mang tính cục bộ, tức là chỉ đúng đối
với từng khoảng tương đối ngắn trong miền giá trị của một biến độc lập. Khi đó, mô
hình hồi quy tuyến tính từng khúc sẽ cung cấp một giải pháp khá phù hợp.
Thí dụ, xét mô hình mô tả quan hệ giữa thu nhập của sinh
viên sau khi ra trường phụ thuộc vào thâm niên công tác,
trong đó có xét đến ảnh hưởng của chính sách điều chỉnh
mức lương tối thiểu được nhà nước tiến hành hàng năm.
Trong mô hình này, thu nhập Y được ấn định là biến phụ
thuộc cùng với biến độc lập chính là TN (thâm niên), số
liệu được quan sát bắt đầu từ ngày 01/01/2004 đến hết
năm 2009 và giả sử việc điều chỉnh mức lương tối thiểu
được thực hiện đều đặn vào ngày 01 tháng 01 hàng năm. Lúc đó, ta có thể dùng 5 biến
giả 1N , 2N , 3N , 4N và 5N để biểu diễn khoảng thời gian của các năm như trong
bảng sau:
Năm N1 N2 N3 N4 N5
2005 1 0 0 0 0
2006 0 1 0 0 0
2007 0 0 1 0 0
2008 0 0 0 1 0
2009 0 0 0 0 1
2004 0 0 0 0 0
Ta thành lập các biến định lượng mới là 1 1TN N *TN , 2 2TN N *TN ,
3 3TN N *TN , 4 4TN N *TN và 5 5TN N *TN , từ đó xây dựng và tiến hành
phân tích mô hình
0 1 1 2 2 3 3 4 4 5 5
0 1 1 2 2 3 3 4 4 5 5
Y N N N N N
TN TN TN TN TN TN u .
            
            
Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình
hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau:
0 0Y TN u     (năm 2004);
0 1 0 1Y ( ) ( )TN u         (năm 2005);
0 2 0 2Y ( ) ( )TN u         (năm 2006);
0 3 0 3Y ( ) ( )TN u         (năm 2007);
0 4 0 4Y ( ) ( )TN         (năm 2008);
0 5 0 5Y ( ) ( )TN u         (năm 2009).
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 113
Chú ý:
 Mặc dù trong thực hành, đối với số liệu dạng giống như trong thí dụ nêu trên, có
thể tiến hành tách tập số liệu thành 6 tập số liệu của các năm và xây dựng các mô
hình hồi quy tuyến tính riêng rẽ cho từng năm bằng cách sử dụng lần lượt các tập
số liệu nhỏ. Tuy nhiên mô hình tuyến tính từng khúc trình bày trên đây cung cấp
hình ảnh tổng hợp, không rời rạc. Hơn nữa, bằng các phép kiểm định trong phân
tích mô hình tuyến tính từng khúc, ta có thể so sánh các hệ số hồi quy giữa các mô
hình hồi quy của các năm.
 Nếu các quan sát trong một khoảng thời gian của mô hình tuyến tính từng khúc có
sự phụ thuộc vào nhau, thì nên sử dụng phương pháp “Phân tích nhiều mức”
(Multi-level analysis) thay cho mô hình tuyến tính từng khúc. Có thể tham khảo
(chẳng hạn trên mạng Internet) các tài liệu khác để biết thêm về phương pháp
“Phân tích nhiều mức”.
7.13. Mô hình hồi quy đa thức
Mô hình hồi quy tuyến tính là mô hình khá đơn giản,
có các hệ số dễ dàng ước lượng được bằng các thuật
toán quen thuộc, hơn nữa lại khá thuận tiện cho việc
diễn giải ý nghĩa thực tế của mô hình. Tuy nhiên, trong
thực hành lại có nhiều bài toán không phù hợp với mô
hình tuyến tính mà phù hợp với mô hình phi tuyến.
Chẳng hạn khi có một mặt hàng mới được tung ra thị
trường, số lượng hàng tiêu thụ trong mỗi tháng sẽ tăng
lên rất nhanh do tính hấp dẫn của mặt hàng. Nhưng sau
một thời gian, thị trường sẽ dần dần bão hòa đối với mặt hàng đó và số lượng tiêu thụ
mặt hàng đó sẽ từng bước chững lại rồi giảm xuống. Đối với trường hợp này, một mô
hình phi tuyến sẽ thích hợp hơn mô hình tuyến tính. Trong số các mô hình phi tuyến,
bên cạnh mô hình hồi quy lôga tuyến tính đã nói tới trong mục 7.7, các mô hình hồi
quy đa thức cũng là những mô hình hay được xét đến. Sau đây chúng ta sẽ xem xét
mô hình hồi quy đa thức bậc hai, các mô hình đa thức bậc cao hơn có thể được xây
dựng hoàn toàn tương tự.
Mô hình hồi quy đa thức bậc hai với m biến độc lập có dạng tổng quát là
m m m
i i ij i j
i 1 i 1 j 1
Y X X X
  
          , (7.16)
trong đó Y là biến phụ thuộc, iX ;i 1,2,...,m; là các
biến độc lập; i ij, , ;i, j 1,2,...,m;    là các hệ số hồi
quy cần ước lượng, còn  là sai số hồi quy. Bằng cách
lập các biến mới
ij i jZ X X ; i, j 1,2,...,m; 
mô hình hồi quy trên đây sẽ chuyển về dạng
m m m
i i ij ij
i 1 i 1 j 1
Y X Z
  
          . (7.17)
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
114 STA301_Bài 7_v1.0013101214
Đây là mô hình hồi quy tuyến tính thông thường với 2
m m biến độc lập. Sử dụng
các thủ tục ước lượng đối với mô hình hồi quy tuyến tính bội, ta tìm được các giá trị
ước lượng của các hệ số hồi quy trong mô hình (7.17), đó cũng chính là các hệ số của
mô hình hồi quy đa thức bậc hai (7.16) đang được xét đến.
Chú ý:
Trong mô hình hồi quy tuyến tính bội (7.17) trên đây, thường có hiện tượng đa cộng
tuyến giữa biến iX và biến iiZ , i 1,2,...,m . Do vậy, trước khi tiến hành ước lượng
các hệ số của mô hình, ta nên xử lý hiện tượng đa cộng tuyến trong tập hợp 2
m m
biến độc lập của mô hình.
7.14. Ảnh hưởng tương tác
Trong mô hình hồi quy bội với một biến phụ thuộc và nhiều biến độc lập, ngoài ảnh
hưởng riêng rẽ của từng biến độc lập, biến phụ thuộc có thể còn chịu ảnh hưởng của
sự tương tác giữa các cặp biến độc lập, giữa bộ ba, bộ bốn các biến độc lập, ... Các
ảnh hưởng tương tác có thể làm giá trị của biến phụ thuộc tăng lên, song tương tác
cũng có thể làm giá trị của biến phụ thuộc giảm xuống.
Trong mô hình (7.17) trên đây, hệ số ij cho ta biết ảnh
hưởng tương tác của hai biến độc lập iX và jX tác
động lên giá trị của biến phụ thuộc Y . Phép kiểm định
giả thuyết ij
0 ijH : 0  cho phép chúng ta đưa ra kết
luận về ảnh hưởng của sự tương tác đó. Nếu giả thuyết
được chấp nhận thì ta có thể kết luận sự tương tác
không gây ra tác động mang tính thống kê đối với giá
trị của Y . Nếu ngược lại, giả thuyết bị bác bỏ, thì tương tác của hai biến độc lập iX
và jX có tác động thực sự lên giá trị của biến phụ thuộc Y . Khi đó, nếu ij 0  thì giá
trị của Y sẽ tăng lên khi cả iX và jX tăng lên (tương tác có tác động đồng biến); còn
nếu ij 0  thì giá trị của Y sẽ tăng lên khi cả iX và jX tăng lên (tương tác có tác
động nghịch biến).
Chú ý:
 Việc diễn giải ảnh hưởng của tương tác sẽ rõ ràng và dễ hiểu hơn, khi các biến độc
lập đều là các biến nhị phân (chỉ nhận hai giá trị 0-1). Tuy nhiên, sự tương tác có
thể xuất hiện giữa các biến định tính, giữa các biến định lượng, cũng như giữa biến
định và biến định lượng (trước khi đưa vào mô hình hồi quy để xét tính tương tác,
các biến định tính nên được đưa về các biến nhị phân bằng cách sử dụng biến giả).
 Mô hình (7.17) giúp chúng ta phân tích các tương tác bộ đôi giữa các biến độc lập.
Để phân tích các tương tác bộ ba, bộ bốn, ... giữa các biến độc lập, ta cần sử dụng
các mô hình hồi quy đa thức bậc cao hơn, được thành lập một cách thích hợp.
Bài 7: Lựa chọn mô hình hồi quy
ơ
v1.0 115
TÓM LƯỢC CUỐI BÀI
 Một mô hình được coi là có những thuộc tính tốt cần có những tiêu chuẩn sau:
o Có khả năng sự báo tốt.
o Phải mô tả được lí thuyết kinh tế liên quan .
o Không có những quan hệ giữa các biến độc lập và các yếu tố ngẫu nhiên.
o Giá trị của các tham số phải ổn định, nếu không dự báo sẽ không đáng tin cậy.
o Mô hình phải phản ánh được số liệu (các nhiễu phải thực sự ngẫu nhiên).
o Mô hình phải là phù hợp nhất trong số các mô hình có thể có.
• Các loại sai lầm định dạng của mô hình?
Ví dụ: Giả sử ta có mô hình hàm tổng chi phí dạng bậc 3 như sau:
i 1 2 i1 3 i2 4 i3 iY X X X u      (1)
Khi thiết lập một mô hình ta có thể mắc phải các sai lầm về mặt định dạng như sau:
o Mô hình bị thiếu biến cần thiết: nếu ta ước lượng mô hình (1) trên không có biến Xi3.
o Mô hình bị thừa biến: Nếu trong mô hình (1) ở trên ta đưa thêm cả biến Xi4.
o Nếu ta ước lượng mô hình dưới dạng lôga của các biến trong khi thực thế mô hình đúng
có dạng tuyến tính, ta nói mô hình sai dạng hàm.
o Định dạng sai cho sai số ngẫu nhiên.
o Giả thiết về nhiễu ngẫu nhiên phân phối chuẩn.
• Hậu quả nếu một mô hình định dạng sai.
o Mô hình thừa biến.
o Dạng hàm sai & thiếu biến.
Do vậy:
Khoảng tin cậy và kiểm định giả thiết thường cho kết quả không đúng về các tham số.
Dự báo dựa trên các mô hình này thường không đáng tin cậy.
• Các kiểm định phát hiện sai lầm định dạng.
o Kiểm định thừa biến.
Kiểm định thừa 1 biến: kiểm định T.
Kiểm định thừa từ 2 biến trở lên: Kiểm định F (thu hẹp của hàm hồi quy).
o Dạng hàm sai & thiếu biến: Kiểm định RESET.
• Phương pháp biến giả:
o Trong mô hình hồi quy, khi xem xét sự phụ thuộc của biến Y vào các yếu tố định tính
(thu nhập vào giới tính, trình độ học vấn,...), ta cần lượng hóa các biến định tính này.
o Để lượng hóa các biến định tính này, ta sử dụng biến giả (Dummy variables). 1 biến giả D
được thành lập nhận 2 giá trị 0 (nếu một thuộc tính nào đó xuất hiện) và 1 (nếu thuộc tính
đó không xuất hiện).
o Biến giả trong mô hình hồi quy được sử dụng giống như các biến định lượng thông thường.
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
116 STA301_Bài 7_v1.0013101214
CÂU HỎI THƯỜNG GẶP
1. Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy?
2. Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ như
thế nào?
3. Hậu quả của việc mô hình bị định dạng sai là gì?
4. Làm thế nào để phát hiện ra các loại sai lầm định dạng nêu trên?
5. Tại sao ta chỉ xem xét phương pháp biến giả khi muốn nghiên cứu ảnh hưởng của biến định
tính lên biến phụ thuộc?
6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của biến đó là 1?
7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng thông
thường không?
8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào?
BÀI TẬP TRẮC NGHIỆM
1. Các loại khuyết tật sau đây được gọi là các sai lầm định dạng của mô hình:
A. Mô hình thiếu biến cần thiết. B. Mô hình thừa biến.
C. Mô hình bị sai dạng hàm. D. Tất cả các loại trên.
2. Trong phương pháp biến giả, biến giả có thể nhận bất cứ giá trị bằng số nào:
A. Đúng. B. Sai.
3. Nếu biến độc lập gồm có 2 biến định tính, mỗi biến định tính gồm 3 thuộc tính, nếu sử dụng
phương pháp biến giả, số biến giả được thiết lập trong mô hình là:
A. 3 B. 4
C. 5 D. 6
4. Trong phân tích hồi quy, chỉ có biến độc lập mới có thể là biến định tính:
A. Đúng. B. Sai.
5. Nếu mô hình có biến giả, ta không thể sử dụng phương pháp OLS để ước lượng mô hình.
A. Đúng. B. Sai.
6. Nếu một mô hình có biến độc lập bao gồm 1 biến định lượng và 2 biến định tính, mỗi biến có
2 thuộc tính, khi đó mô hình có bao nhiêu biến độc lập nếu ta giả thiết các thuộc tính khác
nhau cả hệ số chặn và hệ số góc, đồng thời có tương tác giữa 2 biến định tính:
A. 3 B. 4
C. 5 D. 6.
7. Khi đặt biến giả trong mô hình, ta có thể cho bất cứ thuộc tính nào nhận giá trị bằng 0 hoặc
bằng 1.
A. Đúng. B. Sai.

More Related Content

What's hot

Phân tích dữ liệu thống kê
Phân tích dữ liệu thống kêPhân tích dữ liệu thống kê
Phân tích dữ liệu thống kêHọc Huỳnh Bá
 
Test thong ke
Test thong keTest thong ke
Test thong kethang_ph
 
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuBài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuvinhthedang
 
Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)
Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)
Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)Si Thinh Hoang
 
Chuong iii lythuyet_mau
Chuong iii lythuyet_mauChuong iii lythuyet_mau
Chuong iii lythuyet_mauPhạm Thạch
 
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhungHuong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhungNguyễn Ngọc Trâm
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệunguoitinhmenyeu
 
Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...
Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...
Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...nataliej4
 
Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSBeriDang
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quandungln_dhbkhn
 
Huong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhungHuong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhungDuy Vọng
 
10 tvu sta301_bai8_v1.00131012140
10 tvu sta301_bai8_v1.0013101214010 tvu sta301_bai8_v1.00131012140
10 tvu sta301_bai8_v1.00131012140Yen Dang
 
Phân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stataPhân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stataSoM
 

What's hot (19)

Phân tích dữ liệu thống kê
Phân tích dữ liệu thống kêPhân tích dữ liệu thống kê
Phân tích dữ liệu thống kê
 
Test thong ke
Test thong keTest thong ke
Test thong ke
 
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuBài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
 
Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)
Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)
Spss lesson 4.5 Lựa chọn đúng kỹ thuật thống kê (Choosing the right statistics)
 
SPSS là gì
SPSS là gìSPSS là gì
SPSS là gì
 
Chuong iii lythuyet_mau
Chuong iii lythuyet_mauChuong iii lythuyet_mau
Chuong iii lythuyet_mau
 
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhungHuong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệu
 
Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...
Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...
Tiểu luận; quy nạp khoa học dựa trên những phương pháp thiết lập các mối liên...
 
Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSS
 
Chapter 7
Chapter 7Chapter 7
Chapter 7
 
PPNCKT_Chuong 4 p2
PPNCKT_Chuong 4 p2PPNCKT_Chuong 4 p2
PPNCKT_Chuong 4 p2
 
Mo hinh ARDL
Mo hinh ARDLMo hinh ARDL
Mo hinh ARDL
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1
 
Chapter 9
Chapter 9Chapter 9
Chapter 9
 
Huong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhungHuong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhung
 
10 tvu sta301_bai8_v1.00131012140
10 tvu sta301_bai8_v1.0013101214010 tvu sta301_bai8_v1.00131012140
10 tvu sta301_bai8_v1.00131012140
 
Phân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stataPhân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stata
 

Similar to 09 tvu sta301_bai7_v1.00131012140

08 tvu sta301_bai6_v1.00131012140
08 tvu sta301_bai6_v1.0013101214008 tvu sta301_bai6_v1.00131012140
08 tvu sta301_bai6_v1.00131012140Yen Dang
 
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...vietlod.com
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanNghịch Ngợm Rồng Con
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfTiepDinh3
 
08 ktl bai6_tr_79_92_0089
08 ktl bai6_tr_79_92_008908 ktl bai6_tr_79_92_0089
08 ktl bai6_tr_79_92_0089ngauconuong
 
sự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hìnhsự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hìnhCẩm Thu Ninh
 
kinh tế lượng
kinh tế lượngkinh tế lượng
kinh tế lượngvanhuyqt
 
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.orgTap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.orgHate To Love
 
Nhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn PhướcNhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn PhướcMan_Ebook
 
chuong-0_tong-quan.ppt
chuong-0_tong-quan.pptchuong-0_tong-quan.ppt
chuong-0_tong-quan.pptPrawNaparee
 
Bai tap ktl lop chinh quy - 2013
Bai tap ktl   lop chinh quy - 2013Bai tap ktl   lop chinh quy - 2013
Bai tap ktl lop chinh quy - 2013Bé Bảo Bảo
 
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dịch vụ viết bài trọn gói ZALO: 0909232620
 
07 tvu sta301_bai5_v1.00131012140
07 tvu sta301_bai5_v1.0013101214007 tvu sta301_bai5_v1.00131012140
07 tvu sta301_bai5_v1.00131012140Yen Dang
 

Similar to 09 tvu sta301_bai7_v1.00131012140 (20)

Bài giảng kinh te luong
Bài giảng kinh te luongBài giảng kinh te luong
Bài giảng kinh te luong
 
08 tvu sta301_bai6_v1.00131012140
08 tvu sta301_bai6_v1.0013101214008 tvu sta301_bai6_v1.00131012140
08 tvu sta301_bai6_v1.00131012140
 
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Phương pháp nghiên cứu luận văn khả năng thanh toán của doanh nghiệp
 Phương pháp nghiên cứu luận văn khả năng thanh toán của doanh nghiệp Phương pháp nghiên cứu luận văn khả năng thanh toán của doanh nghiệp
Phương pháp nghiên cứu luận văn khả năng thanh toán của doanh nghiệp
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdf
 
08 ktl bai6_tr_79_92_0089
08 ktl bai6_tr_79_92_008908 ktl bai6_tr_79_92_0089
08 ktl bai6_tr_79_92_0089
 
Ktl
KtlKtl
Ktl
 
Luận Văn Phương Pháp Khoảng Cách Trong Phân Tích Thống Kê mẫu ĐIểm Không gian
Luận Văn Phương Pháp Khoảng Cách Trong Phân Tích Thống Kê mẫu ĐIểm Không gianLuận Văn Phương Pháp Khoảng Cách Trong Phân Tích Thống Kê mẫu ĐIểm Không gian
Luận Văn Phương Pháp Khoảng Cách Trong Phân Tích Thống Kê mẫu ĐIểm Không gian
 
Phương trình hồi quy
Phương trình hồi quyPhương trình hồi quy
Phương trình hồi quy
 
Luận văn: Hồi quy bội tuyến tính và Hồi quy phi tuyến, HOT, 9đ
Luận văn: Hồi quy bội tuyến tính và Hồi quy phi tuyến, HOT, 9đLuận văn: Hồi quy bội tuyến tính và Hồi quy phi tuyến, HOT, 9đ
Luận văn: Hồi quy bội tuyến tính và Hồi quy phi tuyến, HOT, 9đ
 
sự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hìnhsự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hình
 
kinh tế lượng
kinh tế lượngkinh tế lượng
kinh tế lượng
 
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.orgTap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.org
 
Nhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn PhướcNhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
 
chuong-0_tong-quan.ppt
chuong-0_tong-quan.pptchuong-0_tong-quan.ppt
chuong-0_tong-quan.ppt
 
Thong ke ung dung trong hoa hoc
Thong ke ung dung trong hoa hocThong ke ung dung trong hoa hoc
Thong ke ung dung trong hoa hoc
 
Bai tap ktl lop chinh quy - 2013
Bai tap ktl   lop chinh quy - 2013Bai tap ktl   lop chinh quy - 2013
Bai tap ktl lop chinh quy - 2013
 
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
 
07 tvu sta301_bai5_v1.00131012140
07 tvu sta301_bai5_v1.0013101214007 tvu sta301_bai5_v1.00131012140
07 tvu sta301_bai5_v1.00131012140
 

More from Yen Dang

So geht's noch besser dtz transkriptionen_eb
So geht's noch besser dtz transkriptionen_eb So geht's noch besser dtz transkriptionen_eb
So geht's noch besser dtz transkriptionen_eb Yen Dang
 
Werkstatt B1
Werkstatt B1Werkstatt B1
Werkstatt B1Yen Dang
 
Station b2-kursbuchpdf
Station b2-kursbuchpdfStation b2-kursbuchpdf
Station b2-kursbuchpdfYen Dang
 
Goethe zertifikat a2 wortliste
Goethe zertifikat a2 wortlisteGoethe zertifikat a2 wortliste
Goethe zertifikat a2 wortlisteYen Dang
 
MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT)
 MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT) MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT)
MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT)Yen Dang
 
ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)
ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)
ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)Yen Dang
 
Acc304 - Kế Toán Quản Trị (LTTT)
Acc304 - Kế Toán Quản Trị (LTTT)Acc304 - Kế Toán Quản Trị (LTTT)
Acc304 - Kế Toán Quản Trị (LTTT)Yen Dang
 
Man403 - Hành Vi Tổ Chức (LTTT)
Man403 - Hành Vi Tổ Chức (LTTT)Man403 - Hành Vi Tổ Chức (LTTT)
Man403 - Hành Vi Tổ Chức (LTTT)Yen Dang
 
Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)
Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)
Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)Yen Dang
 
Acc504 lttn4
Acc504 lttn4Acc504 lttn4
Acc504 lttn4Yen Dang
 
Acc504 lttn1 2 3
Acc504 lttn1 2 3Acc504 lttn1 2 3
Acc504 lttn1 2 3Yen Dang
 
Acc504 btvn1
Acc504 btvn1Acc504 btvn1
Acc504 btvn1Yen Dang
 
11 acc504-bai 8-v1.0
11 acc504-bai 8-v1.011 acc504-bai 8-v1.0
11 acc504-bai 8-v1.0Yen Dang
 
10 acc504-bai 7-v1.0
10 acc504-bai 7-v1.010 acc504-bai 7-v1.0
10 acc504-bai 7-v1.0Yen Dang
 
09 acc504-bai 6-v1.0
09 acc504-bai 6-v1.009 acc504-bai 6-v1.0
09 acc504-bai 6-v1.0Yen Dang
 
08 acc504-bai 5-v1.0
08 acc504-bai 5-v1.008 acc504-bai 5-v1.0
08 acc504-bai 5-v1.0Yen Dang
 
07 acc504-bai 4-v1.0
07 acc504-bai 4-v1.007 acc504-bai 4-v1.0
07 acc504-bai 4-v1.0Yen Dang
 
06 acc504-bai 3-v1.0
06 acc504-bai 3-v1.006 acc504-bai 3-v1.0
06 acc504-bai 3-v1.0Yen Dang
 
05 acc504-bai 2-v1.0
05 acc504-bai 2-v1.005 acc504-bai 2-v1.0
05 acc504-bai 2-v1.0Yen Dang
 
04 acc504-bai 1-v1.0
04 acc504-bai 1-v1.004 acc504-bai 1-v1.0
04 acc504-bai 1-v1.0Yen Dang
 

More from Yen Dang (20)

So geht's noch besser dtz transkriptionen_eb
So geht's noch besser dtz transkriptionen_eb So geht's noch besser dtz transkriptionen_eb
So geht's noch besser dtz transkriptionen_eb
 
Werkstatt B1
Werkstatt B1Werkstatt B1
Werkstatt B1
 
Station b2-kursbuchpdf
Station b2-kursbuchpdfStation b2-kursbuchpdf
Station b2-kursbuchpdf
 
Goethe zertifikat a2 wortliste
Goethe zertifikat a2 wortlisteGoethe zertifikat a2 wortliste
Goethe zertifikat a2 wortliste
 
MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT)
 MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT) MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT)
MAN310 - PHÂN TÍCH HOẠT ĐỘNG KINH DOANH (LTTT)
 
ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)
ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)
ACC506 - KIỂM TOÁN NỘI BỘ HK5D2 (LTTT)
 
Acc304 - Kế Toán Quản Trị (LTTT)
Acc304 - Kế Toán Quản Trị (LTTT)Acc304 - Kế Toán Quản Trị (LTTT)
Acc304 - Kế Toán Quản Trị (LTTT)
 
Man403 - Hành Vi Tổ Chức (LTTT)
Man403 - Hành Vi Tổ Chức (LTTT)Man403 - Hành Vi Tổ Chức (LTTT)
Man403 - Hành Vi Tổ Chức (LTTT)
 
Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)
Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)
Acc504 - KE TOAN HANH CHINH SU NGHIEP (LTTT)
 
Acc504 lttn4
Acc504 lttn4Acc504 lttn4
Acc504 lttn4
 
Acc504 lttn1 2 3
Acc504 lttn1 2 3Acc504 lttn1 2 3
Acc504 lttn1 2 3
 
Acc504 btvn1
Acc504 btvn1Acc504 btvn1
Acc504 btvn1
 
11 acc504-bai 8-v1.0
11 acc504-bai 8-v1.011 acc504-bai 8-v1.0
11 acc504-bai 8-v1.0
 
10 acc504-bai 7-v1.0
10 acc504-bai 7-v1.010 acc504-bai 7-v1.0
10 acc504-bai 7-v1.0
 
09 acc504-bai 6-v1.0
09 acc504-bai 6-v1.009 acc504-bai 6-v1.0
09 acc504-bai 6-v1.0
 
08 acc504-bai 5-v1.0
08 acc504-bai 5-v1.008 acc504-bai 5-v1.0
08 acc504-bai 5-v1.0
 
07 acc504-bai 4-v1.0
07 acc504-bai 4-v1.007 acc504-bai 4-v1.0
07 acc504-bai 4-v1.0
 
06 acc504-bai 3-v1.0
06 acc504-bai 3-v1.006 acc504-bai 3-v1.0
06 acc504-bai 3-v1.0
 
05 acc504-bai 2-v1.0
05 acc504-bai 2-v1.005 acc504-bai 2-v1.0
05 acc504-bai 2-v1.0
 
04 acc504-bai 1-v1.0
04 acc504-bai 1-v1.004 acc504-bai 1-v1.0
04 acc504-bai 1-v1.0
 

09 tvu sta301_bai7_v1.00131012140

  • 1. Bài 7: Lựa chọn mô hình hồi quy STA301_Bài 7_v1.0013101214 93 BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY Mục tiêu Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:  Các thuộc tính của một mô hình tốt.  Các loại sai lầm về định dạng của mô hình.  Hậu quả khi chọn mô hình định dạng sai.  Kiểm định phát hiện mô hình định dạng sai.  Giới thiệu mô hình dạng lôga tuyến tính.  Giới thiệu mô hình với biến giả. Nội dung Hướng dẫn học  Tiêu chuẩn cho một mô hình tốt.  Các loại sai lầm định dạng của mô hình.  Hậu quả nếu một mô hình định dạng sai.  Các kiểm định phát hiện sai lầm định dạng.  Các loại mô hình với biến giả.  Ôn lại các bài học trước để hiểu được các loại mô hình hồi quy.  Tập trung phân biệt các hậu quả xảy ra khi có một loại sai lầm định dạng nào đó.  Tập trung vào các phương pháp kiểm định để phát hiện các sai lầm định dạng.  Tập trung hiểu rõ bản chất của việc đưa biến giả vào mô hình và các loại mô hình có biến giả.  Xem xét kỹ các ví dụ trong giáo trình và bài giảng.
  • 2. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 94 STA301_Bài 7_v1.0013101214 TÌNH HUỐNG DẪN NHẬP Tình huống Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng mô hình nào tốt hơn để phân tích trong tình huống này? Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy E(TN/Di) = β1 + β2Di trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ. Câu hỏi  Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập hay không?  Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không.
  • 3. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 95 Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì càng tốt hay không, hay một mô hình phải có phương trình hồi quy thật phức tạp, thật đẹp về mặt toán học mới là tốt? 7.1. Các thuộc tính của một mô hình tốt BÀI TOÁN Xét hai mô hình hồi quy tuyến tính i 1 2 2i 3 3i k ki iY X X ... X u          , (7.1) i 1 2 2i 3 3i m mi iY X X ... X v          , (7.2) trong đó m k (do vậy sai số iu có xu thế nhỏ hơn sai số iv ). Có thể kết luận là mô hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không? Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn? Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận dụng rộng rãi trong thực tế, bao gồm:  Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy nhiên phải chứa đựng những biến độc lập chủ yếu ảnh hưởng đến biến phụ thuộc để giải thích được các hiện tượng cần nghiên cứu. Việc đánh giá biến độc lập nào ảnh hưởng một cách có ý nghĩa đến biến phụ thuộc, một mặt phải dựa trên ý nghĩa thực tế của mô hình. Mặt khác có thể dựa vào phép kiểm định về các hệ số trong phương trình hồi quy.  Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với một tập số liệu cho trước. Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số ước lượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô hình hồi quy có tính xác định.  Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc càng nhiều càng tốt. Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá tính thích hợp của mô hình so với số liệu.
  • 4. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 96 STA301_Bài 7_v1.0013101214  Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng. Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và phương sai thuần nhất của sai số, ... sẽ đảm bảo về mặt lý thuyết của mô hình hồi quy tuyến tính cổ điển.  Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết quả dự báo càng sát với thực tế càng tốt. 7.2. Cách tiếp cận lựa chọn mô hình Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta có thể tiến hành lần lượt theo các bước sau:  Bước 1: Xác định danh sách các biến độc lập có thể có trong mô hình. Dựa vào ý nghĩa thực tế của bài toán đã được đặt ta, ta cần liệt kê tất cả những biến độc lập có thể có của mô hình, là những biến có khả năng ảnh hưởng đến giá trị của biến phụ thuộc. Những biến này có thể đã có sẵn trong danh sách các biến của bộ số liệu, song cũng có thể là biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi.  Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi, tự tương quan, phân bố không chuẩn của sai số, ... và khắc phục các vi phạm phát hiện được.  Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc lập và biến phụ thuộc. Chẳng hạn nếu trên đồ thị, các chấm tương ứng với các quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi quy phi tuyến thích hợp.  Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa chọn mô hình. Hệ số xác định là một thước đo thường được dùng đầu tiên để đánh giá chất lượng của mô hình hồi quy. Nếu hệ số xác định có giá trị lớn hơn 50% thì có thể coi mô hình khá phù hợp với tập số liệu. Còn nếu hệ số xác định nhỏ hơn 30% thì có thể khẳng định mô hình không phù hợp và nên tìm mô hình khác. Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đánh giá các mô hình hồi quy như: o Tiêu chuẩn log-hợp lý (log-likelihood): n 2 2 i i 1 n n 1 L ln ln(2 ) u 2 2 2         .
  • 5. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 97 Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương. Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình cho rằng không hề có quan hệ giữa các biến độc lập và biến phụ thuộc). Trong thực hành, giá trị của hàm L được ước lượng bằng công thức: n RSS L (1 ln(2 ) ln( )) 2 n      . o Tiêu chuẩn AIC (Akaike info criterion): 2k /nRSS AIC ( ).e , n  trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì mô hình càng phù hợp với số liệu. o Tiêu chuẩn Schwarz (Schwarz criterion): k / nRSS SC ( ).n n  trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô hình càng phù hợp với số liệu. Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây:  Nếu hai mô hình hồi quy chứa danh sách các biến độc lập khác nhau thì hệ xác định của hai mô hình đó (có thể bằng nhau) không giúp kết luận được mô hình nào tốt hơn;  Có thể việc loại bỏ bớt một số biến nào đó ra khỏi phương trình hồi quy tuy làm giảm hệ số xác định, song về thực chất lại không làm giảm đáng kể chất lượng của mô hình. Mặt khác, trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế” hơn, mặc dù sai số ước lượng có thể lớn hơn. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy: o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định: BÀI TOÁN KIỂM ĐỊNH 1 0 2 3 k 1 i H : ... 0 H : 0           Việc chấp nhận giả thuyết 0H có nghĩa là tất cả các biến độc lập không hề ảnh hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô hình hồi quy phù hợp với số liệu ở một mức độ nhất định.
  • 6. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 98 STA301_Bài 7_v1.0013101214 Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số: 2 2 R / k F (1 R ) /(n k 1)     , trong đó 2 R là hệ số xác định của mô hình hồi quy, k là số tham số trong mô hình, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H . Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài 88D và biến độc lập là tổng sản phẩm quốc nội 88Y . Thực hiện hồi quy 88D theo 88Y , ta có kết quả trong bảng sau: Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000 (rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và log - hợp lý. 7.3. So sánh hai mô hình hồi quy Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của
  • 7. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 99 mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định: BÀI TOÁN KIỂM ĐỊNH 2 0 m 1 m 2 k 1 i H : ... 0 H : 0,i {m 1,m 2,...,k}               Việc chấp nhận giả thuyết 0H có nghĩa các biến độc lập m 1 m 2 kX ,X ,...,X  không có vai trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa mô hình (7.1) với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho biến phụ thuộc. Trong thực hành, nếu giả thuyết 0H được chấp nhận thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho kết quả thực sự chính xác hơn. Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số 2 2 k m 2 k R Rn k F k m 1 R      , trong đó 2 kR là hệ số xác định của mô hình (7.1) với k tham số, 2 mR là hệ số xác định của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H . 7.4. Hậu quả của việc chọn mô hình không phù hợp Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi giải quyết một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một trong những nguyên nhân sau gây ra:  Chọn dạng hàm không thích hợp. Dạng hàm hồi quy không thích hợp có thể dẫn đến các hậu quả sau: o Các hệ số hồi quy bị ước lượng chệch, thậm chí dấu của hệ số hồi quy bị sai, dẫn đến những diễn giải mâu thuẫn với thực tế; o Hệ số xác định thể hiện độ phù hợp của mô hình với số liệu có thể không cao;
  • 8. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 100 STA301_Bài 7_v1.0013101214 o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê; o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ bản của mô hình hồi quy.  Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô hình phù hợp thực sự phải là 0 1 1 2 2Y X X u     , nhưng ta lại sử dụng mô hình 0 1 1Y X v     nghĩa là biến 2X bị thiếu, trong khi biến này thực sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác nhau. Nếu biến 2X tương quan với biến 1X thì các ước lượng 0 và 1 của 0 và 1 sẽ là những ước lượng chệch và không vững của 0 và 1 , tức là 0 0E( )   ; 1 1E( )   . Thực vậy, vì hai biến 1X và 2X tương quan với nhau nên ta có 2 0 1 1X X      , với 0 , 1 và  lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến 2X theo biến 1X . Lúc đó, 1 1 2 1E( )     ; 0 0 2 2 1 1E( ) (X X )      . Do vậy, tùy theo dấu của 2 1  mà 1 sẽ cho ước lượng quá cao hoặc quá thấp so với giá trị thực của 1 . Trong trường hợp 2X và 1X không tương quan với nhau thì 1 0  và khi đó 1 là ước lượng không chệch của 1 , nhưng 0 lại là ước lượng chệch của 0 , nếu 2X 0 . Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm định thông thường không còn hiệu lực.  Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là 0 1 1Y X u    , (7.3) nhưng ta lại sử dụng mô hình 0 1 1 2 2Y X X v       (7.4)
  • 9. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 101 nghĩa là dùng thừa biến 2X . Khi đó các hệ số hồi quy ước lượng được từ mô hình (7.4) vẫn là các ước lượng vững, không chệch, nghĩa là ta vẫn có 0 0E( )   ; 1 1E( )   và 2 2E( ) 0    . Đồng thời, phương sai của của sai số vẫn được ước lượng một cách không chệch, do đó khoảng tin cậy vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng tương ứng thu được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu được ước lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động một cách có ý nghĩa lên biến phụ thuộc). 7.5. Kiểm định phát hiện sự bỏ sót biến Với một tập số liệu cho trước, giả sử ta sử dụng mô hình hồi quy i 0 1 i iY X u    . (7.5) Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến phụ thuộc Y, còn có biến độc lập nào khác có ảnh hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần giải quyết bài toán kiểm định sau: BÀI TOÁN KIỂM ĐỊNH 3 0H : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5) 1H : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5) Việc chấp nhận giả thuyết 0H có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa là mô hình (7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình. Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W i 0 1 i 2 i iY X W v       . (7.6) Với mô hình này, ta xét hai trường hợp như sau:  Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như:
  • 10. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 102 STA301_Bài 7_v1.0013101214 o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô hình (7.6) và kiểm định giả thuyết 2 0  . Lúc đó, nếu giả thuyết này bị bác bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết 2 0  được chấp nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau. o Cách 2: Sử dụng hàm log-hợp lý. Xét thống kê 1 0LR 2(l l )   , trong đó 1l và 0l tương ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.6) và (7.5). Khi giả thuyết 0H đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với 1 bậc tự do ( 2 (1) ). Nếu 2 LR (1)  ( thường được lấy bằng 5%) thì ta bác bỏ 0H và kết luận có hiện tượng bỏ sót biến độc lập W. o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định 2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1) và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy. Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc bỏ sót một nhóm biến độc lập trong mô hình. Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1 biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2) hay không. Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng cách lập thống kê k mLR 2(l l )   , trong đó kl và ml tương ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết 0H đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do ( 2 (k m)  ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không.  Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước như sau:
  • 11. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 103 o Bước 1: Dùng số liệu để ước lượng các giá trị 0 ˆ và 1 ˆ của các hệ số hồi quy trong mô hình (7.5); o Bước 2: Dùng các hệ số 0 ˆ và 1 ˆ và các giá trị quan sát được của biến độc lập để ước lượng các giá trị của biến phụ thuộc i 0 1 i ˆ ˆˆY X   . Biến ˆY với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập thêm các biến phụ 2ˆY , 3ˆY và 4ˆY . Có thể thấy biến ˆY chứa phần thông tin của biến phụ thuộc được thể hiện qua biến độc lập X. Đồng thời có thể cho rằng các biến 2ˆY , 3ˆY và 4ˆY có thể còn chứa một phần thông tin khác của biến phụ thuộc chưa được mô tả qua biến X. Như vậy, để kiểm tra xem mô hình (7.5) có bỏ sót biến độc lập nào đó hay không, ta có thể tiến hành kiểm định để biết liệu các biến 2ˆY , 3ˆY và 4ˆY đúng là nhóm biến bị bỏ sót hay không. Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như: o Bước 3: Ta kiểm định giả thuyết 0 2 3 4H : 0      bằng cách dùng thống kê 2 2 k m 2 k R Rn k F k m 1 R      với n là số quan sát có trong số liệu, k=5, m=2, còn 2 kR và 2 mR lần lượt là hệ số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với bậc tự do n – 5 vàk m 3  , qua đó tính được xác suất ý nghĩa để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H . Việc chấp nhận giả thuyết cho phép khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì có nghĩa trong mô hình (7.5) còn sót biến độc lập. Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như: o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến 2ˆY , 3ˆY và 4ˆY đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình hồi quy (7.5), i 0 1 i iY X u    , và mô hình 2 3 4 i 0 1 i 2 i 3 i 4 i i ˆ ˆ ˆY X Y Y Y v           . (*) o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành, bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:
  • 12. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 104 STA301_Bài 7_v1.0013101214  Thứ nhất: Dùng các hệ số 0 ˆ và 1 ˆ và các giá trị quan sát được của biến độc lập để thu ước lượng biến phụ thuộc ˆY và biến phụ 2ˆY , 3ˆY , 4ˆY , đồng thời xác định các giá trị của biến phần dư i i i ˆˆu Y Y  ; i 1,2,...,n .  Thứ hai: Xét phương trình hồi quy 2 3 4 i 0 1 i 2 i 3 i 4 i i ˆ ˆ ˆˆu X Y Y Y v           và dùng số liệu để ước lượng hệ số xác định 2 R của phương trình hồi quy đó;  Thứ ba: Lập giả thuyết 0 2 3 4H : 0      và dùng thống kê 2 nR để kiểm định giả thuyết ấy. Thống kê này có phân phối khi bình phương với 3 bậc tự do, qua đó tính được xác suất ý nghĩa để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H . Việc chấp nhận giả thuyết này đồng nghĩa với việc khẳng định không có hiện tượng bỏ sót biến. Ngược lại, nếu giả thuyết bị bác bỏ thì mô hình (7.5) còn bỏ sót biến độc lập. Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ sót để cải tiến mô hình. 7.6. Kiểm định phát hiện hiện tượng thừa biến Ta thấy bài toán kiểm định phát hiện hiện tượng thừa biến độc lập trong mô hình hồi quy chính là một phần của bài toán “ngược” đối với bài toán kiểm định 3 nhằm phát hiện sự bỏ sót biến độc lập trong mô hình, với giả thuyết của bài toán này được đổi thành đối thuyết của bài toán kia, và ngược lại, đối thuyết được chuyển tương ứng thành giả thuyết, hơn nữa đã có số liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình. Như vậy, hoàn toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để phát hiện hiện tượng thừa biến. 7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, với số liệu về thu nhập trên đầu
  • 13. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 105 người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người” (incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải với dạng của phân bố chuẩn. Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình 0 1Y X v     , (7.7) ta nên dùng mô hình 10 0 1log (Y) X u    . (7.8) Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy 0 ˆ và 1 ˆ của phương trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của biến phụ thuộc nguyên thủy Y qua biểu thức: 0 1 0 1 ˆ ˆ ˆ ˆX XˆY 10 10 .(10 )      . (7.9) Mô hình (7.8) được gọi là mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn hay dùng mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương 10 0 1 10log (Y) log (X) W     . (7.10) Với các giá trị 0 ˆ và 1 ˆ của phương trình hồi quy tuyến tính trên ước lượng được bằng phương pháp bình phương bé nhất, ta có thể xây dựng công thức để dự báo giá trị của biến phụ thuộc nguyên thủy Y như sau: 0 1 0 1 ˆ ˆ ˆ ˆlog(X)ˆY 10 10 .(X)      . (7.11) Trên đây, các mô hình (7.8)-(7.11) được trình bày cho trường hợp hồi quy đơn, tức là khi phương trình hồi quy chỉ chứa một biến độc lập. Mô hình hồi quy bội tương ứng với nhiều biến độc lập cũng có thể trình bày hoàn toàn tương tự.
  • 14. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 106 STA301_Bài 7_v1.0013101214 Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước. 7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lập, yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là biến định lượng mà là biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc tính, tính chất, đặc điểm, ... nào đó của đối tượng. Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh hưởng đến khả năng sẵn sàng chi trả của khách. Các yếu tố đó có thể bao gồm tuổi, giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa tiến hành chuyến du lịch, ... Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng. Như vậy, trước tiên ta cần mã hóa lại các biến định tính để có các biến nhận các giá trị số đại diện cho biến định tính trong phương trình. Có thể dùng các biến giả nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các biến định tính. Cách mã hoá bằng các biến giả như vậy khá đơn giản và có thể giúp diễn giải các hệ số ước lượng được của phương trình hồi quy một cách rất rõ ràng. Chẳng hạn, ta có thể mã hóa biến giới tính thành biến giả GT nhận giá trị 0 nếu khách hàng là nam giới, nhận giá trị 1 nếu khách hàng là phụ nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy 0 1Y GT u     , trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn 0 chính bằng giá trị chi phí trung bình của nhóm khách hàng nữ, 0 E(Y GT 0)   . Đồng thời, hệ số dốc 1 chính là giá trị chênh lệch giữa chi phí trung bình của nhóm khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng 0 1   của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách hàng nữ, 0 1 E(Y GT 1)     . Phép kiểm định giả thuyết 0 1H : 0  về sự bằng không của hệ số dốc trong mô hình này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam có ngang bằng với chi phí của nhóm khách hàng nữ hay không.
  • 15. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 107 Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến giả 1D , 2D , 3D , 4D và 5D để mã hóa biến định tính “quốc tịch” như trong bảng sau: Quốc tịch D1 D2 D3 D4 D5 Pháp 1 0 0 0 0 Nga 0 1 0 0 0 Nhật 0 0 1 0 0 Mỹ 0 0 0 1 0 Trung Quốc 0 0 0 0 1 Việt Nam 0 0 0 0 0 Trong bảng trên, biến 1D ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến 2D ứng với nhóm khách mang quốc tịch Nga, nhận giá trị 1 đối với quan sát của khách đến từ nước Nga, nhận giá trị 0 đối với các quan sát nhóm khác; ... Riêng đối với nhóm quan sát ứng với khách nội địa Việt Nam, tất cả các biến giả từ 1D đến 5D đều nhận giá trị bằng 0. Nhóm này được lấy làm nhóm “nền” (hay còn gọi là nhóm “chứng”), với các kết quả được lấy làm mức cơ sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy 0 1 1 2 2 3 3 4 4 5 5Y D D D D D u.        (7.12) để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả ước lượng được của hệ số chặn 0 cho biết mức chi phí trung bình của nhóm khách nội địa 0 1 2 3 4 5E(Y D D D D D 0)       Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm khách Pháp được ước lượng bằng 0 1  0 1 1E(Y D 1)    chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng bằng 1 ; chi phí trung bình của nhóm khách Nga được ước lượng bằng 0 2  0 2 2E(Y D 1)    chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng bằng 2 ; ...
  • 16. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 108 STA301_Bài 7_v1.0013101214 Các phép kiểm định 1 0 1H : 0  , 2 0 2H : 0  , 3 0 3H : 0  , 4 0 4H : 0  và 5 0 5H : 0  sẽ lần lượt cung cấp các kết luận so sánh chi phí trung bình của từng nhóm khách phân theo quốc tịch với chi phí trung bình của nhóm khách nội địa. Chú ý: Các phép kiểm định trên chỉ so sánh chi phí trung bình của các nhóm khách nước ngoài với chi phí của nhóm “nền” (khách nội địa), chứ không so sánh được chi phí trung bình của các nhóm khách nước ngoài với nhau. 7.9. Mô hình hồi quy với một biến lượng và một biến chất Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của chuyến du lịch), vừa có biến định tính là biến biểu diễn quốc tịch của khách du lịch. Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã trình bày trên đây. Ta xét phương trình hồi quy 0 1 1 2 2 3 3 4 4 5 5Y D D D D D TG u          . (7.13) Ta thấy trong mô hình này, hệ số dốc  cho biết chi phí hàng ngày của khách du lịch, không phân biệt người khách đó đến từ nước nào. Như vậy hệ số này đại diện cho tính chất chung của tất cả các khách về mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ số còn lại thể hiện đặc thù riêng của các nhóm khách du lịch đến từ các nước khác nhau. Có thể nói mô hình (7.13) là mô hình tổng hợp của 6 mô hình hồi quy tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biết quy luật chi tiêu của khách hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự báo chi phí của khách du lịch nội địa theo phương trình 0 ˆˆ ˆY TG    ; chi phí của khách Pháp bằng 0 1 ˆ ˆˆ ˆY ( ) TG     ; chi phí của khách Nga bằng 0 2 ˆ ˆˆ ˆY ( ) TG     ; chi phí của khách Nhật bằng 0 3 ˆ ˆˆ ˆY ( ) TG     ; chi phí của khách Mỹ bằng: 0 4 ˆ ˆˆ ˆY ( ) TG     ; chi phí của khách Trung Quốc bằng: 0 5 ˆ ˆˆ ˆY ( ) TG     .
  • 17. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 109 Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau. Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn, nên các phép kiểm định 1 0 1H : 0  , 2 0 2H : 0  , 3 0 3H : 0  , 4 0 4H : 0  và 5 0 5H : 0  về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của nhóm khách nội địa. Nếu giả thuyết k 0 kH : 0  được chấp nhận thì hai mô hình 0 k ˆ ˆˆ ˆY ( ) TG     và 0 ˆˆ ˆY TG    được coi là như nhau, chi phí của khách du lịch của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy. 7.10. Mô hình hồi quy với một biến lượng và hai biến chất Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau: 0 1 1 1 2 2 3 3 4 4 5 5Y GT D D D D D TG u            . (7.14) Với mô hình này, hệ số dốc  vẫn thể hiện quy luật chung về chi phí hàng ngày của khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số 1 cho biết sự khác nhau giữa khách nam và khách nữ; các hệ số 1 2 3 4 5, , , ,     biểu diễn sự khác biệt về chi phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số 0 lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu. Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và nữ nội địa, 0Y TG u     (đối với nam), 0 1Y TG u       (đối với nữ); TG Y   0 k  0 1 0
  • 18. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 110 STA301_Bài 7_v1.0013101214 hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp, 0 1Y ( ) TG u      (đối với nam), 0 1 1Y ( ) TG u        (đối với nữ); . . . và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người Trung Quốc, 0 5Y ( ) TG u      (đối với nam), 0 1 5Y ( ) TG u        (đối với nữ). Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung. Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12 mô hình trên đây. Cụ thể, phép kiểm định giả thuyết 0 1H : 0  cho phép chúng ta đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định 1 0 1H : 0  ; 2 0 2H : 0  ; 3 0 3H : 0  ; 4 0 4H : 0  và 5 0 5H : 0  sẽ lần lượt cung cấp các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn của mô hình ứng với nhóm khách nội địa). 7.11. Sử dụng biến giả trong phân tích mùa Tại các thời điểm khác nhau trong năm, có sự khác nhau về giá phòng của các khách sạn và giá các dịch vụ khác đi kèm. Do vậy, cần sử dụng biến giả để xây dựng mô hình biểu diễn được đặc điểm “mùa” của quy luật. Trong thực tế, đối với các địa phương, các mùa “cao điểm”, “thấp điểm” đối với du lịch thường kéo dài khác nhau và vào quãng thời gian khác nhau trong năm. Tuy nhiên, để tiện trình bày, ta tạm coi một năm có bốn mùa “Xuân”, “Hạ”, “Thu” và “Đông”. Lúc đó, ta có thể dùng ba biến giả 1M , 2M và 3M để mã hóa biến “Mùa” theo bảng sau: Mùa M1 M2 M3 Xuân 1 0 0 Hạ 0 1 0 Thu 0 0 1 Đông 0 0 0 Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là 1 1TG M *TG , 2 2TG M *TG và 3 3TG M *TG , từ đó xây dựng và tiến hành phân tích mô hình 0 1 1 2 2 3 3Y TG TG TG TG u           . (7.15)
  • 19. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 111 Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn , chỉ khác nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành 0 1Y ( )TG u       . Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là: 0 2Y ( )TG u       (mùa Hạ); (7.15b) 0 3Y ( )TG u       (mùa Thu) (7.15c) và 0Y TG u     (mùa Đông). (7.15d) Các phép kiểm định 1 0 1H : 0  , 2 0 2H : 0  và 3 0 3H : 0  được thực hiện khi phân tích mô hình (7.15) sẽ lần lượt cung cấp các kết luận so sánh hệ số dốc của từng mô hình (7.15a), (7.15b) và (7.15c) với hệ số dốc của mô hình (7.15d), cho biết chi phí hàng ngày của khách du lịch vào mỗi mùa Xuân, Hạ và Thu có khác biệt một cách có ý nghĩa thống kê so với chi phí hàng ngày của khách du lịch vào mùa Đông hay không. Chú ý:  Với việc chọn nhóm các quan sát của mùa Đông làm nhóm “nền” (các biến giả 1M , M2 và M3 nhận giá trị bằng 0 tại nhóm này), các phép kiểm định trên chỉ giúp so sánh hệ số dốc trong mô hình hồi quy của các mùa khác với hệ số dốc trong mô hình tương ứng của mùa Đông, chứ không so sánh được hệ số dốc trong các mô hình ứng với các mùa Xuân, Hạ và Thu với nhau. Tuy nhiên, bằng cách chọn lại nhóm nền và lập các biến giả một cách thích hợp, hoàn toàn có thể tiến hành kiểm định so sánh các cặp hệ số dốc tùy ý nào đó.  Có thể kết hợp mô hình (7.15) với mô hình (7.13) hoặc (7.14) để có một mô hình diễn tả được cả quy luật chung và các quy luật riêng cho các nhóm khách du lịch và cho các mùa trong năm. Chẳng hạn, kết hợp (7.15) với (7.13), ta sẽ có mô hình 0 1 1 1 2 2 3 3 4 4 5 5 0 1 1 2 2 3 3Y GT D D D D D TG TG TG TG u               biểu diễn được các đặc thù về mùa và đặc thù về quốc tịch của các nhóm khách du lịch.  Trong các mục từ 7.8 đến 7.11, thí dụ về chi phí của khách du lịch được dùng minh họa cho việc sử dụng biến giả để xây dựng các mô hình. Tuy nhiên, các mô hình này có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp.
  • 20. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 112 STA301_Bài 7_v1.0013101214 7.12. Hồi quy tuyến tính từng khúc Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa thực tế của các kết quả phân tích thu được. Tuy nhiên, có thể quy luật tuyến tính của mô hình không phải mang tính toàn cục mà chỉ mang tính cục bộ, tức là chỉ đúng đối với từng khoảng tương đối ngắn trong miền giá trị của một biến độc lập. Khi đó, mô hình hồi quy tuyến tính từng khúc sẽ cung cấp một giải pháp khá phù hợp. Thí dụ, xét mô hình mô tả quan hệ giữa thu nhập của sinh viên sau khi ra trường phụ thuộc vào thâm niên công tác, trong đó có xét đến ảnh hưởng của chính sách điều chỉnh mức lương tối thiểu được nhà nước tiến hành hàng năm. Trong mô hình này, thu nhập Y được ấn định là biến phụ thuộc cùng với biến độc lập chính là TN (thâm niên), số liệu được quan sát bắt đầu từ ngày 01/01/2004 đến hết năm 2009 và giả sử việc điều chỉnh mức lương tối thiểu được thực hiện đều đặn vào ngày 01 tháng 01 hàng năm. Lúc đó, ta có thể dùng 5 biến giả 1N , 2N , 3N , 4N và 5N để biểu diễn khoảng thời gian của các năm như trong bảng sau: Năm N1 N2 N3 N4 N5 2005 1 0 0 0 0 2006 0 1 0 0 0 2007 0 0 1 0 0 2008 0 0 0 1 0 2009 0 0 0 0 1 2004 0 0 0 0 0 Ta thành lập các biến định lượng mới là 1 1TN N *TN , 2 2TN N *TN , 3 3TN N *TN , 4 4TN N *TN và 5 5TN N *TN , từ đó xây dựng và tiến hành phân tích mô hình 0 1 1 2 2 3 3 4 4 5 5 0 1 1 2 2 3 3 4 4 5 5 Y N N N N N TN TN TN TN TN TN u .                           Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau: 0 0Y TN u     (năm 2004); 0 1 0 1Y ( ) ( )TN u         (năm 2005); 0 2 0 2Y ( ) ( )TN u         (năm 2006); 0 3 0 3Y ( ) ( )TN u         (năm 2007); 0 4 0 4Y ( ) ( )TN         (năm 2008); 0 5 0 5Y ( ) ( )TN u         (năm 2009).
  • 21. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 113 Chú ý:  Mặc dù trong thực hành, đối với số liệu dạng giống như trong thí dụ nêu trên, có thể tiến hành tách tập số liệu thành 6 tập số liệu của các năm và xây dựng các mô hình hồi quy tuyến tính riêng rẽ cho từng năm bằng cách sử dụng lần lượt các tập số liệu nhỏ. Tuy nhiên mô hình tuyến tính từng khúc trình bày trên đây cung cấp hình ảnh tổng hợp, không rời rạc. Hơn nữa, bằng các phép kiểm định trong phân tích mô hình tuyến tính từng khúc, ta có thể so sánh các hệ số hồi quy giữa các mô hình hồi quy của các năm.  Nếu các quan sát trong một khoảng thời gian của mô hình tuyến tính từng khúc có sự phụ thuộc vào nhau, thì nên sử dụng phương pháp “Phân tích nhiều mức” (Multi-level analysis) thay cho mô hình tuyến tính từng khúc. Có thể tham khảo (chẳng hạn trên mạng Internet) các tài liệu khác để biết thêm về phương pháp “Phân tích nhiều mức”. 7.13. Mô hình hồi quy đa thức Mô hình hồi quy tuyến tính là mô hình khá đơn giản, có các hệ số dễ dàng ước lượng được bằng các thuật toán quen thuộc, hơn nữa lại khá thuận tiện cho việc diễn giải ý nghĩa thực tế của mô hình. Tuy nhiên, trong thực hành lại có nhiều bài toán không phù hợp với mô hình tuyến tính mà phù hợp với mô hình phi tuyến. Chẳng hạn khi có một mặt hàng mới được tung ra thị trường, số lượng hàng tiêu thụ trong mỗi tháng sẽ tăng lên rất nhanh do tính hấp dẫn của mặt hàng. Nhưng sau một thời gian, thị trường sẽ dần dần bão hòa đối với mặt hàng đó và số lượng tiêu thụ mặt hàng đó sẽ từng bước chững lại rồi giảm xuống. Đối với trường hợp này, một mô hình phi tuyến sẽ thích hợp hơn mô hình tuyến tính. Trong số các mô hình phi tuyến, bên cạnh mô hình hồi quy lôga tuyến tính đã nói tới trong mục 7.7, các mô hình hồi quy đa thức cũng là những mô hình hay được xét đến. Sau đây chúng ta sẽ xem xét mô hình hồi quy đa thức bậc hai, các mô hình đa thức bậc cao hơn có thể được xây dựng hoàn toàn tương tự. Mô hình hồi quy đa thức bậc hai với m biến độc lập có dạng tổng quát là m m m i i ij i j i 1 i 1 j 1 Y X X X              , (7.16) trong đó Y là biến phụ thuộc, iX ;i 1,2,...,m; là các biến độc lập; i ij, , ;i, j 1,2,...,m;    là các hệ số hồi quy cần ước lượng, còn  là sai số hồi quy. Bằng cách lập các biến mới ij i jZ X X ; i, j 1,2,...,m;  mô hình hồi quy trên đây sẽ chuyển về dạng m m m i i ij ij i 1 i 1 j 1 Y X Z              . (7.17)
  • 22. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 114 STA301_Bài 7_v1.0013101214 Đây là mô hình hồi quy tuyến tính thông thường với 2 m m biến độc lập. Sử dụng các thủ tục ước lượng đối với mô hình hồi quy tuyến tính bội, ta tìm được các giá trị ước lượng của các hệ số hồi quy trong mô hình (7.17), đó cũng chính là các hệ số của mô hình hồi quy đa thức bậc hai (7.16) đang được xét đến. Chú ý: Trong mô hình hồi quy tuyến tính bội (7.17) trên đây, thường có hiện tượng đa cộng tuyến giữa biến iX và biến iiZ , i 1,2,...,m . Do vậy, trước khi tiến hành ước lượng các hệ số của mô hình, ta nên xử lý hiện tượng đa cộng tuyến trong tập hợp 2 m m biến độc lập của mô hình. 7.14. Ảnh hưởng tương tác Trong mô hình hồi quy bội với một biến phụ thuộc và nhiều biến độc lập, ngoài ảnh hưởng riêng rẽ của từng biến độc lập, biến phụ thuộc có thể còn chịu ảnh hưởng của sự tương tác giữa các cặp biến độc lập, giữa bộ ba, bộ bốn các biến độc lập, ... Các ảnh hưởng tương tác có thể làm giá trị của biến phụ thuộc tăng lên, song tương tác cũng có thể làm giá trị của biến phụ thuộc giảm xuống. Trong mô hình (7.17) trên đây, hệ số ij cho ta biết ảnh hưởng tương tác của hai biến độc lập iX và jX tác động lên giá trị của biến phụ thuộc Y . Phép kiểm định giả thuyết ij 0 ijH : 0  cho phép chúng ta đưa ra kết luận về ảnh hưởng của sự tương tác đó. Nếu giả thuyết được chấp nhận thì ta có thể kết luận sự tương tác không gây ra tác động mang tính thống kê đối với giá trị của Y . Nếu ngược lại, giả thuyết bị bác bỏ, thì tương tác của hai biến độc lập iX và jX có tác động thực sự lên giá trị của biến phụ thuộc Y . Khi đó, nếu ij 0  thì giá trị của Y sẽ tăng lên khi cả iX và jX tăng lên (tương tác có tác động đồng biến); còn nếu ij 0  thì giá trị của Y sẽ tăng lên khi cả iX và jX tăng lên (tương tác có tác động nghịch biến). Chú ý:  Việc diễn giải ảnh hưởng của tương tác sẽ rõ ràng và dễ hiểu hơn, khi các biến độc lập đều là các biến nhị phân (chỉ nhận hai giá trị 0-1). Tuy nhiên, sự tương tác có thể xuất hiện giữa các biến định tính, giữa các biến định lượng, cũng như giữa biến định và biến định lượng (trước khi đưa vào mô hình hồi quy để xét tính tương tác, các biến định tính nên được đưa về các biến nhị phân bằng cách sử dụng biến giả).  Mô hình (7.17) giúp chúng ta phân tích các tương tác bộ đôi giữa các biến độc lập. Để phân tích các tương tác bộ ba, bộ bốn, ... giữa các biến độc lập, ta cần sử dụng các mô hình hồi quy đa thức bậc cao hơn, được thành lập một cách thích hợp.
  • 23. Bài 7: Lựa chọn mô hình hồi quy ơ v1.0 115 TÓM LƯỢC CUỐI BÀI  Một mô hình được coi là có những thuộc tính tốt cần có những tiêu chuẩn sau: o Có khả năng sự báo tốt. o Phải mô tả được lí thuyết kinh tế liên quan . o Không có những quan hệ giữa các biến độc lập và các yếu tố ngẫu nhiên. o Giá trị của các tham số phải ổn định, nếu không dự báo sẽ không đáng tin cậy. o Mô hình phải phản ánh được số liệu (các nhiễu phải thực sự ngẫu nhiên). o Mô hình phải là phù hợp nhất trong số các mô hình có thể có. • Các loại sai lầm định dạng của mô hình? Ví dụ: Giả sử ta có mô hình hàm tổng chi phí dạng bậc 3 như sau: i 1 2 i1 3 i2 4 i3 iY X X X u      (1) Khi thiết lập một mô hình ta có thể mắc phải các sai lầm về mặt định dạng như sau: o Mô hình bị thiếu biến cần thiết: nếu ta ước lượng mô hình (1) trên không có biến Xi3. o Mô hình bị thừa biến: Nếu trong mô hình (1) ở trên ta đưa thêm cả biến Xi4. o Nếu ta ước lượng mô hình dưới dạng lôga của các biến trong khi thực thế mô hình đúng có dạng tuyến tính, ta nói mô hình sai dạng hàm. o Định dạng sai cho sai số ngẫu nhiên. o Giả thiết về nhiễu ngẫu nhiên phân phối chuẩn. • Hậu quả nếu một mô hình định dạng sai. o Mô hình thừa biến. o Dạng hàm sai & thiếu biến. Do vậy: Khoảng tin cậy và kiểm định giả thiết thường cho kết quả không đúng về các tham số. Dự báo dựa trên các mô hình này thường không đáng tin cậy. • Các kiểm định phát hiện sai lầm định dạng. o Kiểm định thừa biến. Kiểm định thừa 1 biến: kiểm định T. Kiểm định thừa từ 2 biến trở lên: Kiểm định F (thu hẹp của hàm hồi quy). o Dạng hàm sai & thiếu biến: Kiểm định RESET. • Phương pháp biến giả: o Trong mô hình hồi quy, khi xem xét sự phụ thuộc của biến Y vào các yếu tố định tính (thu nhập vào giới tính, trình độ học vấn,...), ta cần lượng hóa các biến định tính này. o Để lượng hóa các biến định tính này, ta sử dụng biến giả (Dummy variables). 1 biến giả D được thành lập nhận 2 giá trị 0 (nếu một thuộc tính nào đó xuất hiện) và 1 (nếu thuộc tính đó không xuất hiện). o Biến giả trong mô hình hồi quy được sử dụng giống như các biến định lượng thông thường.
  • 24. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 116 STA301_Bài 7_v1.0013101214 CÂU HỎI THƯỜNG GẶP 1. Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy? 2. Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ như thế nào? 3. Hậu quả của việc mô hình bị định dạng sai là gì? 4. Làm thế nào để phát hiện ra các loại sai lầm định dạng nêu trên? 5. Tại sao ta chỉ xem xét phương pháp biến giả khi muốn nghiên cứu ảnh hưởng của biến định tính lên biến phụ thuộc? 6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của biến đó là 1? 7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng thông thường không? 8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào? BÀI TẬP TRẮC NGHIỆM 1. Các loại khuyết tật sau đây được gọi là các sai lầm định dạng của mô hình: A. Mô hình thiếu biến cần thiết. B. Mô hình thừa biến. C. Mô hình bị sai dạng hàm. D. Tất cả các loại trên. 2. Trong phương pháp biến giả, biến giả có thể nhận bất cứ giá trị bằng số nào: A. Đúng. B. Sai. 3. Nếu biến độc lập gồm có 2 biến định tính, mỗi biến định tính gồm 3 thuộc tính, nếu sử dụng phương pháp biến giả, số biến giả được thiết lập trong mô hình là: A. 3 B. 4 C. 5 D. 6 4. Trong phân tích hồi quy, chỉ có biến độc lập mới có thể là biến định tính: A. Đúng. B. Sai. 5. Nếu mô hình có biến giả, ta không thể sử dụng phương pháp OLS để ước lượng mô hình. A. Đúng. B. Sai. 6. Nếu một mô hình có biến độc lập bao gồm 1 biến định lượng và 2 biến định tính, mỗi biến có 2 thuộc tính, khi đó mô hình có bao nhiêu biến độc lập nếu ta giả thiết các thuộc tính khác nhau cả hệ số chặn và hệ số góc, đồng thời có tương tác giữa 2 biến định tính: A. 3 B. 4 C. 5 D. 6. 7. Khi đặt biến giả trong mô hình, ta có thể cho bất cứ thuộc tính nào nhận giá trị bằng 0 hoặc bằng 1. A. Đúng. B. Sai.