2. Chương 3. HỒI QUY ĐƠN BIẾN
- Dự báo biến y khi giả sử nó quan hệ tuyến tính
với biến x
- Tên gọi đơn biến vì chỉ có 1 biến x được sử
dụng
- Biến x được gọi là biến giải thích, hay biến
dùng để dự đoán biến y
- Biến y được gọi là biến phụ thuộc, biến được
giải thích, hay biến được dự báo
3. 4.1. MÔ HÌNH HỒI QUY TUYẾN
TÍNH ĐƠN BIẾN
- Giả sử biến y và x liên hệ tuyến tính nhau qua:
- β0 hệ số chặn (tự do) thể hiện giá trị dự đoán
của y khi x = 0; β1 – hệ số góc, phần giá trị dự
đoán của y tăng do x tăng 1 đơn vị
4.
5. 4.1. MÔ HÌNH HỒI QUY TUYẾN
TÍNH ĐƠN BIẾN
- Các quan sát phân tán quanh đường thẳng
- Mỗi yi gồm 2 phần:
Và một phần là sai số hay εi sai số không phải
là lỗi, chỉ là sự cách biệt giữa giá trị thực và
giá trị đại diện (đường hồi quy) là các yếu
tố khác ngoài x có ảnh hưởng đến y
6. 4.1. MÔ HÌNH HỒI QUY TUYẾN
TÍNH ĐƠN BIẾN
- Các sai số này được giả định như là:
a. Có trung bình bằng 0, nếu không các giá trị dự
báo sẽ bị lệch
b.không tự tương quan với nhau, nếu không giá
trị dự báo sẽ không hiệu quả khi mà có nhiều
thông tin nên được khai thác trong dữ liệu
c. Không liên hệ với biến giải thích, nếu không
thì kết quả mô hình hồi quy không chính xác
7. 4.1. MÔ HÌNH HỒI QUY TUYẾN
TÍNH ĐƠN BIẾN
- Ngoài ra sai số phải có phân phối bình thường
với phương sai sai số phải bằng nhau
- Lưu ý trong mô hình hồi quy, biến x không
ngẫu nhiên
8. 4.2. PHƯƠNG PHÁP BÌNH
PHƯƠNG BÉ NHẤT
- Chúng ta chỉ có được số liệu mẫu, do đó
không biết giá trị tham số β0 và β1 do đó phải
ước lượng chúng từ mẫu
- Có nhiều ước lượng cho β0 và β1 do đó có
nhiều đường hồi quy PP bình phương bé
nhất
11. 4.2. PHƯƠNG PHÁP BÌNH
PHƯƠNG BÉ NHẤT
- Đường màu xanh thể hiện mối quan hệ thật
giữa y và x chúng ta không có
Dùng đường ước lượng màu tím để làm dự
báo Đường hồi quy
Với mỗi giá trị của x, ta sẽ dự báo cho giá trị
của y tương ứng
13. 3.3. HỒI QUY VÀ TƯƠNG QUAN
- Hệ số tương quan r đo độ mạnh và hướng
(thuận, nghịch) của mối quan hệ tuyến tính
giữa hai biến mối tương quan càng mạnh,
các điểm quan sát sẽ co cụm quanh 1 đường
thẳng
- Hệ số góc β1 của đường hồi quy:
14. 3.3. HỒI QUY VÀ TƯƠNG QUAN
- sy sx - sai số chuẩn của quan sát y và x
- Hồi quy lượng hoá được mối quan hệ còn
tương quan thì không
- Ví dụ: Lượng khí thải và hiệu suất nhiên liệu
của 134 xe hơi
Đường hồi quy mẫu:
15.
16. 3.3. HỒI QUY VÀ TƯƠNG QUAN
- Giải thích các hệ số hồi quy β
- β^0 = 12.53 không có ý nghĩa giải thích vì
không thể nào hiệu suất nhiên liệu bằng 0 (chỉ giải
thích β^0 khi giá trị x = 0 có ý nghĩa) tuy nhiên
mô hình hồi quy phải có β^0
- Β^1 = -0.22 lượng khí thải carbon sẽ giảm trung
bình 0.22 tấn/năm khi hiệu suất nhiên liệu xe tăng
lên 1 dặm/gallon 2 xe có hiệu suất khác nhau 1
mpg thì lượng khí thải sẽ chênh lệch trung bình
0.22 tấn/năm
17. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
Dùng lược đồ sai số
Các sai số phải phân tán ngẫu nhiên, không
thể hiện bất cứ xu hướng nào
Xét mối quan hệ giữa sai số và biến giải thích
x trên lược đồ phân tán
18.
19. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
- Nếu sai số không phân tán ngẫu nhiên thì mối
quan hệ đúng có thể là phi tuyến tính, hoặc do
mô hình có phương sai sai số không bằng, hay
có tương quan giữa các sai số
- Đồ thị trên cho thấy hiệu suất từ 15 -20, 30 -
45 các sai số tương quan thuận, từ 20 – 30 sai
số tương quan nghịch mô hình tuyến tính
lúc này không phù hợp
20. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
Dựa vào các quan sát có giá trị cực đại hay cực
tiểu
Ví dụ: hồi quy cân nặng lên chiều cao của các bé
7 tuổi
Trong 4 hình bên dưới ta thấy có 2 quan sát có
giá trị chênh lệch rất lớn so với các quan sát còn
lại
Trường hợp 2 ta thấy mô hình hồi quy bị ảnh
hưởng nhiều hơn
21.
22. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
Đường hồi quy màu đen không chứa giá trị
cực đại, đường màu đỏ có chứa
Lược đồ sai số cho thấy không phải lúc nào
giá trị cực đại cũng cho ra sai số lớn
Ngoài ra ta có thể dùng thống kê mô tả để
xác định giá trị cực đại và cực tiểu
Ta phải có lý do thuyết phục khi gỡ bỏ giá trị
cực đại hay cực tiểu
23. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
R2
-Dùng chỉ tiêu này để xem đường hồi quy khớp
với số liệu ít hay nhiều
-Có giá trị từ 0 đến 1, gần 1 nghĩa là đường hồi
quy nằm gần số liệu thật và ngược lại
24. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
Lưu ý, không phải R2 cao là mô hình hồi quy
có thể dự báo tốt được hình 4.4 cho thấy
với sai số có xu hướng (không ngẫu nhiên), thì
đường hồi quy lúc cao và thấp hơn giá trị thực
rất nhiều
25. 4.4. ĐÁNH GIÁ MÔ HÌNH HỒI
QUY
Sai số chuẩn của đường hồi quy
Thay vì chia cho (N-1), ta chia cho (N-2) vì ta có 2 tham
số bêta cần tính
Chúng ta so sánh sai số chuẩn hồi quy với trung bình của
biến y hay với độ lệch chuẩn của y
Cẩn thận khi dùng chỉ tiêu này vì nó là thước đo theo tỷ lệ
26. 4.5. DỰ BÁO VỚI HỒI QUY
- Ta dùng hàm hồi quy đơn biến:
Ta thay thế giá trị của x vào để dự báo cho y
Nếu dùng giá trị của x đã xuất hiện khi tính hồi
quy, giá trị dự báo không đáng tin do nó là giá trị
ước lượng
Nếu dùng giá trị x mới, giá trị dự báo của y sẽ
đáng tin cậy hơn
27. 4.5. DỰ BÁO VỚI HỒI QUY
- Giả sử các sai số hồi quy có phân phối chuẩn,
khoảng ước lượng 95% cho các giá trị dự báo
là:
Để có khoảng ước lượng 80%, ta thay 1.96
bằng 1.28
28. 4.5. DỰ BÁO VỚI HỒI QUY
Công thức trên cho thấy khoảng dự báo sẽ
rộng hơn khi x cách xa x trung bình kết quả
dự báo càng chính xác khi giá trị của biến giải
thích nằm gần trung bình của nó
Ví dụ: hàm hồi quy cho lượng khí thải xe
- Xe Chevrolet có x1 = 25 mpg và y1 = 6.6 tấn
CO2/năm mô hình đưa ra giá trị y^1 = 7, với
e1 = -0.4
29.
30. 4.6. THỐNG KÊ SUY DIỄN
Kiểm định giả thuyết
Phải chứng minh x và y có liên hệ với nhau
Nếu x và y không quan hệ thì hệ số β1 lẽ ra
phải bằng 0
Đầu tiên giả sử điều chúng ta không ủng hộ,
sau đó tìm bằng chứng để chứng minh sẽ giả này
là sai
31. 4.6. THỐNG KÊ SUY DIỄN
Chứng cứ chống lại giả thuyết H0 đến từ β^1 (từ
hàm hồi quy), nếu β^1 thực sự rất khác so với
giả thuyết H0, ta bác bỏ giả thuyết H0
Chúng ta ghi nhớ nguyên tắc kết luận sau:
P-value của hệ số β^1 < mức ý nghĩa α (1, 5, 10%) thì
ta bác bỏ giả thuyết H0 ứng với từng mức α ta chọn
32. 4.7. CÁC HÀM HỒI QUY PHI
TUYẾN
Ví dụ: số liệu cho thấy hàm phi tuyến nên được
dùng cho bộ số liệu vì khí thải của xe
Có nhiều cách để biến đổi hàm, thường người
ta lấy log số liệu
β1 đo độ co giãn, x tăng 1% thì biến y tăng
trung bình β1%
33.
34.
35.
36.
37. MỘT SỐ BÀI TẬP
Câu 1. Với chuỗi dữ liệu hàng quý của lượng bia
sản xuất tại Úc, ta có đồ thị sau:
38. MỘT SỐ BÀI TẬP
Yêu cầu: Hãy đề xuất phương pháp dự báo cho
lượng bia sản xuất tương lai, nêu lý do chọn
phương pháp
Câu 2. Với đồ thị về giá chứng khoán hàng ngày,
hãy đề xuất phương pháp dự báo thích hợp và
nêu lý do chọn phương pháp này?