Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hồi qui vói biến giả

40,908 views

Published on

slides of Ms. Kim Dung

Published in: Data & Analytics
  • Be the first to comment

Hồi qui vói biến giả

  1. 1. HỒI QUY VỚI BIẾN GIẢ ThS Nguyễn Thị Kim Dung
  2. 2. I. BIẾN GIẢ LÀ GÌ?  Biến giả (dummy) được dùng trong mô hình hồi quy để lượng hóa những biến định tính.  Biến định tính biểu thị có hay không 1 tính chất nào đó, hoặc các mức độ khác nhau của 1 thuộc tính nào đó. Ví dụ: giới tính (nam hay nữ), nơi cư trú (thành thị hay nông thôn)  Biến định lượng là các biến mà giá trị quan sát là những con số. Ví dụ: thu nhập, chi tiêu,… Tất cả các mô hình hồi quy ta xem xét từ trước tới nay đều sử dụng biến giải thích là biến định lượng
  3. 3. II. CÁC DẠNG MÔ HÌNH HỒI QUY VỚI BIẾN GIẢ 1. Mô hình trong đó tất cả biến giải thích đều là biến giả Dạng 1: biến giả có 2 lựa chọn  Ví dụ 1: Nghiên cứu về tiền lương của 49 nhân viên văn phòng, người ta muốn biết liệu có sự phân biệt đối xử về giới tính hay không? Bảng dữ liệu thu được có 2 biến: WAGE= thu nhập hàng tháng ($/tháng) GENDER= giới tính (GENDER = 1 nếu là nam)
  4. 4. • GIẢI: Phương trình hồi quy cần tìm có dạng: WAGE = C(1) + C(2)*GENDER Ứng với từng giới tính ta có: WAGE = C(1) : lương nhân viên nữ WAGE = C(1) + C(2) : lương nhân viên nam Dùng Eview, ta có kết quả: WAGE = 1518.695652 +568.2274247*GENDER  Dạng mô hình tổng quát: Yi=1+2Di+Ui
  5. 5. Dạng 2: biến giả có nhiều hơn 2 lựa chọn  Ví dụ 1.1: Ở ví dụ trên, giả sử 49 nhân viên thuộc 3 công ty A,B,C khác nhau, người ta muốn biết thu nhập của nhân viên ở từng công ty có liên quan với nhau như thế nào?  Để giải bài toán này, ta sử dụng 2 biến giả: A=1 nếu nhân viên thuộc công ty A, A=0 nếu nhân viên thuộc công ty khác B=1 nếu nhân viên thuộc công ty B, B=0 nếu nhân viên thuộc công ty khác
  6. 6. • GIẢI: (A=1 và B=0)  NV thuộc công ty A (A=0 và B=1)  NV thuộc công ty B (A=0 và B=0)  NV thuộc công ty C Phương trình hồi quy cần tìm có dạng: WAGE = C(1) + C(2)*A + C(3)*B Dùng Eview, ta có kết quả: WAGE = 1742.5 + 12.14*A +191.45*B  Dạng mô hình tổng quát: Yi=1+2D1i+3D2i+Ui
  7. 7. Kết luận Để phân biệt 2 tính chất, người ta dùng 1 biến giả Yi=1+2Di+Ui Để phân biệt 3 tính chất, người ta dùng 2 biến giả Yi=1+2D1i+3D2i+Ui Tổng quát: Để phân biệt m tính chất, người ta dùng m-1 biến giả
  8. 8. 2. Mô hình hồi quy có 1 biến giả và 1 biến định lượng Ví dụ 1.2: Ở ví dụ 1, người ta muốn tìm hiểu thu nhập của nhân viên văn phòng và NV các bộ phận khác theo số năm kinh nghiệm của họ? Bảng dữ liệu thu được có 3 biến: WAGE= thu nhập hàng tháng ( $/tháng) EXPER= số năm kinh nghiệm CLERICAL= NV văn phòng (CLERICAL=1 nếu nhân viên làm việc trong văn phòng)
  9. 9. • GIẢI: Trường hợp 1: Yi=1+2Xi+3Di+Ui 2 cho ta biết tốc độ tăng lương theo số năm kinh nghiệm 3 cho ta biết mức chênh lệch trong số lương trung bình của nhân viên văn phòng và nhân viên các bộ phận khác (với số năm kinh nghiệm như nhau) Phương trình hồi quy cần tìm có dạng: WAGE = C(1) + C(2)*EXPER + C(3)*CLERICAL Dùng Eview, ta có kết quả: WAGE = 1986.99 + 7.72*EXPER - 639.74*CLERICAL
  10. 10. Trường hợp 2: Yi=1+2Xi+3XiDi+Ui Giả sử tiền lương của nhân viên bị ảnh hưởng đồng thời bởi vị trí và số năm kinh nghiệm, ta thêm vào phương trình 1 biến tương tác (XD) Phương trình hồi quy cần tìm có dạng: WAGE = C(1) + C(2)*EXPER + C(3)*CLERICAL.EXPER Dùng Eview, ta có kết quả: WAGE = 1518.69 + 622.84*EXPER - 710.04*EXPER.CLERICAL • GIẢI:
  11. 11. Trường hợp 3: Yi=1+2Xi+3Di+4XiDi+Ui Phương trình hồi quy cần tìm có dạng: WAGE = C(1) + C(2)*EXPER + C(3)*CLERICAL + C(4)*EXPER.CLERICAL • GIẢI:
  12. 12.  Bài toán có thể xảy ra theo 1 trong 3 trường hợp Yi=1+2Xi+3Di+Ui Yi=1+2Xi+3XiDi+Ui Yi=1+2Xi+3Di+4XiDi+Ui  Trong thực tế, ta không xác định trước được bài toán rơi vào trường hợp nào, vì vậy ta phải xét cả 3 loại mô hình hồi quy rồi tìm ra mô hình phù hợp nhất. • KẾT LUẬN:
  13. 13. Bài tập áp dụng: Khi nghiên cứu về thu nhập(X) và chi tiêu (Y) trong một hộ gia đình, người ta thấy độ tuổi của chủ hộ có ảnh hưởng đến chi tiêu (gia đình trẻ tiêu dùng nhiều, gia đình trung niên tiết kiệm cho việc học của con cái nên tiêu dùng ít, gia đình đã nghỉ hưu không có nhu cầu tiết kiệm nên tiêu dùng nhiều hơn,…) Giả sử có 3 nhóm tuổi: dưới 25, từ25 đến 55, trên 55 (1) Hãy sử dụng biến giả để xác định biến định tính “nhóm tuổi người chủ hộ” ? (2) Giả sử mô hình hồi quy có dạng Yi=1 +2Xi +3D1i+4D2i+Ui, hãy viết mô hình ước lượng chi tiêu cho từng nhóm tuổi ?
  14. 14.  GIẢI:  Đặt Vậy (D1=0 và D2=0): nhóm chủ hộ dưới 25 tuổi (D1=1 và D2=0): nhóm chủ hộ từ 25 đến 55 tuổi (D1=0 và D2=1): nhóm chủ hộ trên 55 tuổi 1 2 1 neáu chuû hoä töø 25 ñeán 55 tuoåi 0 neáu chuû hoä ôû ñoä tuoåi khaùc 1 neáu chuû hoä treân 55 tuoåi 0 neáu chuû hoä ôû ñoä tuoåi khaùc D D        
  15. 15. Dạng phương trình hồi quy Yi=1 +2Xi +3D1i+4D2i+Ui Phương trình biểu diễn chi tiêu ứng với từng nhóm tuổi: Nhóm dưới 25 : Yi=1 +2Xi Nhóm từ 25 đến 55 : Yi=1 +3 +2Xi Nhóm trên 55 : Yi=1 +4 +2Xi
  16. 16. 3. ỨNG DỤNG BIẾN GIẢ VÀO CÁC BÀI TOÁN THỰC TẾ 1. Bài toán phân tích yếu tố mùa: Trong kinh tế, chuỗi thời gian mang tính thời vụ rất rõ. Ví dụ: doanh số bán hàng của các cửa hàng quần áo vào dịp tết, doanh số bán hàng của hiệu sách vào đầu năm học,... Khi đó ta sử dụng biến giả để phân chia thời gian thành mùa hay thành quý
  17. 17. Ví dụ: Chia thành 4 quý D1 =1 nếu quan sát ở quý 2, D1 =0 nếu quan sát ở quý khác D2 =1 nếu quan sát ở quý 3, D2 =0 nếu quan sát ở quý khác D3 =1 nếu quan sát ở quý 4, D3 =0 nếu quan sát ở quý khác Vậy: (D1 =0, D2 =0, D3 =0): quý 1 (D1 =1, D2 =0, D3 =0): quý 2 (D1 =0, D2 =1, D3 =0): quý 3 (D1 =0, D2 =0, D3 =1): quý 4
  18. 18. 2. Bài toán hồi quy tuyến tính từng khúc: Trong thực tế không phải lúc nào hàm hồi quy cũng là 1 hàm liên tục. Ví dụ: X* Khi doanh thu vượt qua mức X*=5500 $ thì tiền hoa hồng được tính nhiều hơn và tăng nhanh hơn để khuyến khích việc kinh doanh.
  19. 19. Khi đó ta đặt Hàm ước lượng có dạng: Yi=1 +2Xi +3(Xi –X*)Di + Ui * i * i 1 neáu X 0 neáu X i X D X     
  20. 20. BÀI TẬP Hàm hồi quy chi tiêu cho mặt hàng A của 20 người có dạng như sau: Trong đó : Y: chi tiêu cho mặt hàng A (ngànđ/tháng); X: thu nhập (triệu đ/tháng); D: giới tính (D=1 nếu là nam, D=0 nếu là nữ) Cụ thể: 1. Nêu ý nghĩa các hệ số hồi quy 2. Kiểm tra xem chi tiêu cho mặt hàng A của nam và nữ có giống nhau không? Mức ý nghĩa 5% 1 2 3 4 ˆ       i i i i iY X D X D ˆ 96,458 38,928 8,415 6,525 (33,228) (11,312) (4,207) (1,812)      i i i i iY X D X D se
  21. 21. ˆ 96,458 38,928 8,415 6,525   i i iY X X GIẢI Chi tiêu cho mặt hàng A của nữ là: Chi tiêu cho mặt hàng A của nam là: 2 3 4 1) Ý nghĩa hệ số hồi quy Nếu người tiêu dùng là nữ thi khi thu nhập tăng 1 triệu đ/ tháng thì chi tiêu cho mặt hàng A tăng 38,928 ngàn đ/ tháng Nếu người tiêu dùng là nam thì khi thu nhập tăng 1 triệu đ/ tháng thì chi tiêu cho mặt hàng A tăng (38,928-6,525) = 32,403 ngàn đ/ tháng ˆ 96,458 38,928 i iY X
  22. 22. ˆ 96,458 38,928 8,415 6,525   i i iY X X GIẢI Chi tiêu cho mặt hàng A của nữ là: Chi tiêu cho mặt hàng A của nam là: 2 3 4 Với cùng một mức thu nhập thì chi tiêu trung bình cho mặt hàng A của nữ cao hơn của nam (8,415+6,525 Xi) ngàn đ/ tháng ˆ 96,458 38,928 i iY X 1) Ý nghĩa hệ số hồi quy
  23. 23. GIẢI 2) Chi tiêu cho mặt hàng A của nam và nữ có giống nhau? Nhận xét: Ta thấy nếu 3= 4=0 thì chi tiêu cho mặt hàng A của nam và nữ không khác nhau. Ngược lại, nếu có ít nhất 1 trong 2 hệ số khác 0 thì chi tiêu cho A của Nam và nữ khác nhau Vậy ta phải tiến hành kiểm định giả thiết 0 3 0 4 1 3 1 4 : 0 : 0 à : 0 : 0            H H v H H
  24. 24. GIẢI Kiểm định 0 3 1 3 : 0 : 0      H H   3 3 0,025 8,415 4,207 2,00024 | | (16) 2,12 0chaáp nhaän H           t se t t Kiểm định 0 4 1 4 : 0 : 0      H H   4 4 0,025 6,525 1,812 3,601 | | (16) 2,12 0baùc boû H           t se t t
  25. 25. GIẢI Vậy chi tiêu cho mặt hàng A của Nam và Nữ thật sự khác nhau

×