1. Лекции по Эконометрике.
Линейная регрессия
Н. В. Артамонов
МГИМО МИД России
18 октября 2017 г.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 1 / 124
2. Содержание
1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 2 / 124
3. Стандартная линейная модель регрессии CLRM
(Classical Linear Regression Model)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 3 / 124
4. Стандартная линейная модель регрессии CLRM
(Classical Linear Regression Model)
y – зависимая переменная (dependent variable);
x1, . . . , xk – объясняющие переменные, влияющие
переменные, регрессоры.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 3 / 124
5. Стандартная линейная модель регрессии CLRM
(Classical Linear Regression Model)
y – зависимая переменная (dependent variable);
x1, . . . , xk – объясняющие переменные, влияющие
переменные, регрессоры.
По каждому из факторов имеем выборочные наблюдения
yi , xi1, . . . , xik i = 1, . . . , n
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 3 / 124
6. Стандартная линейная модель регрессии CLRM
(Classical Linear Regression Model)
y – зависимая переменная (dependent variable);
x1, . . . , xk – объясняющие переменные, влияющие
переменные, регрессоры.
По каждому из факторов имеем выборочные наблюдения
yi , xi1, . . . , xik i = 1, . . . , n
Далее всегда
n – объём выборки,
k – число объясняющих переменных.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 3 / 124
7. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 4 / 124
8. Линейная модель регрессии
yi = β0 + β1xi1 + · · · + βkxik + ui , i = 1, . . . , n (1)
где
ui – ошибка (error) модели регрессии.
β0, β1, . . . , βk – коэффициенты регрессии (в генеральной
совокупности).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 5 / 124
9. Линейная модель регрессии
yi = β0 + β1xi1 + · · · + βkxik + ui , i = 1, . . . , n (1)
где
ui – ошибка (error) модели регрессии.
β0, β1, . . . , βk – коэффициенты регрессии (в генеральной
совокупности).
Линейную регрессию будем рассматривать как систему
уравнений. Это связано с возможной “неоднородностью” данных,
что отличает эконометрику от мат.статистики (где выборка
“однородна”).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 5 / 124
10. Зависимая и объясняющие переменные:
y – эндогенный количественный фактор;
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 6 / 124
11. Зависимая и объясняющие переменные:
y – эндогенный количественный фактор;
x1, . . . , xk – экзогенные факторы, как количественные, так и
качественные;
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 6 / 124
12. Зависимая и объясняющие переменные:
y – эндогенный количественный фактор;
x1, . . . , xk – экзогенные факторы, как количественные, так и
качественные;
y, x1, . . . , xk наблюдаемы и рассматриваются как случайные
или детерминированные (регрессоры) величины.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 6 / 124
13. Зависимая и объясняющие переменные:
y – эндогенный количественный фактор;
x1, . . . , xk – экзогенные факторы, как количественные, так и
качественные;
y, x1, . . . , xk наблюдаемы и рассматриваются как случайные
или детерминированные (регрессоры) величины.
Ошибка модели регрессии:
u – случайная величина, моделирует влияние неучтённых
факторов (вводится из-за недостатка информации);
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 6 / 124
14. Зависимая и объясняющие переменные:
y – эндогенный количественный фактор;
x1, . . . , xk – экзогенные факторы, как количественные, так и
качественные;
y, x1, . . . , xk наблюдаемы и рассматриваются как случайные
или детерминированные (регрессоры) величины.
Ошибка модели регрессии:
u – случайная величина, моделирует влияние неучтённых
факторов (вводится из-за недостатка информации);
ошибка u ненаблюдаема.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 6 / 124
15. Матричные обозначения
Линейную регрессию, для сокращения записи, удобно записать в
матричном виде.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 7 / 124
16. Матричные обозначения
Линейную регрессию, для сокращения записи, удобно записать в
матричном виде.
Введем обозначения
β =
β0
β1
...
βk
xi =
1
xi1
...
xik
(k + 1) × 1 вектор коэффициентов и (k + 1) × 1 вектор i-го
наблюдения регрессоров.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 7 / 124
17. Матричная запись уравнения регрессии
Тогда (в эконометрике символ обозначает операцию
транспонирования)
xi β = β0 + β1xi1 + · · · + βkxik
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 8 / 124
18. Матричная запись уравнения регрессии
Тогда (в эконометрике символ обозначает операцию
транспонирования)
xi β = β0 + β1xi1 + · · · + βkxik
и линейную регрессию (1) можно записать
yi = xi β + ui
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 8 / 124
19. Ещё матричные обозначения
Обозначим
y =
y1
...
yn
u =
u1
...
un
(n × 1) вектор наблюдений зависимой переменной и n × 1 вектор
ошибок.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 9 / 124
20. Матричная запись линейной регрессии
Определим n × (k + 1) матрицу
X =
1 x11 · · · x1k
1 x21 · · · x2k
...
...
...
...
1 xn1 · · · xnk
=
x1
x2
...
xn
Столбцы – выборочные значения объясняющих переменных.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 10 / 124
21. Матричная запись линейной регрессии
Определим n × (k + 1) матрицу
X =
1 x11 · · · x1k
1 x21 · · · x2k
...
...
...
...
1 xn1 · · · xnk
=
x1
x2
...
xn
Столбцы – выборочные значения объясняющих переменных.
Линейную модель регрессии (1) как систему можно записать в
матричном виде
y = Xβ + u
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 10 / 124
23. Тогда
y =
y1
y2
...
yn
=
x1β + u1
x2β + u2
...
xnβ + un
=
x1β
x2β
...
xnβ
+
u1
u2
...
un
= Xβ + u
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 12 / 124
24. Ошибка линейной регрессии
Условия на ошибку регрессии:
1 E(ui |X) = 0 (условие экзогенности регрессоров);
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 13 / 124
25. Ошибка линейной регрессии
Условия на ошибку регрессии:
1 E(ui |X) = 0 (условие экзогенности регрессоров);
2 Var(ui |X) ≡ σ2
(условие однородности или
гомоскедастичности);
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 13 / 124
26. Ошибка линейной регрессии
Условия на ошибку регрессии:
1 E(ui |X) = 0 (условие экзогенности регрессоров);
2 Var(ui |X) ≡ σ2
(условие однородности или
гомоскедастичности);
3 cov(ui , uj |X) = 0 при i = j (отсутствие серийной корреляции
или независимость наблюдений)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 13 / 124
27. Ошибка линейной регрессии
Условия на ошибку регрессии:
1 E(ui |X) = 0 (условие экзогенности регрессоров);
2 Var(ui |X) ≡ σ2
(условие однородности или
гомоскедастичности);
3 cov(ui , uj |X) = 0 при i = j (отсутствие серийной корреляции
или независимость наблюдений)
Второе и третье условия можно записать как
E(u2
i |X) ≡ σ2
, E(ui uj |X) = 0 (i = j)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 13 / 124
28. Гомоскедастичность ошибки регрессии
Интерпретация
Условие гомоскедастичности (homoskedasticity) Var(ui |X) ≡ σ2
неформально означает, что во всех наблюдениях “степень
влияния” неучтённых факторов (а именно их влияние
моделирует ошибка ui ) одинакова.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 14 / 124
29. Гомоскедастичность ошибки регрессии
Интерпретация
Условие гомоскедастичности (homoskedasticity) Var(ui |X) ≡ σ2
неформально означает, что во всех наблюдениях “степень
влияния” неучтённых факторов (а именно их влияние
моделирует ошибка ui ) одинакова.
Условие гомоскедастичности является сильным предположением
и во многих прикладных задачах неадекватно. В этом случаем
говорят о гетероскедастичной ошибке (heteroskedasticity).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 14 / 124
30. Гомоскедастичность ошибки регрессии
Пример (Неоднородные данные)
Пусть wage – месячная зарплата, N – размер фирмы (например,
число сотрудников). Рассмотрим регрессию
wage = β0 + β1N + (другие регрессоры) + u
Тогда можно ожидать, что Var(u|N) ∼ N.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 15 / 124
31. Серийная корреляция
Отсутствие серийной корреляции cov(ui , uj |X) = 0 при i = j для
пространственных данных считается выполненным, так как
имеем серию независимых наблюдений.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 16 / 124
32. Серийная корреляция
Отсутствие серийной корреляции cov(ui , uj |X) = 0 при i = j для
пространственных данных считается выполненным, так как
имеем серию независимых наблюдений.
Это условия может нарушаться для временных рядов и
панельных данных (“эффект памяти”).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 16 / 124
33. Матричная запись ошибки
Условия на ошибку можно записать в матричном виде
1 E(u|X) = 0
2 Var(u|X) = E(uu |X) = σ2
In.
Здесь In – единичная n × n матрица и Var – матрица
вариации-ковариации вектора ошибки.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 17 / 124
34. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 18 / 124
35. Коэффициенты регрессии
Коэффициенты β0, β1, . . . , βk линейной регрессии (1):
показывают (количественно) как регрессоры влияют на
зависимую переменную;
a priori неизвестны, необходимо оценить по выборочным
данным.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 19 / 124
36. Коэффициенты регрессии. Интерпретация
Из первого условия на ошибку следует, что1
E(y|X) = β0 + β1x1 + · · · + βkxk,
т.е. y в среднем линейно зависит от регрессоров.
1
опустим номер наблюдения i
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 20 / 124
37. Коэффициенты регрессии. Интерпретация
Из первого условия на ошибку следует, что1
E(y|X) = β0 + β1x1 + · · · + βkxk,
т.е. y в среднем линейно зависит от регрессоров.
Пусть x1 – количественный фактор. Тогда при изменении
фактора x1 на ∆x (при прочих неизменных), то зависимая
переменная в среднем изменится на β1∆x.
1
опустим номер наблюдения i
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 20 / 124
38. Коэффициенты регрессии. Интерпретация
Коэффициенты в линейной регрессии (1) при количественном
факторе имеют смысл средних предельных значений:
Интерпретация коэффициентов
На сколько в среднем изменится зависимая переменная при
увеличении объясняющей переменной на единицу (при прочих
равных, сeteris paribus).
Замечание
Константа β0 в общем случае не интерпретируется.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 21 / 124
39. Коэффициенты регрессии. Интерпретация
Пример (Продолжительность сна)
sleep – недельная продолжительность сна (мин), totwrk –
недельная занятость (мин), age – возраст.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 22 / 124
40. Коэффициенты регрессии. Интерпретация
Пример (Продолжительность сна)
sleep – недельная продолжительность сна (мин), totwrk –
недельная занятость (мин), age – возраст.
Рассмотрим регрессию
sleep = β0 + β1totwrk + β2age + u.
Как интерпретировать коэффициенты?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 22 / 124
41. Коэффициенты регрессии. Интерпретация
Пример (Зарплатное уравнение)
wage – почасовая оплата, educ – уровень образования (в годах),
age – возраст, iqscores – результаты IQ-теста.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 23 / 124
42. Коэффициенты регрессии. Интерпретация
Пример (Зарплатное уравнение)
wage – почасовая оплата, educ – уровень образования (в годах),
age – возраст, iqscores – результаты IQ-теста.
Рассмотрим регрессию
wage = β0 + β1educ + β2age + β3iqscores + u.
Как интерпретировать коэффициенты?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 23 / 124
43. Коэффициенты регрессии. Интерпретация
Пример (Модель ценообразования для загородных
домов)
price – цена дома (в $1000), area – площадь дома (в м2
), bath –
число ванных, lotsize – площадь участка (в 100м2
).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 24 / 124
44. Коэффициенты регрессии. Интерпретация
Пример (Модель ценообразования для загородных
домов)
price – цена дома (в $1000), area – площадь дома (в м2
), bath –
число ванных, lotsize – площадь участка (в 100м2
). Рассмотрим
регрессию
price = β0 + β1area + β2lotsize + β3bath + u.
Как интерпретировать коэффициенты?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 24 / 124
45. Коэффициенты регрессии. Интерпретация
Пример (Модель ценообразования для загородных
домов)
price – цена дома (в $1000), area – площадь дома (в м2
), bath –
число ванных, lotsize – площадь участка (в 100м2
). Рассмотрим
регрессию
price = β0 + β1area + β2lotsize + β3bath + u.
Как интерпретировать коэффициенты?
Замечание к примеру
β1 можно интерпретировать как стоимость (дополнительного) м2
площади дома.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 24 / 124
46. Коэффициенты регрессии. Интерпретация
Пример (Модель ценообразования для загородных
домов)
price – цена дома (в $1000), area – площадь дома (в м2
), bath –
число ванных, lotsize – площадь участка (в 100м2
). Рассмотрим
регрессию
price = β0 + β1area + β2lotsize + β3bath + u.
Как интерпретировать коэффициенты?
Замечание к примеру
β1 можно интерпретировать как стоимость (дополнительного) м2
площади дома. β3 – стоимость (дополнительной) ванной.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 24 / 124
47. Коэффициенты регрессии. Интерпретация
Пример (Модель ценообразования для загородных
домов)
price – цена дома (в $1000), area – площадь дома (в м2
), bath –
число ванных, lotsize – площадь участка (в 100м2
). Рассмотрим
регрессию
price = β0 + β1area + β2lotsize + β3bath + u.
Как интерпретировать коэффициенты?
Замечание к примеру
β1 можно интерпретировать как стоимость (дополнительного) м2
площади дома. β3 – стоимость (дополнительной) ванной. β2 –
стоимость (дополнительных) 100м2
площади участка.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 24 / 124
48. Качественные регрессоры
Для учёта качественных факторов используем бинарные
регрессоры (dummy, binary variable).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 25 / 124
49. Качественные регрессоры
Для учёта качественных факторов используем бинарные
регрессоры (dummy, binary variable).
Пример
Гендерный фактор
gender =
1
0
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 25 / 124
50. Качественные регрессоры
Для учёта качественных факторов используем бинарные
регрессоры (dummy, binary variable).
Пример
Гендерный фактор
gender =
1
0
Тогда коэффициент при бинарной переменной – “отдача” (в
среднем) от “обладания” качественным признаком.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 25 / 124
51. Качественные регрессоры
Пример (Зарплатное уравнение)
wage – зарплата, age – возраст, male – гендерный фактор.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 26 / 124
52. Качественные регрессоры
Пример (Зарплатное уравнение)
wage – зарплата, age – возраст, male – гендерный фактор.
Рассмотрим регрессию
wage = β0 + β1age + β2male + u.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 26 / 124
53. Качественные регрессоры
Пример (Зарплатное уравнение)
wage – зарплата, age – возраст, male – гендерный фактор.
Рассмотрим регрессию
wage = β0 + β1age + β2male + u.
Тогда β2 – средняя разница в оплате между М и Ж (измеряет
“дискриминацию” по гендерному фактору).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 26 / 124
54. Качественные регрессоры
Пример (Зарплатное уравнение)
wage – зарплата, age – возраст, male – гендерный фактор.
Рассмотрим регрессию
wage = β0 + β1age + β2male + u.
Тогда β2 – средняя разница в оплате между М и Ж (измеряет
“дискриминацию” по гендерному фактору).
В самом деле,
E(wage|age, male = 0) = β0 + β1age
E(wage|age, male = 1) = β0 + β1age + β2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 26 / 124
55. Наряду с линейной регрессией рассмотрим регрессию
ln y = β0 + β1x1 + · · · + u
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 27 / 124
56. Наряду с линейной регрессией рассмотрим регрессию
ln y = β0 + β1x1 + · · · + u
Интерпретация коэффициентов
При увеличении фактора x1 на единицу (при прочих равных,
сeteris paribus), зависимая переменная y в среднем изменяется на
β1 · 100%.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 27 / 124
57. Рассмотрим также регрессию
ln y = β0 + β1ln x1 + · · · + u
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 28 / 124
58. Рассмотрим также регрессию
ln y = β0 + β1ln x1 + · · · + u
Интерпретация коэффициентов
При увеличении фактора x1 на 1% (при прочих равных, сeteris
paribus), зависимая переменная y в среднем изменяется на β1%.
Замечание
Коэффициент β1 имеет смысл коэффициента эластичности.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 28 / 124
59. Пример (Производственная функция Кобба-Дугласа)
Q = cKβ1
Lβ2
=⇒
ln
ln Q = β0 + β1 ln K + β2 ln L
и получаем регрессию (как интерпретировать коэффициенты?)
ln Q = β0 + β1 ln K + β2 ln L + u.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 29 / 124
60. Пример (Производственная функция Кобба-Дугласа)
Q = cKβ1
Lβ2
=⇒
ln
ln Q = β0 + β1 ln K + β2 ln L
и получаем регрессию (как интерпретировать коэффициенты?)
ln Q = β0 + β1 ln K + β2 ln L + u.
Пример
Пусть salary – месячный оклад CEO, sales – объем продаж
фирмы, age – возраст, roe – доходность на собственный капитал.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 29 / 124
61. Пример (Производственная функция Кобба-Дугласа)
Q = cKβ1
Lβ2
=⇒
ln
ln Q = β0 + β1 ln K + β2 ln L
и получаем регрессию (как интерпретировать коэффициенты?)
ln Q = β0 + β1 ln K + β2 ln L + u.
Пример
Пусть salary – месячный оклад CEO, sales – объем продаж
фирмы, age – возраст, roe – доходность на собственный капитал.
Рассмотрим регрессию
ln salary = β0 + β1 ln sales + β2age + β3roe + error .
Как интерпретировать коэффициенты?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 29 / 124
62. Рассмотрим также регрессию
y = β0 + β1ln x1 + · · · + u
Интерпретация коэффициента
При увеличении фактора x1 на 1% (при прочих равных, сeteris
paribus), зависимая переменная y в среднем изменяется на
β1/100.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 30 / 124
63. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 31 / 124
64. Как оценить модель?
Задача
Как оценить модель на статистических данных? Т.е. как оценить
параметры модели β и σ2
?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 32 / 124
65. Как оценить модель?
Задача
Как оценить модель на статистических данных? Т.е. как оценить
параметры модели β и σ2
?
Необходимые условия на оценку:
состоятельность.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 32 / 124
66. Как оценить модель?
Задача
Как оценить модель на статистических данных? Т.е. как оценить
параметры модели β и σ2
?
Необходимые условия на оценку:
состоятельность.
“Хорошие” свойства оценки:
несмещённость,
“эффективность” или “оптимальность”.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 32 / 124
67. Основной метод оценивания: Метод Наименьших Квадратов или
OLS-метод (OLS = Ordinary Least Squares)
Рассмотрим два случая:
2D с одной объясняющей переменной (простая
геометрическая интерпретация);
общий случай.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 33 / 124
68. OLS: случай 2D
Регрессия с одной объясняющей переменной
yi = β0 + β1xi + ui
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 34 / 124
69. OLS: случай 2D
Регрессия с одной объясняющей переменной
yi = β0 + β1xi + ui
Имеем наблюдения {xi , yi }n
i=1, их можно рассматривать как n
точек на плоскости (диаграмма рассеяния или корреляционное
поле, точечная диаграмма в MS Excel).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 34 / 124
70. OLS: случай 2D
Идея метода
Найти прямую y = β0 + β1x “наименее отклоняющуюся” от всех
точек {(xi , yi )}n
i=1 в смысле суммы квадратов (вертикальных)
отклонений для каждой точки (“подогнать” прямую под данные):
SS = SS(β0, β1) =
n
i=1
(yi − β0 − β1xi )2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 35 / 124
71. OLS: случай 2D
Идея метода
Найти прямую y = β0 + β1x “наименее отклоняющуюся” от всех
точек {(xi , yi )}n
i=1 в смысле суммы квадратов (вертикальных)
отклонений для каждой точки (“подогнать” прямую под данные):
SS = SS(β0, β1) =
n
i=1
(yi − β0 − β1xi )2
Тогда параметры оптимальной прямой есть решение
оптимальной задачи (при заданных {xi , yi }n
i=1)
min
β0,β1
SS = min
β0,β1
n
i=1
(yi − β0 − β1xi )2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 35 / 124
72. OLS: случай 2D
Необходимые условия экстремума:
SSβ0
= 0
SSβ1
= 0
⇐⇒
β0 + β1 ¯x = ¯y
β0 ¯x + β1x2 = xy
2
cov(x, y) = xy − ¯x · ¯y, Var(x) = x2 − (¯x)2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 36 / 124
73. OLS: случай 2D
Необходимые условия экстремума:
SSβ0
= 0
SSβ1
= 0
⇐⇒
β0 + β1 ¯x = ¯y
β0 ¯x + β1x2 = xy
Это (линейная) система нормальных уравнений.
2
cov(x, y) = xy − ¯x · ¯y, Var(x) = x2 − (¯x)2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 36 / 124
74. OLS: случай 2D
Необходимые условия экстремума:
SSβ0
= 0
SSβ1
= 0
⇐⇒
β0 + β1 ¯x = ¯y
β0 ¯x + β1x2 = xy
Это (линейная) система нормальных уравнений.
Параметры оптимальной прямой2
ˆβ1 =
cov(x, y)
Var(x)
, ˆβ0 = ¯y − ˆβ1 ¯x
2
cov(x, y) = xy − ¯x · ¯y, Var(x) = x2 − (¯x)2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 36 / 124
75. OLS: случай 2D
Достаточные условия: так как SS(β0, β1) выпукла, то решение
системы нормальных уравнений даёт глобальный минимум
Отметим, что оптимальная прямая проходит через точку (¯x, ¯y).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 37 / 124
76. 1000
2000
3000
4000
0 2000 4000 6000
Занятость, мин/нед
Продолжиельностьсна,мин/нед
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 38 / 124
77. 5
6
7
8
50 75 100 125
IQ
ln(wage)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 39 / 124
78. OLS: общий случай
В общем случае
SS =
n
i=1
(yi − β0 − β1xi1 − . . . − βkxik)2
=
n
i=1
(yi − xi β)2
= (y − Xβ) (y − Xβ)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 40 / 124
79. OLS: общий случай
В общем случае
SS =
n
i=1
(yi − β0 − β1xi1 − . . . − βkxik)2
=
n
i=1
(yi − xi β)2
= (y − Xβ) (y − Xβ)
и оценки коэффициентов есть решение оптимальной задачи
min
β
SS = min
β
n
i=1
(yi − xi β)2
= min
β
(y − Xβ) (y − Xβ)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 40 / 124
80. OLS: общий случай
Необходимые условия:
∂SS
∂β
= 0 ⇐⇒ (X X)β = X y
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 41 / 124
81. OLS: общий случай
Необходимые условия:
∂SS
∂β
= 0 ⇐⇒ (X X)β = X y
Если det(X X) = 0, то OLS-оценки коэффициентов регрессии
ˆβOLS = (X X)−1
X y
(очевидно, оценка ˆβOLS линейна по y).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 41 / 124
82. OLS: общий случай
Необходимые условия:
∂SS
∂β
= 0 ⇐⇒ (X X)β = X y
Если det(X X) = 0, то OLS-оценки коэффициентов регрессии
ˆβOLS = (X X)−1
X y
(очевидно, оценка ˆβOLS линейна по y).
Достаточные условия: SS(β) выпукла ⇒ ˆβOLS – глобальный
минимум.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 41 / 124
83. OLS: общий случай
Далее оценки коэффициентов будем обозначать через βj
(j = 0, . . . , k).
Важно!
Различаем два понятия
βj – коэффициент регрессии в генеральной совокупности
(ненаблюдаем!);
βj – оценка коэффициента регрессии по статистическим
данным.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 42 / 124
84. Матрица X y
X y =
1 1 · · · 1
x11 x21 · · · xn1
...
...
...
...
x1k x2k · · · xnk
·
y1
y2
...
yn
=
i yi
i xi1yi
...
i xikyi
= n
¯y
x1y
...
xky
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 43 / 124
86. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 45 / 124
87. Теорема (Гаусса – Маркова)
Пусть для ошибки линейной регрессии
yi = xi β + ui
выполнены условия
1 E(ui |X) = 0,
2 Var(ui |X) ≡ σ2
,
3 cov(ui , uj |X) = 0 при i = j.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 46 / 124
88. Теорема (Гаусса – Маркова)
Пусть для ошибки линейной регрессии
yi = xi β + ui
выполнены условия
1 E(ui |X) = 0,
2 Var(ui |X) ≡ σ2
,
3 cov(ui , uj |X) = 0 при i = j.
Тогда ˆβOLS – несмещённая, эффективная (оптимальная) оценка
коэффициентов β.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 46 / 124
90. Замечание
Несмещённость означает E(ˆβOLS |X) = β
Замечание
Эффективность означает:
Среди несмещенных оценок коэффициентов, линейных по y,
OLS-оценка имеет минимальную дисперсию
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 47 / 124
91. Замечание
Несмещённость означает E(ˆβOLS |X) = β
Замечание
Эффективность означает:
Среди несмещенных оценок коэффициентов, линейных по y,
OLS-оценка имеет минимальную дисперсию
Иногда используется аббревиатура BLUE = Best Linear Unbiased
Estimator.
Замечание
Оценку для σ2
получим ниже.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 47 / 124
92. Для линейной регрессии на выборочных данных определим
Предсказанные значения (predicted values)
ˆyi = xi βOLS = ˆβ0 + ˆβ1xi1 + . . . + ˆβkxik i = 1, . . . , n
Остатки (residuals)
ˆui = ei = yi − ˆyi i = 1, . . . , n
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 48 / 124
94. Оценка σ2
Обозначим
s2
=
n
i=1 ˆu2
i
n − k − 1
Утверждение
При выполнении условий теоремы Гаусса-Маркова s2
–
несмещенная оценка дисперсии ошибки σ2
.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 49 / 124
95. Оценка σ2
Обозначим
s2
=
n
i=1 ˆu2
i
n − k − 1
Утверждение
При выполнении условий теоремы Гаусса-Маркова s2
–
несмещенная оценка дисперсии ошибки σ2
.
s =
√
s2 – стандартная ошибка регрессии (SER = Standart Error
of Regression)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 49 / 124
96. Стандартные ошибки коэффициентов
Определим s2
j (j = 0, 1, . . . , k) как диагональные элементы
матрицы:
s2
(X X)−1
=
s2
0 · · ·
s2
1 · · ·
s2
2 · · ·
...
...
...
...
...
· · · s2
k
Определение
sj = s. e.(βj ) = s2
j – стандартная ошибка коэффициента βj .
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 50 / 124
97. Важно!
Результат теоремы Гаусса – Маркова “свободен от
распределения” (distribution-free). Для доказательства
оптимальности OLS-оценки (среди несмещённых и линейных по
y оценок) распределение ошибки неважно.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 51 / 124
98. Важно!
Результат теоремы Гаусса – Маркова “свободен от
распределения” (distribution-free). Для доказательства
оптимальности OLS-оценки (среди несмещённых и линейных по
y оценок) распределение ошибки неважно.
Замечание
Если распределение ошибки u|X известно и негауссово, то можно
получить более точные оценки коэффициентов, но, возможно,
сильно нелинейные.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 51 / 124
99. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 52 / 124
100. Важно!
Для каждой регрессии, наряду с оценками коэффициентов,
вычисляется (относительный) показатель “качества подгонки”
модели под данные со значениями от 0 до 1.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 53 / 124
101. Важно!
Для каждой регрессии, наряду с оценками коэффициентов,
вычисляется (относительный) показатель “качества подгонки”
модели под данные со значениями от 0 до 1.
Определим
TSS = n
i=1(yi − ¯y)2
– общая сумма квадратов зависимой
переменной;
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 53 / 124
102. Важно!
Для каждой регрессии, наряду с оценками коэффициентов,
вычисляется (относительный) показатель “качества подгонки”
модели под данные со значениями от 0 до 1.
Определим
TSS = n
i=1(yi − ¯y)2
– общая сумма квадратов зависимой
переменной;
ESS = n
i=1(ˆyi − ¯y)2
– объяснённая сумма квадратов;
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 53 / 124
103. Важно!
Для каждой регрессии, наряду с оценками коэффициентов,
вычисляется (относительный) показатель “качества подгонки”
модели под данные со значениями от 0 до 1.
Определим
TSS = n
i=1(yi − ¯y)2
– общая сумма квадратов зависимой
переменной;
ESS = n
i=1(ˆyi − ¯y)2
– объяснённая сумма квадратов;
RSS = n
i=1 ˆu2
i = n
i=1(yi − ˆyi )2
– остаточная сумма
квадратов.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 53 / 124
104. Важно!
Для каждой регрессии, наряду с оценками коэффициентов,
вычисляется (относительный) показатель “качества подгонки”
модели под данные со значениями от 0 до 1.
Определим
TSS = n
i=1(yi − ¯y)2
– общая сумма квадратов зависимой
переменной;
ESS = n
i=1(ˆyi − ¯y)2
– объяснённая сумма квадратов;
RSS = n
i=1 ˆu2
i = n
i=1(yi − ˆyi )2
– остаточная сумма
квадратов.
Важно!
Величина TSS не зависит от объясняющих переменных.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 53 / 124
105. Важно!
Для каждой регрессии, наряду с оценками коэффициентов,
вычисляется (относительный) показатель “качества подгонки”
модели под данные со значениями от 0 до 1.
Определим
TSS = n
i=1(yi − ¯y)2
– общая сумма квадратов зависимой
переменной;
ESS = n
i=1(ˆyi − ¯y)2
– объяснённая сумма квадратов;
RSS = n
i=1 ˆu2
i = n
i=1(yi − ˆyi )2
– остаточная сумма
квадратов.
Важно!
Величина TSS не зависит от объясняющих переменных.
Очевидно, s2
= RSS /(n − k − 1).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 53 / 124
106. Коэффициент R2
Так как модель регрессии с константой β0, то верно равенство3
TSS = ESS + RSS .
3
На самом деле это Теорема Пифагра
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 54 / 124
107. Коэффициент R2
Так как модель регрессии с константой β0, то верно равенство3
TSS = ESS + RSS .
Определение
Коэффициент R2
или коэффициент детерминации определяется
как
R2
=
ESS
TSS
= 1 −
RSS
TSS
0 ≤ R2
≤ 1.
3
На самом деле это Теорема Пифагра
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 54 / 124
108. Коэффициент R2
Так как модель регрессии с константой β0, то верно равенство3
TSS = ESS + RSS .
Определение
Коэффициент R2
или коэффициент детерминации определяется
как
R2
=
ESS
TSS
= 1 −
RSS
TSS
0 ≤ R2
≤ 1.
R =
√
R2 – коэффициент множественной корреляции y на
регрессоры.
3
На самом деле это Теорема Пифагра
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 54 / 124
109. Коэффициент R2
Из определения
R2
= 0 ⇐⇒ ˆyi = ¯y ⇐⇒ ˆβ1 = · · · = ˆβk = 0 (“плохая подгонка”
регрессии под данные, модель “ничего не объясняет”).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 55 / 124
110. Коэффициент R2
Из определения
R2
= 0 ⇐⇒ ˆyi = ¯y ⇐⇒ ˆβ1 = · · · = ˆβk = 0 (“плохая подгонка”
регрессии под данные, модель “ничего не объясняет”).
R2
= 1 ⇐⇒ yi = ˆyi , (i = 1, . . . , n) (“идеальная подгонка”
регрессии под данные)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 55 / 124
111. Коэффициент R2
Из определения
R2
= 0 ⇐⇒ ˆyi = ¯y ⇐⇒ ˆβ1 = · · · = ˆβk = 0 (“плохая подгонка”
регрессии под данные, модель “ничего не объясняет”).
R2
= 1 ⇐⇒ yi = ˆyi , (i = 1, . . . , n) (“идеальная подгонка”
регрессии под данные)
Очевидно, что на реальных данных будет 0 < R2
< 1.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 55 / 124
112. Коэффициент R2
Коэффициент R2
можно рассматривать как показатель
«качества подгонки» (goodness-of-fit) линейной регрессии под
статистические данные.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 56 / 124
113. Коэффициент R2
Коэффициент R2
можно рассматривать как показатель
«качества подгонки» (goodness-of-fit) линейной регрессии под
статистические данные.
Интерпретация R2
Какая доля изменения зависимой переменной (на выборочных
данных) определяется объясняющими переменными
(объясняется регрессией).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 56 / 124
114. Коэффициент R2
Коэффициент R2
можно рассматривать как показатель
«качества подгонки» (goodness-of-fit) линейной регрессии под
статистические данные.
Интерпретация R2
Какая доля изменения зависимой переменной (на выборочных
данных) определяется объясняющими переменными
(объясняется регрессией).
Важно!
При добавлении в модель новых объясняющих переменных
коэффициент R2
может только увеличиться (так как возрастает
количество степеней свободы для подгонки модели под данные).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 56 / 124
115. Скорректированный коэффициент R2
Скорректированный R2
Скорректированный (adjusted) на число степеней свободы или
исправленный коэффициент R2
R2
adj = ¯R2
= 1 −
RSS /(n − k − 1)
TSS /(n − 1)
= 1 − (1 − R2
)
n − 1
n − k − 1
k – число регрессоров, n – объем выборки.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 57 / 124
117. Скорректированный коэффициент R2
Свойства:
R2
adj ≤ R2
м.б. отрицательным
не интерпретируется!
Использование: сравнение моделей с одинаковой зависимой
переменной (но с разными наборами регрессоров), критерий
max ¯R2
.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 58 / 124
118. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 59 / 124
119. Статистические выводы (inferences) для оценённой модели
регрессии. Зачем это нужно? Почему это важно?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 60 / 124
120. Статистические выводы (inferences) для оценённой модели
регрессии. Зачем это нужно? Почему это важно?
Формальные количественные выводы зависят от выборки.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 60 / 124
121. Статистические выводы (inferences) для оценённой модели
регрессии. Зачем это нужно? Почему это важно?
Формальные количественные выводы зависят от выборки.
Хотим сделать выводы о коэффициентах генеральной
совокупности, которые максимально (насколько возможно) не
зависили от выборочных данных.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 60 / 124
122. Inferences
Под статистические выводами будем понимать:
Тестирование статистических гипотез о коэффициентах
(«простые» и «сложные» гипотезы).
Доверительные интервалы для коэффициентов.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 61 / 124
123. Inferences
Под статистические выводами будем понимать:
Тестирование статистических гипотез о коэффициентах
(«простые» и «сложные» гипотезы).
Доверительные интервалы для коэффициентов.
Для содержательных выводов необходимо дополнительно
наложить условие нормальной распределённости ошибки
ui |X ∼ N(0, σ2
)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 61 / 124
124. Inferences
Под статистические выводами будем понимать:
Тестирование статистических гипотез о коэффициентах
(«простые» и «сложные» гипотезы).
Доверительные интервалы для коэффициентов.
Для содержательных выводов необходимо дополнительно
наложить условие нормальной распределённости ошибки
ui |X ∼ N(0, σ2
)
Два базовых понятия: уровень значимости α и доверительная
вероятность γ.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 61 / 124
125. 1 Стандартная линейная модель регрессии
Основные предположения
Интерпретация коэффициентов
Метод наименьших квадратов
Теорема Гаусса – Маркова
«Качество подгонки» регрессии
Статистические выводы для линейной регрессии
Тестирование гипотез о коэффициентах
Доверительные интервалы для коэффициентов
Состоятельность
Прогнозирование
Регрессия без константы
Прикладные вопросы
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 62 / 124
126. Inferences: значимость коэффициента
Проверка значимости коэффициента регрессии: на данных
теструем («простую») гипотезу
H0 : βj = 0 vs H1 : βj = 0
Смысл
Тестируем гипотезу, что в генеральной совокупности фактор xj
не влияет на зависимую переменную.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 63 / 124
127. Inferences: значимость коэффициента
На основе статистических данных нужно
либо отвергнуть нулевую гипотезу (коэффициент значим,
данные противоречат гипотезе).
либо неотвергать нулевую гипотезу (коэффициент незначим,
данные не противоречат гипотезе)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 64 / 124
128. Inferences: уровень значимости
Уровень значимости α (вероятность ошибки первого рода) –
вероятность неверно отвергнуть нулевую гипотезу (иногда удобно
понимать как «риск»).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 65 / 124
129. Inferences: уровень значимости
Уровень значимости α (вероятность ошибки первого рода) –
вероятность неверно отвергнуть нулевую гипотезу (иногда удобно
понимать как «риск»).
В прикладных исследованиях как правило выбирается
α = 1%, 5%, 10%.
Важно!
Уровень значимость фиксируется заранее и выбирается a priori.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 65 / 124
130. Inferences: как тестировать?
Два способа тестирования гипотезы:
с использованием P-значения;
с использованием тестовой статистики.
Важно!
Оба подхода равносильны, но в научных публикациях
использование P-значений считается «плохим тоном»!
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 66 / 124
131. Inferences: как тестировать?
1-й способ: для коэффициентов эконометрические программы
вычисляют т.н. P-значения.
Статистическое правило (универсальное!)
Нулевую гипотезу отвергаем (коэффициент значим) при
P < α.
Нулевую гипотезу не отвергаем (коэффициент незначим)
при P > α.
Неформальное статистическое правило
Нулевую гипотезу отвергаем, если P-значение «маленькое»
(относительно уровня значимости)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 67 / 124
132. Inferences: как тестировать?
2-й способ: тестовая статистика (t-статистика) для проверки
значимости коэффициента:
t =
ˆβj
s. e.(βj )
где ˆβj – оценка коэффициента, s. e.(βj ) – стандартная ошибка
коэффициента (всё автоматически вычисляется программами).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 68 / 124
133. Inferences: как тестировать?
2-й способ: тестовая статистика (t-статистика) для проверки
значимости коэффициента:
t =
ˆβj
s. e.(βj )
где ˆβj – оценка коэффициента, s. e.(βj ) – стандартная ошибка
коэффициента (всё автоматически вычисляется программами).
Критическое значение: распределения Стьюдента или
t-распределения
tcr = tn−k−1(α),
(df = n − k − 1) – число степеней свободы.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 68 / 124
134. Inferences: как тестировать?
Статистическое правило
Отвергаем H0 при |t| > tcr , коэффициент значим (тестовая
статистика «большая» по модулю).
Не отвергаем H0 при |t| < tcr , коэффициент незначим
(тестовая статистика «маленькая» по модулю).
Неформальное статистическое правило
Нулевую гипотезу отвергаем, если тестовая t-статистика
«большая» по модулю (относительно критического значения).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 69 / 124
135. Inferences: как тестировать?
Где взять критическое значение?
Специальные статистические таблицы.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 70 / 124
136. Inferences: как тестировать?
Где взять критическое значение?
Специальные статистические таблицы.
Табличные процессоры
MS Excel 2007 RUS СТЬЮДРАСПОБР
MS Excel 2007 ENG tinv
MS Excel 2010 RUS СТЬЮДЕНТ.ОБР.2Х
MS Excel 2010 ENG T.INV.2T
Google Таблицы T.INV.2T & TINV
Libre Office tinv
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 70 / 124
137. Inferences: как тестировать?
Где взять критическое значение?
Специальные статистические таблицы.
Табличные процессоры
MS Excel 2007 RUS СТЬЮДРАСПОБР
MS Excel 2007 ENG tinv
MS Excel 2010 RUS СТЬЮДЕНТ.ОБР.2Х
MS Excel 2010 ENG T.INV.2T
Google Таблицы T.INV.2T & TINV
Libre Office tinv
функция R (p = 1 − α/2):
qt (p , df )
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 70 / 124
138. Inferences: гипотеза о коэффициенте
Общий случай «простой» гипотезы
H0 : βj = θ vs H1 : βj = θ
где θ – заданное число.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 71 / 124
139. Inferences: гипотеза о коэффициенте
Общий случай «простой» гипотезы
H0 : βj = θ vs H1 : βj = θ
где θ – заданное число.
Тестовая t-статистика
t =
ˆβj − θ
s. e.(βj )
.
Критическое значение Стьюдента tcr = tn−k−1(α).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 71 / 124
140. Inferences: гипотеза о коэффициенте
Статистическое правило
Отвергаем H0 при |t| > tcr , коэффициент значимо
отличается от числа;
Не отвергаем H0 при |t| < tcr , коэффициент незначимо
отличается от числа.
Альтернативно: используем P-значение
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 72 / 124
142. Inferences: односторонняя альтернатива
Рассмотрим гипотезу с односторонней альтернативой
H0 : βj = θ vs H1 : βj > θ
В чём отличие от предыдущего?
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 73 / 124
143. Inferences: односторонняя альтернатива
Рассмотрим гипотезу с односторонней альтернативой
H0 : βj = θ vs H1 : βj > θ
В чём отличие от предыдущего?
Односторонняя альтернатива применяется когда a priori
известно, что всегда βj ≥ θ (например экономически).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 73 / 124
144. Inferences: односторонняя альтернатива
Пример (Зарплатное уравнение)
В модели
wage = β0 + β1educ + · · · + u
Очевидно должно быть β1 ≥ 0.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 74 / 124
145. Inferences: односторонняя альтернатива
Пример (Зарплатное уравнение)
В модели
wage = β0 + β1educ + · · · + u
Очевидно должно быть β1 ≥ 0.
Пример (Производственная функция)
В модели Кобба-Дугласа
ln Q = β0 + β1 ln K + β2 ln L + u
Очевидно должно быть β1, β2 ≥ 0.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 74 / 124
146. Inferences: односторонняя альтернатива
Как тестировать?
H0 : βj = θ vs H1 : βj > θ
4
СТЬЮДЕНТ.ОБР в MS Excel 2010
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 75 / 124
147. Inferences: односторонняя альтернатива
Как тестировать?
H0 : βj = θ vs H1 : βj > θ
Тестовая статистика как раньше t =
ˆβj − θ
s. e.(βj )
. Но критическое
значение одностороннее4
tcr = tn−k−1(2α).
4
СТЬЮДЕНТ.ОБР в MS Excel 2010
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 75 / 124
148. Inferences: односторонняя альтернатива
Как тестировать?
H0 : βj = θ vs H1 : βj > θ
Тестовая статистика как раньше t =
ˆβj − θ
s. e.(βj )
. Но критическое
значение одностороннее4
tcr = tn−k−1(2α).
Статистическое правило (тестовая статистика без
модуля!)
Отвергаем H0 при t > tcr .
Не отвергаем H0 при t < tcr .
4
СТЬЮДЕНТ.ОБР в MS Excel 2010
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 75 / 124
149. Inferences: односторонняя альтернатива
Для гипотезы
H0 : βj = θ vs H1 : βj < θ
тестовая статистика и критическое значение такие же.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 76 / 124
150. Inferences: односторонняя альтернатива
Для гипотезы
H0 : βj = θ vs H1 : βj < θ
тестовая статистика и критическое значение такие же.
Статистическое правило (тестовая статистика без
модуля!)
Отвергаем H0 при t < −tcr .
Не отвергаем H0 при t > −tcr .
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 76 / 124
151. Inferences: значимость регрессии «в целом»
Проверка значимости регрессии «в целом»: тестируем гипотезу
H0 : β1 = · · · = βk = 0
Смысл
Все объясняющие переменные в совокупности не влияют на
зависимую переменную (регрессоры «ничего не объясняют»).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 77 / 124
152. Inferences: значимость регрессии «в целом»
Тестовая F-статистика для проверки значимости «в целом»
(автоматические вычисляется программами)
F =
R2
1 − R2
·
n − k − 1
k
=
ESS
RSS
·
n − k − 1
k
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 78 / 124
153. Inferences: значимость регрессии «в целом»
Тестовая F-статистика для проверки значимости «в целом»
(автоматические вычисляется программами)
F =
R2
1 − R2
·
n − k − 1
k
=
ESS
RSS
·
n − k − 1
k
Критическое значение: распределения Фишера или
F-распределения
Fcr = Fk,n−k−1(α).
(df1 = k, df2 = n − k − 1) – степени свободы.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 78 / 124
154. Inferences: значимость регрессии «в целом»
Статистическое правило
Отвергаем H0 при F > Fcr , регрессия «в целом» значима.
Не отвергаем H0 при F < Fcr , регрессия «в целом»
незначима.
Неформальное статистическое правило
Нулевую гипотезу отвергаем, если тестовая F-статистика
большая (относительно критического значения).
Альтернативно: используем P-значение
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 79 / 124
155. Inferences: значимость регрессии «в целом»
Где взять критическое значение Fcr ?
Специальные статистические таблицы.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 80 / 124
156. Inferences: значимость регрессии «в целом»
Где взять критическое значение Fcr ?
Специальные статистические таблицы.
Табличные процессоры
MS Excel 2007 RUS FРАСПОБР
MS Excel 2007 ENG Finv
MS Excel 2010 RUS F.ОБР.ПХ
MS Excel 2010 ENG F.INV.RT
Google Таблицы F.INV.RT & FINV
Libre Office Finv
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 80 / 124
157. Inferences: значимость регрессии «в целом»
Где взять критическое значение Fcr ?
Специальные статистические таблицы.
Табличные процессоры
MS Excel 2007 RUS FРАСПОБР
MS Excel 2007 ENG Finv
MS Excel 2010 RUS F.ОБР.ПХ
MS Excel 2010 ENG F.INV.RT
Google Таблицы F.INV.RT & FINV
Libre Office Finv
функция R (p = 1 − α)
qf (p , df1 , df2 )
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 80 / 124
158. Пример оценки модели в gretl
Модель 1: МНК, использованы наблюдения 1–706
Зависимая переменная: sleep
Коэффициент Ст. ошибка t-статистика P-значение
const 3470.46 69.3769 50.0233 0.0000 ***
totwrk −0.170220 0.0179310 −9.4931 0.0000 ***
age 2.83141 1.38501 2.0443 0.0413 **
male 91.2572 34.2003 2.6683 0.0078 ***
smsa −56.7592 32.9230 −1.7240 0.0851 *
south 99.5086 41.6778 2.3876 0.0172 **
Среднее зав. перемен 3266.356 Ст. откл. зав. перемен 444.4134
Сумма кв. остатков 1.21e+08 Ст. ошибка модели 415.8735
R2
0.130525 Исправленный R2
0.124314
F(5, 700) 21.01671 Р-значение(F) 1.32e–19
Лог. правдоподобие −5256.207 Крит. Акаике 10524.41
Крит. Шварца 10551.77 Hannan–Quinn 10534.98
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 81 / 124
159. Inferences: совместная значимость
Проверка совместной значимости нескольких коэффициентов:
тестируем гипотезу
H0 : β1 = . . . = βJ = 0 (1 < J < k)
(в генеральной совокупности первые J коэффициентов равны
нулю).
Смысл
В генеральной совокупности объясняющие переменные x1, . . . , xJ
не влияют на зависимую переменную.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 82 / 124
160. Inferences: совместная значимость
Для вычисления тестовой статистики нужно оценить две
(«вложенные») регрессии:
«длинную» (со всеми факторами, unrestricted)
y = β0 + β1x1 + · · · + βkxk + error, R2
, RSS
«короткую» (без учёта факторов из H0, restricted)
y = β0 + βJ+1xJ+1 + · · · + βkxk + error, R2
restr , RSSrestr
Очевидно R2
restr ≤ R2
и RSSrestr ≥ RSS.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 83 / 124
161. Inferences: совместная значимость
Тестовая F-статистика
F =
R2
− R2
restr
1 − R2
·
n − k − 1
J
=
RSSrestr − RSS
RSS
·
n − k − 1
J
,
n – объем выборки, k – общее число факторов, J – число
коэффициентов, совместную значимость которых тестируем.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 84 / 124
162. Inferences: совместная значимость
Тестовая F-статистика
F =
R2
− R2
restr
1 − R2
·
n − k − 1
J
=
RSSrestr − RSS
RSS
·
n − k − 1
J
,
n – объем выборки, k – общее число факторов, J – число
коэффициентов, совместную значимость которых тестируем.
Критическое значение: распределения Фишера или
F-распределения
Fcr = FJ,n−k−1(α).
(df1 = J, df2 = n − k − 1) – степени свободы.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 84 / 124
163. Inferences: совместная значимость
Статистическое правило
Отвергаем H0 при F > Fcr , совместное влияние факторов
значимо;
Не отвергаем H0 при F < Fcr , совместное влияние факторов
незначимо.
Неформальное статистическое правило
Нулевую гипотезу отвергаем, если тестовая F-статистика
большая (относительно критического значения).
Альтернативно: используем P-значение
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 85 / 124
164. Inferences: совместная значимость
Пример (Зарплатное уравнение)
Пусть wage – почасовая оплата, age – возраст, gender – гендерный
фактор, meduc, feduc – уровень образования родителей
ln(wage) = β0 + β1age + β2gender+
β3meduc + β4feduc + error
Тестируем гипотезу H0 : β3 = β4 = 0.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 86 / 124
165. Inferences: совместная значимость
Пример (Зарплатное уравнение)
Пусть wage – почасовая оплата, age – возраст, gender – гендерный
фактор, meduc, feduc – уровень образования родителей
ln(wage) = β0 + β1age + β2gender+
β3meduc + β4feduc + error
Тестируем гипотезу H0 : β3 = β4 = 0.
Смысл: уровень образования родителей не влияет на зарплату.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 86 / 124
166. Inferences: совместная значимость
Пример (Зарплатное уравнение. Продолжение)
Нужно оценить две регрессии:
“длинная”
ln(wage) = β0 + β1age + β2gender+
β3meduc + β4feduc + error
“короткая”
ln(wage) = β0 + β1age + β2gender + error
В этом примере k = 4, J = 2.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 87 / 124
167. Inferences: структурные ограничения
Тест Вальда о «линейных структурных ограничениях» на
коэффициенты (матричная запись):
H0 : Rβ = q vs H1 : Rβ = q
где
R: J × (k + 1) матрица,
q: J × 1 вектор правых частей ограничений,
J: число структурных ограничений.
Считаем, что ограничения линейно независимы, т.е. rank R = J.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 88 / 124
168. Inferences: структурные ограничения
Пример (Производственная функция Кобба – Дугласа)
Рассмотрим регрессию
ln Q = β0 + β1 ln K + β2 ln L + error
Тогда тестирование гипотезы
H0 : β1 + β2 = 1
означает тестирование на постоянную отдачу от масштаба.
В этом случае J = 1 и k = 2.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 89 / 124
169. Inferences: структурные ограничения
Пример (Производственная функция К-Д.
Продолжение)
Матричная запись структурного ограничения (J = 1):
β =
β0
β1
β2
(k+1)×1
R = 0 1 1
J×(k+1)
q = 1
J×1
Тогда
Rβ = β1 + β2 = 1 = q
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 90 / 124
170. Inferences: структурные ограничения
Пример (Производственная функция Кобба – Дугласа)
Оцениваем регрессию
ln Q = β0 + β1 ln K + β2 ln L + β3 ln H + error
Тестируем гипотезу
H0 : β1 = β2
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 91 / 124
171. Inferences: структурные ограничения
Пример (Производственная функция Кобба – Дугласа)
Оцениваем регрессию
ln Q = β0 + β1 ln K + β2 ln L + β3 ln H + error
Тестируем гипотезу
H0 : β1 = β2
Смысл: отдача от капитала и отдача от труда равны.
В этом случае J = 1 и k = 3.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 91 / 124
172. Inferences: структурные ограничения
Пример (Производственная функция Кобба – Дугласа)
Оцениваем регрессию
ln Q = β0 + β1 ln K + β2 ln L + β3 ln H + error
Тестируем гипотезу
H0 : β1 = β2
Смысл: отдача от капитала и отдача от труда равны.
В этом случае J = 1 и k = 3.
Перепишем гипотезу в виде
H0 : β1 − β2 = 0.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 91 / 124
173. Inferences: структурные ограничения
Пример (Производственная функция К-Д.
Продолжение)
Матричная запись структурного ограничения (J = 1):
β =
β0
β1
β2
β3
(k+1)×1
R = 0 1 −1 0
J×(k+1)
q = 0
J×1
Тогда
Rβ = β1 − β2 = 0 = q
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 92 / 124
174. Inferences: структурные ограничения
Пример (Производственная функция Кобба – Дугласа)
Оцениваем регрессию
ln Q = β0 + β1 ln K + β2 ln L + β3 ln H + error
Тестируем гипотезу
H0 : β1 = β2, β1 + β2 + β3 = 1
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 93 / 124
175. Inferences: структурные ограничения
Пример (Производственная функция Кобба – Дугласа)
Оцениваем регрессию
ln Q = β0 + β1 ln K + β2 ln L + β3 ln H + error
Тестируем гипотезу
H0 : β1 = β2, β1 + β2 + β3 = 1
Смысл: отдача от капитала и отдача от труда равны +
постоянная отдача от масштаба.
Очевидно J = 2.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 93 / 124
176. Inferences: структурные ограничения
Пример (Производственная функция К-Д.
Продолжение)
Матричная запись структурного ограничения (J = 2):
β =
β0
β1
β2
β3
(k+1)×1
R =
0 1 −1 0
0 1 1 1
J×(k+1)
q =
0
1
J×1
Тогда
Rβ =
β1 − β2
β1 + β2 + β3
=
0
1
= q
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 94 / 124
177. Inferences: структурные ограничения
Тестовая F-статистика (статистика Вальда) для гипотезы о
линейных структурных ограничениях
F =
1
J · s2
(Rβ − q) R(X X)−1
R
−1
(Rβ − q) (2)
(автоматически вычисляется в эконометрических программах)
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 95 / 124
178. Inferences: структурные ограничения
Тестовая F-статистика (статистика Вальда) для гипотезы о
линейных структурных ограничениях
F =
1
J · s2
(Rβ − q) R(X X)−1
R
−1
(Rβ − q) (2)
(автоматически вычисляется в эконометрических программах)
Критическое значение: Fcr = FJ,n−k−1(α), где J – число
структурных ограничений на коэффициенты.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 95 / 124
179. Inferences: структурные ограничения
Статистическое правило
отвергаем H0 при F > Fcr .
не отвергаем H0 при F < Fcr .
Неформальное статистическое правило
Нулевую гипотезу отвергаем, если тестовая F-статистика
большая (относительно критического значения).
Альтернативно: используем P-значение
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 96 / 124
180. Inferences: структурные изменения (Chow’s test)
Две выборки для одних и тех же факторов объема nI и nII :
(I) : yi = xi β + ui i = 1, . . . , nI
(II) : yj = xj γ + vj j = 1, . . . , nII
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 97 / 124
181. Inferences: структурные изменения (Chow’s test)
Две выборки для одних и тех же факторов объема nI и nII :
(I) : yi = xi β + ui i = 1, . . . , nI
(II) : yj = xj γ + vj j = 1, . . . , nII
Тест на однородность выборок (тест на отсутствие структурных
изменений)
H0 : β = γ, σ2
u = σ2
v
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 97 / 124
182. Inferences: структурные изменения (Chow’s test)
Смысл: в обеих выборках коэффициенты в генеральной
совокупности равны, модель зависимость одна и та же
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 98 / 124
183. Inferences: структурные изменения (Chow’s test)
Смысл: в обеих выборках коэффициенты в генеральной
совокупности равны, модель зависимость одна и та же
Если H0 отвергается, то можно говорить о структурных
изменениях в модели зависимости y от x при переходе от одной
выборке к другой (изменяются коэффициенты модели,
изменяется структура зависимости).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 98 / 124
184. Inferences: структурные изменения (Chow’s test)
Пример (“Дискриминация”)
Зарплатное уравнение
wage = β0 + β1age + β2IQ + u
Оцениваем отдельно для М и для Ж (первая и вторая выборка).
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 99 / 124
185. Inferences: структурные изменения (Chow’s test)
Пример (“Дискриминация”)
Зарплатное уравнение
wage = β0 + β1age + β2IQ + u
Оцениваем отдельно для М и для Ж (первая и вторая выборка).
Тестирование гипотезы означает проверку значимости
“дискриминации” по гендерному фактору.
А также наличие структурных различий в зарплатном уравнении
между М и Ж.
Н. В. Артамонов (МГИМО) Эконометрика I 18 октября 2017 г. 99 / 124