SlideShare a Scribd company logo
1 of 35
Лекция 9. Коэффициент корреляции. Метод
наименьших квадратов
Курбацкий А. Н.
МШЭ МГУ
11 апреля 2016
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 1 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 2 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 3 / 33
Корреляционный анализ
Корреляционный анализ – метод математической статистики,
используемый для изучения, исследования взаимосвязи между
(генеральными) экономическими показателями на основе их
наблюдаемых статистических (выборочных) аналогов. При этом
сами показатели считаются случайными величинами.
Парный корреляционный анализ – изучение взаимосвязи между
двумя экономическими показателями, описывающими свойства
однотипных объектов из некоторой совокупности.
Важно!
О причине связи мы должны будем догадываться сами!
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 4 / 33
Корреляция
Пусть (X, Y ) – двумерная нормально распределенная случайная
величина. Тогда «степень зависимости» случайных величин X и Y
характеризуется парным коэффициентом корреляции
ρ = corr(X, Y ) =
cov(X, Y )
Var(X) · Var(Y )
=
E(XY ) − EX · EY
Var(X) · Var(Y )
.
Из определения коэффициента корреляции следует, что
1 всегда −1 ρ 1;
2 не меняется при линейных преобразованиях величин, т.е.
corr(X, Y ) = corr(a0 + a1X, b0 + b1Y ), a1, b1 = 0.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 5 / 33
Крайние случаи
Коэффициент корреляции принимает крайние значения ±1 в том и
только том случае, когда между случайными величинами X и Y
существует линейная функциональная зависимость, т.е.
ρ = ±1 ⇔ Y = β0 + β1X, β1 = 0,
причем
β1 = ρ
Var(Y )
Var(X)
,
т.е. знак коэффициента β1 совпадает по знаком коэффициента
корреляции.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 6 / 33
На будущее
В общем случае коэффициент корреляции возникает при решении
следующей экстремальной задачи: подобрать линейную функцию
l(x) = β0 + β1x так, чтобы случайная величина l(X) меньше всего
отклонялась от Y в среднеквадратичном смысле, т.е.
E (Y − β0 − β1X)2
−→
β0,β1
min .
Решение этой задачи задается равенствами
β∗
1 = cov(X,Y )
Var(X) = ρ Var(Y )
Var(X) , β∗
0 = EY − β∗
1 · E,
наименьшее среднеквадратичное отклонение равно
E (Y − β∗
0 − β∗
1X)2
= 1 − ρ2 Var(Y ).
Кроме того, для всех x ∈ R верно E(Y |X = x) = β∗
0 + β∗
1x,
т.е. наилучший прогноз случайной величины Y , при условии, что
известно значение случайной величины X = x, равен
Y = β∗
0 + β∗
1x.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 7 / 33
Три основных случая
Рассмотрим три случая:
1 ρ > 0. Тогда β∗
1 > 0 и при увеличении x ожидаемое (среднее)
значение E(Y |X = x) случайной величины Y также
увеличивается. В этом случае говорят о прямой линейной
зависимости между величинами.
2 ρ < 0. Тогда β∗
1 < 0 и при увеличении x ожидаемое (среднее)
значение E(Y |X = x) случайной величины y уменьшается. В этом
случае говорят об обратной линейной зависимости между
величинами.
3 ρ = 0. Тогда β∗
1 = 0, E(Y |X = x) = β∗
0 и знание значения
случайной величины X не улучшает прогноз Y .
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 8 / 33
Независимость и коэффициент корреляции
Важное практическое значение коэффициента корреляции
обусловлено следующей теоремой
Теорема
Пусть (X, Y ) – двумерная нормально распределенная случайная
величина. Тогда случайные величины X и Y независимы тогда и
только тогда, когда corr(X, Y ) = 0.
Таким образом, парный коэффициент корреляции можно
рассматривать как меру зависимости двух случайных величин
(факторов), имеющих совместное нормальное распределение, причем:
ρ = 0 ⇔ величины независимы;
ρ = ±1 ⇔ между величинами линейная функциональная
зависимость: y = β∗
0 + β∗
1x.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 9 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 10 / 33
Выборочные дисперсии
Пусть (xi , yi )n
i=1 – выборка из двумерной нормально распределенной
случайной величины, n – объем выборки.
Напомним, что выборочные (неисправленные) оценки дисперсий
случайных величин X и Y определяются как
Var(X) = σ2
x =
1
n
n
i=1
(xi − ¯x)2
= (x2) − (¯x)2
Var(Y ) = σ2
y =
1
n
n
i=1
(yi − ¯y)2
= (y2) − (¯y)2
,
где
¯x =
1
n
n
i=1
xi , x2 =
1
n
n
i=1
x2
i .
Замечание
Напомним также, что Var(X) и Var(Y ) – состоятельные, но
смещенные оценки дисперсий Var(X) и Var(Y ) соответственно.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 11 / 33
Выборочные коэффициенты ковариации и корреляции
Выборочный коэффициент ковариации определяется как1
cov(X, Y ) =
1
n
n
i=1
(xi − ¯x) (yi − ¯y) = xy − ¯x · ¯y,
а выборочный коэффициент корреляции определяется равенством2
r = corr(X, Y ) =
cov(X, Y )
Var(X) · Var(Y )
=
xy − ¯x · ¯y
(y2) − (¯y)2
(x2) − (¯x)2
,
Выборочные коэффициенты ковариации и корреляции являются
состоятельными оценками коэффициентов ковариации и корреляции в
генеральной совокупности. Выборочный коэффициент корреляции
может рассматриваться как выборочная «мера линейной
зависимости» между случайными величинами.
1
В MS Excel функция КОВАР(·, ·)
2
В MS Excel функция КОРРЕЛ(·, ·)
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 12 / 33
Пример
Вычислите выборочный коэффициент корреляции для следующих пар
данных:
x 1 2 3 4
y 4 1 3 2
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 13 / 33
Пример
Вычислите выборочный коэффициент корреляции для следующих пар
данных:
x 1 2 3 4
y 4 1 3 2
Решение. Воспользуемся другим видом формулы для вычисления
коэффициента корреляции
r =
n xi yi − xi yi
n x2
i − ( xi )2 n y2
i − ( yi )2
.
Для этого вычислим суммы:
xi yi = 1 · 4 + 2 · 1 + 3 · 3 + 4 · 2 = 23;
xi = 1 + 2 + 3 + 4 = 10;
yi = 4 + 1 + 3 + 2 = 10;
x2
i = 12 + 22 + 32 + 42 = 30;
y2
i = 42 + 12 + 32 + 22 = 30.
Подставляем их в формулу r = 4·23−10·10√
4·30−102
√
4·30−102
= −8
20 = −0.4.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 13 / 33
Мера ЛИНЕЙНОЙ связи
Для того, чтобы не забывать о том, что коэффициент корреляции
представляет собой меру линейной связи между переменными,
рассмотрим выборку
x −2 −1 0 1 2
y 4 1 0 1 4
Очевидно, что переменные могут быть связаны соотношением
y = x2. А вот коэффициент корреляции при этом равен нулю.
Проверьте!
Для следующих пар данных
x 0 1 2 4
y −1 0 1 3
можно заметить, что x и y могут быть точно связаны линейной
положительной зависимостью y = x − 1, поэтому коэффициент
корреляции равен 1.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 14 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 15 / 33
Проверка гипотезы о равенстве ρ нулю
Проверка значимости подразумевает проверку статистической
гипотезы H0 : ρ = 0 против двусторонней альтернативы
H0 : ρ = 0.
Другими словами, проверяется статистическая гипотеза, что в
генеральной совокупности случайные величины (факторы) X и Y
некоррелируют.
Так как двумерная случайная величина (X, Y ) часто по
предположению имеет совместное нормальное распределение, то
некоррелируемость означает независимость факторов.
Важно!
Проверка гипотезы о независимости факторов основана на следующем
результате: при справедливости нулевой гипотезы t-статистика
t =
r
√
n − 2
√
1 − r2
∼
H0
tn−2
имеет распределение Стьюдента с (n − 2) степенями свободы.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 16 / 33
Пример
Был рассчитан выборочный коэффициент корреляции r = 0.68 между
дневными логарифмическими доходностями3 биржевых индексов
NASDAQ и FTSE на основе n = 62 выборочных данных. Проверим
значимость коэффициента корреляции, т.е. проверим статистическую
гипотезу H0 о независимости доходностей обоих биржевых индексов
(в предположении их нормальной распределенности!).
3
Логарифмическая доходность рассчитывается как ht = ln(St/St−1)
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 17 / 33
Пример
Был рассчитан выборочный коэффициент корреляции r = 0.68 между
дневными логарифмическими доходностями3 биржевых индексов
NASDAQ и FTSE на основе n = 62 выборочных данных. Проверим
значимость коэффициента корреляции, т.е. проверим статистическую
гипотезу H0 о независимости доходностей обоих биржевых индексов
(в предположении их нормальной распределенности!).
Решение
Вычислим значение t-статистики:
t =
0.68 ·
√
62 − 2
√
1 − 0.682
≈ 7.1838.
Критическое значение распределения Стьюдента при уровне
значимости α = 5% равно: tcr = t(5%; 62 − 2) ≈ 2.003. Так как
|t| > tcr , то гипотеза H0 о независимости доходностей отвергается,
коэффициент корреляции значим.
3
Логарифмическая доходность рассчитывается как ht = ln(St/St−1)
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 17 / 33
ПРОБЛЕМЫ
Неоднородность данных (например, выбросы) могут привести к
неверным оценкам. Для борьбы можно использовать
непараметрическую регрессию (робастные оценки).
Неадекватность модели. Найдите модель получше.
Скрытый фактор. Найдите его!
Замечание
Стоит отметить, что с помощью статистики мы пытаемся выявить
наличие связей, а не причины по которым они возникают. Никогда не
надо забывать о возможности ложной корреляции (примеры на сайте).
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 18 / 33
ИТОГИ
Мы научились с помощью коэффициента корреляции отвечать на
вопрос, существует ли линейная связь между двумя переменными
x и y.
Если такая связь наблюдается, то нам хотелось бы указать
приблизительный вид этой связи. Это позволит делать прогнозы!
Тема построения зависимостей будет предметом курса
эконометрики. Тем не менее, зная из курса математического
анализа метод наименьших квадратов, мы уже можем построить
простейшую линейную модель.
Линейная модель не так плоха! Многие модели могут быть
сведены к линейной. Например, логарифмирование переводит
функцию Кобба-Дугласа Q(K; L) = aKαLβ в линейную
относительно логарифмов ln Q = ln a + α ln K + β ln L.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 19 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 20 / 33
Аппроксимация данных
Пусть на координатной плоскости заданы n точек с координатами
(xi , yi )n
i=1. И мы хотим найти прямую (тренд), «меньше всего
отклоняющуюся от заданных точек».
Так как прямая задается уравнением
ˆy = f (x) = β0 + β1x,
зависящим от двух параметров β0 и β1, то необходимо по
заданным значениям {xi } и {yi } найти значения этих параметров
«оптимальной» прямой.
Основной вопрос: что понимать под «наименьшим отклонением
прямой от точек» и, более общо, как определить «меру
отклонения прямой от точек»?
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 21 / 33
Мера качества подгонки прямой
Приведем несколько возможных подходов к определению меры µ
отклонения прямой от заданных точек:
1 сумма модулей отклонений в каждой точке xi :
µ =
n
i=1
|yi − f (xi )| =
n
i=1
|yi − (β0 + β1xi )| =
n
i=1
|ei |
2 сумма квадратов отклонений в каждой точке xi :
µ =
n
i=1
(yi − f (xi ))2
=
n
i=1
(yi − (β0 + β1xi ))2
=
n
i=1
e2
i
3 сумма отклонений в каждой точке xi с заданной весовой
функцией ω(·) > 0:
µ =
n
i=1
ω yi − f (xi ) =
n
i=1
ω yi − (β0 + β1xi ) =
n
i=1
ωei
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 22 / 33
МНК
Определение
Метод получения оценок параметров оптимальной прямой с помощью
минимизации суммы квадратов отклонений называется Методом
Наименьших Квадратов (сокращенно МНК) или Ordinary Least Squares
(сокращенно OLS), а полученные оценки параметров называются
МНК- или OLS-оценками.
Взяв в качестве меры отклонений прямой от заданных на плоскости
точек (xi , yi )n
1 сумму квадратов отклонений (RSS - residual sum of
squares) в каждой точке4:
RSS = S(β0, β1) =
n
i=1
(yi − (β0 + β1xi ))2
=
n
i=1
e2
i .
Параметры прямой находятся как решение экстремальной задачи без
ограничений: S(β0, β1) −→ min .
4
Очевидно, S(β0, β1) есть многочлен второго порядка от параметров β0 и β1
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 23 / 33
Линейная аппроксимация
0
•
•
•
•
•
•
•
y1
¯y
¯x
ˆβ0 + ˆβ1x1 = ˆy1
e1
e2
e3
e4
e5
e6
x
y
//
OO
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 24 / 33
Система нормальных уравнений
После простых преобразований приходим к системе линейных
уравнений
nβ0 + β1 xi = yi
β0 xi + β1 x2
i = xi yi
(1)
называемой системой нормальных уравнений. Найдем явные формулы
для решения этой системы. Для удобства разделим каждое из
уравнение в системе (1) на n:
β0 + β1 ¯x = ¯y
β0 ¯x + β1x2 = xy
Выразим β0 из первого уравнения
β0 = ¯y − β1 ¯x
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 25 / 33
Явный вид оценок коэффициентов
Подставив во второе уравнение выражение для β0, найдём ˆβ1:
ˆβ1 =
xy − ¯x · ¯y
x2 − (¯x)2
=
cov(x, y)
Var(x)
= corr(x, y)
Var(y)
Var(x)
= corr(x, y)
σy
σx
и
ˆβ0 = ¯y − ˆβ1 ¯x.
Решение системы нормальных уравнений (1) будет глобальным
минимумом функции S(β0, β1). Таким образом, оптимальная прямая
задается уравнением
ˆy = ˆβ0 + ˆβ1x
Важно!
Из первого уравнения системы (1) следует, что ¯y = ˆβ0 + ˆβ1 ¯x, т.е.
оптимальная прямая проходит через точку с координатами (¯x, ¯y).
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 26 / 33
Ещё раз о МНК
Метод наименьших квадратов может быть применен для
нахождения параметров любой функции, меньше всего
отклоняющейся от заданных точек. Эта задача корректно
разрешима в случае когда неизвестные параметры входят в
функцию линейно. В этом случае система нормальных
уравнений будет системой линейных уравнений и в общем
случае будет иметь единственное решение.
В курсе эконометрики вы узнаете, что при определённых условиях
метод наименьших квадратов является в некотором смысле
наилучшим!
Замечание
Стоит сказать, что при этих условиях, он будет частным случаем
метода максимального правдоподобия.
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 27 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 28 / 33
Описание задачи
Перейдем к задаче количественного описания зависимости между
двумя экономическими факторами y и x.
Естественно ожидать, что значение фактора y не всегда
однозначно определяется значением фактора x.
Кроме того, учесть все факторы, влияющие на y помимо x
просто не представляется возможным в силу недостаточного
количества информации или невозможности ее получения.
Для одного значения фактора x могут наблюдаться различные
значения y.
Пример
Пусть y – уровень зарплаты индивидуума, а x – уровень образования
(в годах). Уровень зарплаты зависит не только от уровня образования,
но и от множества других факторов (стажа работы, возраста,
индивидуальных способностей, места работы и проч.) Учесть в модели
всё невозможно. Например, как измерить индивидуальные способности
индивидуума, несомненно влияющие на уровень зарплаты?
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 29 / 33
Линейная модель
Обычно для описания ситуаций с недостаточной информацией
используют различные вероятностные математические модели.
В эконометрике мы подробно изучим модель зависимости между
факторами, описываемую уравнением
yi = β0 + β1xi + εi , i = 1, . . . , n (2)
где yi и εi суть случайные величины, а xi – неслучайная
(детерминированная) величина, i – номер наблюдения.
Фактор y называется зависимой переменной (dependent variable),
а фактор x называется регрессором или объясняющей
переменной (explanatory variable).
Параметр β1 называется параметром наклона прямой (slope), а β0
– константой, свободным членом или параметром сдвига
(intercept).
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 30 / 33
Предпосылки
Уравнение (2) называется уравнение регрессии или регрессионным
уравнением, а случайные величины εi называются ошибками
регрессии.
Важно!
Ошибки регрессии удобно представлять себе как «неучтенные
факторы», влияющие на y помимо фактора x.
Относительно ошибок регрессии обычно предполагается выполнение
следующих условий, называемых иногда условиями Гаусса – Маркова:
1 Eεi = 0, i = 1, . . . , n (ошибки регрессии несистематические);
2 Var(εi ) = σ2 не зависит от i (гомоскедастичность).
3 cov(εi , εj ) = 0 при i = j (некоррелируемость ошибок для разных
наблюдений).
4 εi ∼ N(0, σ2), i = 1, . . . , n (нормальная распределенность ошибок
регрессии).
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 31 / 33
Содержание
1 Парный коэффициент корреляции
Коэффициент корреляции Пирсона
Выборочный коэффициент корреляции
Проверка значимости коэффициента корреляции
2 Метод наименьших квадратов
Парная линейная модель регрессии (на будущее)
3 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 32 / 33
Где и что почитать?
Тема. Функциональная, статистическая и корреляционная
зависимости. Коэффициент корреляции Пирсона. Корреляция и
причинная связь. Линейная регрессия, нахождение коэффициентов.
Надежность прогноза.([Арт], §1.1-1.3; [ФЛ], §18.1-18.3; [ТМ], Глава 8).
Артамонов Н.В. Введение в эконометрику.– 2-е изд., испр. и доп.–
М.:МЦНМО, 2014. – 224 с.
Фадеева Л. Н., Лебедев А. В., Теория вероятностей и
математическая статистика: учебное пособие. - 2-е изд., перераб. и
доп. - М.: Эксмо, 2010. - 496 с. – (Новое экономическое
образование).
Тюрин Ю. Н., Макаров А.А., Анализ данных на компьютере:
учебное пособие. - 4-е изд., перераб. - М.: ИД Форум, 2008. - 368
с., ил. - (Высшее образование).
Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 33 / 33

More Related Content

What's hot

Lecture 5 discrete_distribution
Lecture 5 discrete_distributionLecture 5 discrete_distribution
Lecture 5 discrete_distributionKurbatskiy Alexey
 
Математические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийМатематические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийOlga Maksimenkova
 
Решение систем логических уравнений, ЕГЭ 23 информатика
Решение систем логических уравнений, ЕГЭ 23 информатикаРешение систем логических уравнений, ЕГЭ 23 информатика
Решение систем логических уравнений, ЕГЭ 23 информатикаOlga Maksimenkova
 
Phép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyếtPhép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyếtVõ Hồng Quý
 
завдання з параметрами
завдання з параметрамизавдання з параметрами
завдання з параметрамиЕлена Гришко
 
лин уравнения с параметрами
лин уравнения с параметрамилин уравнения с параметрами
лин уравнения с параметрамиЕлена Гришко
 
решение уравнений с параметрами
решение уравнений с параметрамирешение уравнений с параметрами
решение уравнений с параметрамиЕлена Гришко
 
уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)Елена Гришко
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011Kh Ider
 

What's hot (20)

Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
 
Lecture 8 clt
Lecture 8 cltLecture 8 clt
Lecture 8 clt
 
Lecture 5 discrete_distribution
Lecture 5 discrete_distributionLecture 5 discrete_distribution
Lecture 5 discrete_distribution
 
6
66
6
 
585
585585
585
 
Lecture 2 algebra
Lecture 2 algebraLecture 2 algebra
Lecture 2 algebra
 
Ivm1257
Ivm1257Ivm1257
Ivm1257
 
Lecture 1 intro
Lecture 1 introLecture 1 intro
Lecture 1 intro
 
Математические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийМатематические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравнений
 
Regression
RegressionRegression
Regression
 
Решение систем логических уравнений, ЕГЭ 23 информатика
Решение систем логических уравнений, ЕГЭ 23 информатикаРешение систем логических уравнений, ЕГЭ 23 информатика
Решение систем логических уравнений, ЕГЭ 23 информатика
 
Phép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyếtPhép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyết
 
4
44
4
 
завдання з параметрами
завдання з параметрамизавдання з параметрами
завдання з параметрами
 
лин уравнения с параметрами
лин уравнения с параметрамилин уравнения с параметрами
лин уравнения с параметрами
 
решение уравнений с параметрами
решение уравнений с параметрамирешение уравнений с параметрами
решение уравнений с параметрами
 
уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)
 
Soboland Sat
Soboland SatSoboland Sat
Soboland Sat
 
Lection01
Lection01Lection01
Lection01
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
 

Similar to Корреляция и МНК

Statistics2013 talk "Nonlinear expectation and Risk measure"
Statistics2013 talk "Nonlinear expectation and Risk measure"Statistics2013 talk "Nonlinear expectation and Risk measure"
Statistics2013 talk "Nonlinear expectation and Risk measure"Nikita V. Artamonov
 
интерполяционный многочлен лагранжа
интерполяционный многочлен лагранжаинтерполяционный многочлен лагранжа
интерполяционный многочлен лагранжаVladimir Kukharenko
 
матемтик анализ лекц№ 2
матемтик анализ лекц№ 2матемтик анализ лекц№ 2
матемтик анализ лекц№ 2narangerelodon
 
математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2narangerelodon
 
предел последовательности
предел последовательностипредел последовательности
предел последовательностиtomik1044
 
Лекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрияЛекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрияsimple_people
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture0120110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture01Computer Science Club
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...Иван Иванов
 
Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Andrei V, Zhuravlev
 
Предикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиПредикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиИльдус Ситдиков
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02Computer Science Club
 
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"Yandex
 
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"Yandex
 
Основы комбинаторики - I
Основы комбинаторики - IОсновы комбинаторики - I
Основы комбинаторики - IDEVTYPE
 
3. Составление таблиц истинности. Законы де моргана
3. Составление таблиц истинности. Законы де моргана3. Составление таблиц истинности. Законы де моргана
3. Составление таблиц истинности. Законы де морганаaleksashka3
 

Similar to Корреляция и МНК (17)

Statistics2013 talk "Nonlinear expectation and Risk measure"
Statistics2013 talk "Nonlinear expectation and Risk measure"Statistics2013 talk "Nonlinear expectation and Risk measure"
Statistics2013 talk "Nonlinear expectation and Risk measure"
 
интерполяционный многочлен лагранжа
интерполяционный многочлен лагранжаинтерполяционный многочлен лагранжа
интерполяционный многочлен лагранжа
 
матемтик анализ лекц№ 2
матемтик анализ лекц№ 2матемтик анализ лекц№ 2
матемтик анализ лекц№ 2
 
математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2
 
предел последовательности
предел последовательностипредел последовательности
предел последовательности
 
Лекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрияЛекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрия
 
Lection06
Lection06Lection06
Lection06
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture0120110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture01
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...
 
Lecture 4 bernoulli_poisson
Lecture 4 bernoulli_poissonLecture 4 bernoulli_poisson
Lecture 4 bernoulli_poisson
 
Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5
 
Предикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиПредикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатами
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
 
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
 
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
 
Основы комбинаторики - I
Основы комбинаторики - IОсновы комбинаторики - I
Основы комбинаторики - I
 
3. Составление таблиц истинности. Законы де моргана
3. Составление таблиц истинности. Законы де моргана3. Составление таблиц истинности. Законы де моргана
3. Составление таблиц истинности. Законы де моргана
 

More from Kurbatskiy Alexey

Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемKurbatskiy Alexey
 
Непараметрические методы (семинары)
Непараметрические методы (семинары)Непараметрические методы (семинары)
Непараметрические методы (семинары)Kurbatskiy Alexey
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Kurbatskiy Alexey
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Проверка гипотез (одна выборка)
Проверка гипотез (одна выборка)Проверка гипотез (одна выборка)
Проверка гипотез (одна выборка)Kurbatskiy Alexey
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотезKurbatskiy Alexey
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Kurbatskiy Alexey
 
Распределения, связанные с нормальным
Распределения, связанные с нормальнымРаспределения, связанные с нормальным
Распределения, связанные с нормальнымKurbatskiy Alexey
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оцениванияKurbatskiy Alexey
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценокKurbatskiy Alexey
 

More from Kurbatskiy Alexey (18)

Lecture 9 chi_t_f
Lecture 9 chi_t_fLecture 9 chi_t_f
Lecture 9 chi_t_f
 
Project test2 mse_2016
Project test2 mse_2016Project test2 mse_2016
Project test2 mse_2016
 
проект кр1
проект кр1проект кр1
проект кр1
 
КР 2 с решением
КР 2 с решениемКР 2 с решением
КР 2 с решением
 
КР 1 с решением
КР 1 с решениемКР 1 с решением
КР 1 с решением
 
Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решением
 
Lecture 3 bayes
Lecture 3 bayesLecture 3 bayes
Lecture 3 bayes
 
Problem book probability
Problem book probabilityProblem book probability
Problem book probability
 
КР 3 с решением
КР 3 с решениемКР 3 с решением
КР 3 с решением
 
Непараметрические методы (семинары)
Непараметрические методы (семинары)Непараметрические методы (семинары)
Непараметрические методы (семинары)
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Проверка гипотез (одна выборка)
Проверка гипотез (одна выборка)Проверка гипотез (одна выборка)
Проверка гипотез (одна выборка)
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотез
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2
 
Распределения, связанные с нормальным
Распределения, связанные с нормальнымРаспределения, связанные с нормальным
Распределения, связанные с нормальным
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оценивания
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценок
 

Корреляция и МНК

  • 1. Лекция 9. Коэффициент корреляции. Метод наименьших квадратов Курбацкий А. Н. МШЭ МГУ 11 апреля 2016 Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 1 / 33
  • 2. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 2 / 33
  • 3. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 3 / 33
  • 4. Корреляционный анализ Корреляционный анализ – метод математической статистики, используемый для изучения, исследования взаимосвязи между (генеральными) экономическими показателями на основе их наблюдаемых статистических (выборочных) аналогов. При этом сами показатели считаются случайными величинами. Парный корреляционный анализ – изучение взаимосвязи между двумя экономическими показателями, описывающими свойства однотипных объектов из некоторой совокупности. Важно! О причине связи мы должны будем догадываться сами! Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 4 / 33
  • 5. Корреляция Пусть (X, Y ) – двумерная нормально распределенная случайная величина. Тогда «степень зависимости» случайных величин X и Y характеризуется парным коэффициентом корреляции ρ = corr(X, Y ) = cov(X, Y ) Var(X) · Var(Y ) = E(XY ) − EX · EY Var(X) · Var(Y ) . Из определения коэффициента корреляции следует, что 1 всегда −1 ρ 1; 2 не меняется при линейных преобразованиях величин, т.е. corr(X, Y ) = corr(a0 + a1X, b0 + b1Y ), a1, b1 = 0. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 5 / 33
  • 6. Крайние случаи Коэффициент корреляции принимает крайние значения ±1 в том и только том случае, когда между случайными величинами X и Y существует линейная функциональная зависимость, т.е. ρ = ±1 ⇔ Y = β0 + β1X, β1 = 0, причем β1 = ρ Var(Y ) Var(X) , т.е. знак коэффициента β1 совпадает по знаком коэффициента корреляции. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 6 / 33
  • 7. На будущее В общем случае коэффициент корреляции возникает при решении следующей экстремальной задачи: подобрать линейную функцию l(x) = β0 + β1x так, чтобы случайная величина l(X) меньше всего отклонялась от Y в среднеквадратичном смысле, т.е. E (Y − β0 − β1X)2 −→ β0,β1 min . Решение этой задачи задается равенствами β∗ 1 = cov(X,Y ) Var(X) = ρ Var(Y ) Var(X) , β∗ 0 = EY − β∗ 1 · E, наименьшее среднеквадратичное отклонение равно E (Y − β∗ 0 − β∗ 1X)2 = 1 − ρ2 Var(Y ). Кроме того, для всех x ∈ R верно E(Y |X = x) = β∗ 0 + β∗ 1x, т.е. наилучший прогноз случайной величины Y , при условии, что известно значение случайной величины X = x, равен Y = β∗ 0 + β∗ 1x. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 7 / 33
  • 8. Три основных случая Рассмотрим три случая: 1 ρ > 0. Тогда β∗ 1 > 0 и при увеличении x ожидаемое (среднее) значение E(Y |X = x) случайной величины Y также увеличивается. В этом случае говорят о прямой линейной зависимости между величинами. 2 ρ < 0. Тогда β∗ 1 < 0 и при увеличении x ожидаемое (среднее) значение E(Y |X = x) случайной величины y уменьшается. В этом случае говорят об обратной линейной зависимости между величинами. 3 ρ = 0. Тогда β∗ 1 = 0, E(Y |X = x) = β∗ 0 и знание значения случайной величины X не улучшает прогноз Y . Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 8 / 33
  • 9. Независимость и коэффициент корреляции Важное практическое значение коэффициента корреляции обусловлено следующей теоремой Теорема Пусть (X, Y ) – двумерная нормально распределенная случайная величина. Тогда случайные величины X и Y независимы тогда и только тогда, когда corr(X, Y ) = 0. Таким образом, парный коэффициент корреляции можно рассматривать как меру зависимости двух случайных величин (факторов), имеющих совместное нормальное распределение, причем: ρ = 0 ⇔ величины независимы; ρ = ±1 ⇔ между величинами линейная функциональная зависимость: y = β∗ 0 + β∗ 1x. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 9 / 33
  • 10. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 10 / 33
  • 11. Выборочные дисперсии Пусть (xi , yi )n i=1 – выборка из двумерной нормально распределенной случайной величины, n – объем выборки. Напомним, что выборочные (неисправленные) оценки дисперсий случайных величин X и Y определяются как Var(X) = σ2 x = 1 n n i=1 (xi − ¯x)2 = (x2) − (¯x)2 Var(Y ) = σ2 y = 1 n n i=1 (yi − ¯y)2 = (y2) − (¯y)2 , где ¯x = 1 n n i=1 xi , x2 = 1 n n i=1 x2 i . Замечание Напомним также, что Var(X) и Var(Y ) – состоятельные, но смещенные оценки дисперсий Var(X) и Var(Y ) соответственно. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 11 / 33
  • 12. Выборочные коэффициенты ковариации и корреляции Выборочный коэффициент ковариации определяется как1 cov(X, Y ) = 1 n n i=1 (xi − ¯x) (yi − ¯y) = xy − ¯x · ¯y, а выборочный коэффициент корреляции определяется равенством2 r = corr(X, Y ) = cov(X, Y ) Var(X) · Var(Y ) = xy − ¯x · ¯y (y2) − (¯y)2 (x2) − (¯x)2 , Выборочные коэффициенты ковариации и корреляции являются состоятельными оценками коэффициентов ковариации и корреляции в генеральной совокупности. Выборочный коэффициент корреляции может рассматриваться как выборочная «мера линейной зависимости» между случайными величинами. 1 В MS Excel функция КОВАР(·, ·) 2 В MS Excel функция КОРРЕЛ(·, ·) Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 12 / 33
  • 13. Пример Вычислите выборочный коэффициент корреляции для следующих пар данных: x 1 2 3 4 y 4 1 3 2 Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 13 / 33
  • 14. Пример Вычислите выборочный коэффициент корреляции для следующих пар данных: x 1 2 3 4 y 4 1 3 2 Решение. Воспользуемся другим видом формулы для вычисления коэффициента корреляции r = n xi yi − xi yi n x2 i − ( xi )2 n y2 i − ( yi )2 . Для этого вычислим суммы: xi yi = 1 · 4 + 2 · 1 + 3 · 3 + 4 · 2 = 23; xi = 1 + 2 + 3 + 4 = 10; yi = 4 + 1 + 3 + 2 = 10; x2 i = 12 + 22 + 32 + 42 = 30; y2 i = 42 + 12 + 32 + 22 = 30. Подставляем их в формулу r = 4·23−10·10√ 4·30−102 √ 4·30−102 = −8 20 = −0.4. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 13 / 33
  • 15. Мера ЛИНЕЙНОЙ связи Для того, чтобы не забывать о том, что коэффициент корреляции представляет собой меру линейной связи между переменными, рассмотрим выборку x −2 −1 0 1 2 y 4 1 0 1 4 Очевидно, что переменные могут быть связаны соотношением y = x2. А вот коэффициент корреляции при этом равен нулю. Проверьте! Для следующих пар данных x 0 1 2 4 y −1 0 1 3 можно заметить, что x и y могут быть точно связаны линейной положительной зависимостью y = x − 1, поэтому коэффициент корреляции равен 1. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 14 / 33
  • 16. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 15 / 33
  • 17. Проверка гипотезы о равенстве ρ нулю Проверка значимости подразумевает проверку статистической гипотезы H0 : ρ = 0 против двусторонней альтернативы H0 : ρ = 0. Другими словами, проверяется статистическая гипотеза, что в генеральной совокупности случайные величины (факторы) X и Y некоррелируют. Так как двумерная случайная величина (X, Y ) часто по предположению имеет совместное нормальное распределение, то некоррелируемость означает независимость факторов. Важно! Проверка гипотезы о независимости факторов основана на следующем результате: при справедливости нулевой гипотезы t-статистика t = r √ n − 2 √ 1 − r2 ∼ H0 tn−2 имеет распределение Стьюдента с (n − 2) степенями свободы. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 16 / 33
  • 18. Пример Был рассчитан выборочный коэффициент корреляции r = 0.68 между дневными логарифмическими доходностями3 биржевых индексов NASDAQ и FTSE на основе n = 62 выборочных данных. Проверим значимость коэффициента корреляции, т.е. проверим статистическую гипотезу H0 о независимости доходностей обоих биржевых индексов (в предположении их нормальной распределенности!). 3 Логарифмическая доходность рассчитывается как ht = ln(St/St−1) Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 17 / 33
  • 19. Пример Был рассчитан выборочный коэффициент корреляции r = 0.68 между дневными логарифмическими доходностями3 биржевых индексов NASDAQ и FTSE на основе n = 62 выборочных данных. Проверим значимость коэффициента корреляции, т.е. проверим статистическую гипотезу H0 о независимости доходностей обоих биржевых индексов (в предположении их нормальной распределенности!). Решение Вычислим значение t-статистики: t = 0.68 · √ 62 − 2 √ 1 − 0.682 ≈ 7.1838. Критическое значение распределения Стьюдента при уровне значимости α = 5% равно: tcr = t(5%; 62 − 2) ≈ 2.003. Так как |t| > tcr , то гипотеза H0 о независимости доходностей отвергается, коэффициент корреляции значим. 3 Логарифмическая доходность рассчитывается как ht = ln(St/St−1) Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 17 / 33
  • 20. ПРОБЛЕМЫ Неоднородность данных (например, выбросы) могут привести к неверным оценкам. Для борьбы можно использовать непараметрическую регрессию (робастные оценки). Неадекватность модели. Найдите модель получше. Скрытый фактор. Найдите его! Замечание Стоит отметить, что с помощью статистики мы пытаемся выявить наличие связей, а не причины по которым они возникают. Никогда не надо забывать о возможности ложной корреляции (примеры на сайте). Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 18 / 33
  • 21. ИТОГИ Мы научились с помощью коэффициента корреляции отвечать на вопрос, существует ли линейная связь между двумя переменными x и y. Если такая связь наблюдается, то нам хотелось бы указать приблизительный вид этой связи. Это позволит делать прогнозы! Тема построения зависимостей будет предметом курса эконометрики. Тем не менее, зная из курса математического анализа метод наименьших квадратов, мы уже можем построить простейшую линейную модель. Линейная модель не так плоха! Многие модели могут быть сведены к линейной. Например, логарифмирование переводит функцию Кобба-Дугласа Q(K; L) = aKαLβ в линейную относительно логарифмов ln Q = ln a + α ln K + β ln L. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 19 / 33
  • 22. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 20 / 33
  • 23. Аппроксимация данных Пусть на координатной плоскости заданы n точек с координатами (xi , yi )n i=1. И мы хотим найти прямую (тренд), «меньше всего отклоняющуюся от заданных точек». Так как прямая задается уравнением ˆy = f (x) = β0 + β1x, зависящим от двух параметров β0 и β1, то необходимо по заданным значениям {xi } и {yi } найти значения этих параметров «оптимальной» прямой. Основной вопрос: что понимать под «наименьшим отклонением прямой от точек» и, более общо, как определить «меру отклонения прямой от точек»? Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 21 / 33
  • 24. Мера качества подгонки прямой Приведем несколько возможных подходов к определению меры µ отклонения прямой от заданных точек: 1 сумма модулей отклонений в каждой точке xi : µ = n i=1 |yi − f (xi )| = n i=1 |yi − (β0 + β1xi )| = n i=1 |ei | 2 сумма квадратов отклонений в каждой точке xi : µ = n i=1 (yi − f (xi ))2 = n i=1 (yi − (β0 + β1xi ))2 = n i=1 e2 i 3 сумма отклонений в каждой точке xi с заданной весовой функцией ω(·) > 0: µ = n i=1 ω yi − f (xi ) = n i=1 ω yi − (β0 + β1xi ) = n i=1 ωei Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 22 / 33
  • 25. МНК Определение Метод получения оценок параметров оптимальной прямой с помощью минимизации суммы квадратов отклонений называется Методом Наименьших Квадратов (сокращенно МНК) или Ordinary Least Squares (сокращенно OLS), а полученные оценки параметров называются МНК- или OLS-оценками. Взяв в качестве меры отклонений прямой от заданных на плоскости точек (xi , yi )n 1 сумму квадратов отклонений (RSS - residual sum of squares) в каждой точке4: RSS = S(β0, β1) = n i=1 (yi − (β0 + β1xi ))2 = n i=1 e2 i . Параметры прямой находятся как решение экстремальной задачи без ограничений: S(β0, β1) −→ min . 4 Очевидно, S(β0, β1) есть многочлен второго порядка от параметров β0 и β1 Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 23 / 33
  • 26. Линейная аппроксимация 0 • • • • • • • y1 ¯y ¯x ˆβ0 + ˆβ1x1 = ˆy1 e1 e2 e3 e4 e5 e6 x y // OO Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 24 / 33
  • 27. Система нормальных уравнений После простых преобразований приходим к системе линейных уравнений nβ0 + β1 xi = yi β0 xi + β1 x2 i = xi yi (1) называемой системой нормальных уравнений. Найдем явные формулы для решения этой системы. Для удобства разделим каждое из уравнение в системе (1) на n: β0 + β1 ¯x = ¯y β0 ¯x + β1x2 = xy Выразим β0 из первого уравнения β0 = ¯y − β1 ¯x Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 25 / 33
  • 28. Явный вид оценок коэффициентов Подставив во второе уравнение выражение для β0, найдём ˆβ1: ˆβ1 = xy − ¯x · ¯y x2 − (¯x)2 = cov(x, y) Var(x) = corr(x, y) Var(y) Var(x) = corr(x, y) σy σx и ˆβ0 = ¯y − ˆβ1 ¯x. Решение системы нормальных уравнений (1) будет глобальным минимумом функции S(β0, β1). Таким образом, оптимальная прямая задается уравнением ˆy = ˆβ0 + ˆβ1x Важно! Из первого уравнения системы (1) следует, что ¯y = ˆβ0 + ˆβ1 ¯x, т.е. оптимальная прямая проходит через точку с координатами (¯x, ¯y). Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 26 / 33
  • 29. Ещё раз о МНК Метод наименьших квадратов может быть применен для нахождения параметров любой функции, меньше всего отклоняющейся от заданных точек. Эта задача корректно разрешима в случае когда неизвестные параметры входят в функцию линейно. В этом случае система нормальных уравнений будет системой линейных уравнений и в общем случае будет иметь единственное решение. В курсе эконометрики вы узнаете, что при определённых условиях метод наименьших квадратов является в некотором смысле наилучшим! Замечание Стоит сказать, что при этих условиях, он будет частным случаем метода максимального правдоподобия. Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 27 / 33
  • 30. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 28 / 33
  • 31. Описание задачи Перейдем к задаче количественного описания зависимости между двумя экономическими факторами y и x. Естественно ожидать, что значение фактора y не всегда однозначно определяется значением фактора x. Кроме того, учесть все факторы, влияющие на y помимо x просто не представляется возможным в силу недостаточного количества информации или невозможности ее получения. Для одного значения фактора x могут наблюдаться различные значения y. Пример Пусть y – уровень зарплаты индивидуума, а x – уровень образования (в годах). Уровень зарплаты зависит не только от уровня образования, но и от множества других факторов (стажа работы, возраста, индивидуальных способностей, места работы и проч.) Учесть в модели всё невозможно. Например, как измерить индивидуальные способности индивидуума, несомненно влияющие на уровень зарплаты? Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 29 / 33
  • 32. Линейная модель Обычно для описания ситуаций с недостаточной информацией используют различные вероятностные математические модели. В эконометрике мы подробно изучим модель зависимости между факторами, описываемую уравнением yi = β0 + β1xi + εi , i = 1, . . . , n (2) где yi и εi суть случайные величины, а xi – неслучайная (детерминированная) величина, i – номер наблюдения. Фактор y называется зависимой переменной (dependent variable), а фактор x называется регрессором или объясняющей переменной (explanatory variable). Параметр β1 называется параметром наклона прямой (slope), а β0 – константой, свободным членом или параметром сдвига (intercept). Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 30 / 33
  • 33. Предпосылки Уравнение (2) называется уравнение регрессии или регрессионным уравнением, а случайные величины εi называются ошибками регрессии. Важно! Ошибки регрессии удобно представлять себе как «неучтенные факторы», влияющие на y помимо фактора x. Относительно ошибок регрессии обычно предполагается выполнение следующих условий, называемых иногда условиями Гаусса – Маркова: 1 Eεi = 0, i = 1, . . . , n (ошибки регрессии несистематические); 2 Var(εi ) = σ2 не зависит от i (гомоскедастичность). 3 cov(εi , εj ) = 0 при i = j (некоррелируемость ошибок для разных наблюдений). 4 εi ∼ N(0, σ2), i = 1, . . . , n (нормальная распределенность ошибок регрессии). Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 31 / 33
  • 34. Содержание 1 Парный коэффициент корреляции Коэффициент корреляции Пирсона Выборочный коэффициент корреляции Проверка значимости коэффициента корреляции 2 Метод наименьших квадратов Парная линейная модель регрессии (на будущее) 3 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 32 / 33
  • 35. Где и что почитать? Тема. Функциональная, статистическая и корреляционная зависимости. Коэффициент корреляции Пирсона. Корреляция и причинная связь. Линейная регрессия, нахождение коэффициентов. Надежность прогноза.([Арт], §1.1-1.3; [ФЛ], §18.1-18.3; [ТМ], Глава 8). Артамонов Н.В. Введение в эконометрику.– 2-е изд., испр. и доп.– М.:МЦНМО, 2014. – 224 с. Фадеева Л. Н., Лебедев А. В., Теория вероятностей и математическая статистика: учебное пособие. - 2-е изд., перераб. и доп. - М.: Эксмо, 2010. - 496 с. – (Новое экономическое образование). Тюрин Ю. Н., Макаров А.А., Анализ данных на компьютере: учебное пособие. - 4-е изд., перераб. - М.: ИД Форум, 2008. - 368 с., ил. - (Высшее образование). Курбацкий А. Н. (МШЭ МГУ) Лекция 9. Корреляция. МНК 11 апреля 2016 33 / 33