7. Наблюдаемые значения P 4 y x x 1 x 2 x 3 x 4 P 3 P 2 P 1 7 На практике мы можем наблюдать только точки P .
8. Теоретическая и расчетная регрессии P 4 y x x 1 x 2 x 3 x 4 P 3 P 2 P 1 a 8 По этим точкам строим регрессию y = a + bx ^
9. Остатки P 4 y x x 1 x 2 x 3 x 4 P 3 P 2 P 1 R 1 R 2 R 3 R 4 y - y = e (остаток) ^ e 1 e 2 e 3 e 4 a 10 y (фактическое значение) y (расчетное значение) ^ y = a + bx ^
10. Расхождение теоретической и расчетной регрессий P 4 y x x 1 x 2 x 3 x 4 P 3 P 2 P 1 R 1 R 2 R 3 R 4 a y = + x 11 y (фактическое значение) Теоретическая и расчетная линии регрессии не совпадают Остатки не совпадают со значениями случайного члена y (расчетное значение) ^ y = a + bx ^
33. Свойства оцененных уравнений и остатков 1 Три полезных предварительных результата Эти результаты легко доказываются, исходя из свойств средних и ковариации, а также могут быть проверены на примерах
39. Разложение суммы квадратов остатков 36 TSS - Total Sum of Squares - полная сумма квадратов Смысл коэффициента детерминации
40. «Объясненная» сумма квадратов остатков 36 TSS - Total Sum of Squares - полная сумма квадратов E SS - Explained Sum of Squares - «объясненная» сумма квадратов Смысл коэффициента детерминации
41. «Остаточная» сумма квадратов остатков Смысл коэффициента детерминации 36 TSS - Total Sum of Squares - полная сумма квадратов E SS - Explained Sum of Squares - «объясненная» сумма квадратов RSS - Residual Sum of Squares - «оставшаяся» сумма квадратов
46. Эквивалентность критерия детерминации и МНК - 2 36 Если R 2 достигает своего наибольшего возможного значения , то одновременно минимизируется сумма квадратов остатков
47. Эквивалентность критерия детерминации и МНК - 3 36 Если R 2 достигает своего наибольшего возможного значения , то одновременно минимизируется сумма квадратов остатков Критерий качества R 2 эквивалентнен принципу наименьших квадратов
52. Команды MicroTSP для расчета и анализа парной регрессии (обзор) Расчет регрессии: LS Генерация новой переменной: GENR Функции: @Sum( X ), @Mean( X ), @Var( X ) , @Cov( X , Y ), @Cor( X , Y ) Вектор параметров: C(1), C(2) Аналитические и прогнозные расчеты: = C (1) +C (2) *X Остатки: RESID
Допустим, что переменная y является линейной функцией другой переменной x , с неизвестными параметрами и которые мы хотим определить .
Допустим, что у нас имеется выборка из 4 наблюдений значений x, как показано на рисунке. Если бы рассматриваемое соотношение между x и y было точным, то все наблюдения лежали бы на прямой линии, так что нетрудно было бы расчитать коэффициенты и . На практике большинство экономических зависимостей не являются точными, и фактические значения y отличаются от тех, что лежат на прямой линии. Чтобы допустить такие расхождения в модели, мы включим в нее случайный член u , так что модель теперь будет записываться как y = + x + u .
Допустим, что у нас имеется выборка из 4 наблюдений значений x, как показано на рисунке. Если бы рассматриваемое соотношение между x и y было точным, то все наблюдения лежали бы на прямой линии, так что нетрудно было бы расчитать коэффициенты и . На практике большинство экономических зависимостей не являются точными, и фактические значения y отличаются от тех, что лежат на прямой линии. Чтобы допустить такие расхождения в модели, мы включим в нее случайный член u , так что модель теперь будет записываться как y = + x + u .
Очевидно, мы можем использовать точки P для того, чтобы провести линию, которая послужит некоторым приближением к линии y = + x . Если мы запишем эту линию как y = a + bx , a можно рассматривать как оценку а b – как оценку . Эта линия называется расчетной моделью, а значения y, вычисленные по ней, называются расчетными значениями y . Они дают значения высот для точек R .
Разности между фактическими значениями и регрессией известны как остатки
Заметим, что значения остатков не совпадают со значениями случайного члена. На диаграмме истинная неизвестная зависимость изображена наряду с расчетной линией Случайный член представляет собой разность между фактическим наблюдением и неслучайной компонентой истинной зависимости. Остатки представляют собой разность фактический и расчетных значений. Используя теоретическую зависимость, можно разложить y на неслучайную компоненту + x и случайную компоненту u. Это – чисто теоретическое разложение, поскольку мы не знаем ни значений и , ни значений случайного члена. Тем не менее это разложение будет использоваться в анализе свойств коэфициентов регрессии. Другое разложение относится к расчетной линии. Это – вполне операциональное разложение, которые мы будем использовать для практических целей.
Мы начнем с формулировки критерия: мы будем проводить прямую линию таким образом, чтобы минимизировать сумму квадратов остатков. Это условие называется принципом наименьших квадратов.
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Демонстрация регрессии Все демонстрируется на буферном файле Word . Таблица
Разности между фактическими значениями и регрессией известны как остатки
Дисперсия зависимой переменной раскладывается на сумму дисперсии расчетных значений (по уравнению регрессии) и дисперсии остатков Мы пользуемся отмеченным выше фактом о некоррелированности расчетных значений и остатков.
Первая выражает «объясненную уравнением регрессии» часть общей дисперсии, тогда как вторая - оставшуюся необъясненной.
Исходя из известных фактов о средних остатков и расчетных значений (они приведены внизу), выражение можно записать в очень простой форме
Эти величины получили специальные обозначения, которые сейчас будут объяснены
TSS - Total sum of squares - полная сумма квадратов - она рассчитывается для отклонений фактических значений от среднего - эта изменчивость зависимой переменной и подлежит объяснению с помощью регрессии
E SS - Explained sum of squares - «объясненная сумма квадратов» - она рассчитывается для отклонений РАСЧЕТНЫХ значений от среднего РАСЧЕТ делается по уравнению регрессии - в этом и состоит «объяснение» - если бы ESS совпало с TSS , то регрессия объясняла бы всю изменчивость зависимой переменной
Но обычно “объяснение” оказывается неполным - E SS - Residual sum of squares - «оставшаяся сумма квадратов» - измеряется изменчивостью «остатков», т.е. уклонений фактических значений от уравнения регрессии ВНИМАНИЕ ЭТИ ОБОЗНАЧЕНИЯ НЕ ПОДДЕРЖИВАЮТСЯ ВСЕМИ АВТОРАМИ У Магнуса все наоборот: Е SS - Error, RSS - Regression
Поскольку нас интересует относительная величина «объясненной» части дисперсии, разделим ее на полную сумму квадратов. Получим показатель, известный как «Эр-квадрат» или «коэффициент детерминации»
«Эр-квадрат» показывает долю дисперсии зависимой переменной, «объясненной» уравнением регрессии, т.е. вызванной изменениями независимых переменных (правильнее сказать, не «вызванной», а приписываемой влиянию независимых переменных, так как эконометрика на этом уровне не измеряет причинных связей) Если помнить об этом, то можно позволять себе вольности в интерпретации. .
Коэффициент детерминации можно выразить через остатки уравнения
Отсюда видно, что «эр-квадрат» не может превышать единицы (он всегда положительный, по крайней мере должен быть) Забавно, что на практике встречаются случаи отрицательного «эр-квадрат» - это бывает в очень плохих регрессиях из-за несовершенных численных алгоритмов
В каждом конкретном уравнении «эр-квадрат» не удается довести до единицы, а лишь сделать максимальным - при этом, как мы видим, одновременно минимизируется сумма квадратов остатков. Так что Метод Наименьших Квадратов обеспечивает наибольший возможный коэффициент детерминации.
Таким образом «эр-квадрат» в качестве критерия качества оказывается ЭКВИВАЛЕНТНЫМ принципу наименьших квадратов
Теперь обсудим связь коэффициента детерминации с коэффициентном корреляции (известным еще из предварительного анализа ковариации переменных)
Бросив взгляд на длинную цепочку выкладок и преобразований, сосредоточимся на результате: коэффициент корреляции представляет собой квадратный корень из коэффициента детерминации, так что «эр-квадрат» в парной регрессии является квадратом коэффициента корреляции (что и оправдывает его название)
Покажем теперь кратко, как все сказанное можно использовать для аналитических расчетов (внутри диапазона выборки) и прогнозирования (расчетам вне диапазона выборки).
Посмотрим, для чего можно использовать рассчитанную регрессию, например Демонстрация регрессии FOOD по DPI Все демонстрируется на буферном файле Word . Таблица регрессии Вектор коэффициентов Вектор коэффициентов позволяет вычислять расчетные значение по одному или все сразу. Демонстрация на этой регрессии