Successfully reported this slideshow.                                                         Upcoming SlideShare
×

# Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

8,565 views

Published on

Курс "Компьютерная поддержка прогнозирования"

Лекция 2. Корреляционный анализ и простая линейная регрессия

• Full Name
Comment goes here.

Are you sure you want to Yes No • Dating direct: ❤❤❤ http://bit.ly/2Q98JRS ❤❤❤

Are you sure you want to  Yes  No

Are you sure you want to  Yes  No

### Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

1. 1. Курс «КомпьютернаяКурс «Компьютерная поддержкаподдержка прогнозирования»прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: postlogist@gmail.com В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме редактирования.
2. 2. 2 Построение и анализ моделейПостроение и анализ моделей линейной регрессиилинейной регрессии 1. Оценка степени линейной связи между переменными 2. Средства построения регрессионных моделей в SPSS 3. Статистическая модель линейной регрессии, условия ее применения 4. Оценка качества регрессионной модели
3. 3. 3 Диаграммы рассеянияДиаграммы рассеяния o Диаграммы рассеяния (Scatter Plot) позволяют визуально оценить наличие связи между двумя переменными o Связь между переменными предполагает, что увеличение одной из них приводит к увеличению/уменьшению второй 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y Совершенная Несовершенная (стохастическая) ОтрицательнаяПоложительная
4. 4. 4 Диаграммы рассеянияДиаграммы рассеяния o Связь между переменными может быть нелинейной o Связь может отсутствовать 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y Нелинейная связь Отсутствие связи X-Y
5. 5. 5 Теснота связи и коэффициентТеснота связи и коэффициент корреляциикорреляции rr o Теснота связи – близость ее к «совершенной» (точки, лежащие на прямой Y= f (X)) o Теснота линейной связи характеризуется коэффициентом корреляции Пирсона: 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y r1 0.788= r2 0.974= ( )( ) ( ) ( ) 2 2 cov( , ) x y X X Y YX Y r X X Y Yσ σ − − = = − − ∑ ∑ ∑
6. 6. 6 СвойстваСвойства rr o Пределы изменения: -1 ≤ r ≤ 1 o Характеризует наличие корреляции, а не причинной зависимости o Характеризует линейную зависимость, для сильной нелинейной зависимости r может быть небольшим 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y r1 0.788= r2 0.8−= r3 0.027−=
7. 7. 7 ПримерыПримеры o Сильная положительная корреляция r = 0.8
8. 8. 8 ПримерыПримеры o Слабая корреляция r = 0.27
9. 9. 9 ПримерыПримеры o Отрицательная корреляция r = -0.553
10. 10. 10 Исследование корреляций вИсследование корреляций в SPSSSPSS o Для исследования корреляций между переменными в SPSS используются два метода: – Построение корреляционной матрицы (Analyze>Correlate>Bivariate) – Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter) Sales of Men's Clothing Sales of Women's Clothing Sales of Jewelry Number of Catalogs Mailed Number of Pages in Catalog Sales of Men's Clothing Pearson Correlation 1 ,802** ,701** ,803** ,259** Sig. (2-tailed) .000 .000 .000 .004 N 120 120 120 120 120 Sales of Women's Clothing Pearson Correlation ,802** 1 ,705** ,681** ,301** Sig. (2-tailed) .000 .000 .000 .001 N 120 120 120 120 120 Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110 Sig. (2-tailed) .000 .000 .000 .231 N 120 120 120 120 120 Number of Catalogs Mailed Pearson Correlation ,803** ,681** ,453** 1 .140 Sig. (2-tailed) .000 .000 .000 .127 N 120 120 120 120 120 Number of Pages in Catalog Pearson Correlation ,259** ,301** .110 .140 1 Sig. (2-tailed) .004 .001 .231 .127 N 120 120 120 120 120
11. 11. 11 Прямая регрессииПрямая регрессии o Для определения наилучшего приближения зависимости используется метод наименьших квадратов o Коэффициенты r и b1 взаимосвязаны: r = - 0.863 0 1 ˆY b b X= +( ) ( ) 2 2 0 1 ˆSSE Y Y Y b b X= − = − +∑ ∑ ( ) ( ) 2 1 2 Y Y b r X X − = − Y = 32.1 – 9.68X
12. 12. 12 Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессии o Данные для построения уравнения регрессии представляют собой выборку из генеральной совокупности связей X-Y o Статистическая модель линейной регрессии позволяет определить математическое ожидание Y для каждого значения X, по уравнению прямой: o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε, которая отражает вклад ненаблюдаемых факторов o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ для любого значения X 0 1Y Xβ β ε= + + 0 1Y Xµ β β= + Допущения модели: • ошибки независимы • ошибки случайны • mε=0 • σε = const
13. 13. 13 Стандартная ошибка оценкиСтандартная ошибка оценки o Построенное по выборке уравнение прямой регрессии можно рассматривать как оценку регрессионной прямой совокупности, а остатки модели – как оценки погрешности ε: – Совокупность – Выборка o Стандартная ошибка оценки показывает среднее отклонение точек данных от прямой регрессии: o Для больших выборок (N>30) можно ожидать 67% остатков в пределах +/- syx и 95% остатков в пределах +/- 2syx 0 1Y Xβ β ε= + + 0 1Y b b X e= + + ˆe Y Y= − - остаток модели ( ) 2 ˆ 2 y x Y Y s n × − = − ∑ YYε µ= − - ошибка
14. 14. 14 Выборочные распределенияВыборочные распределения o Выборочное распределение – множество всех возможных значений выборочной статистики, полученной для выборки данного объема (N) из генеральной совокупности. Например, можно говорить о распределении выборочного среднего. o Свойства выборочного распределения описываются центральной предельной теоремой. При N -> +inf справедливо: – распределение выборочного среднего – нормальное – выборочное среднее -> генеральное: – СКО выборочного среднего: – Эти свойства проявляются независимо от распределения генеральной совокупности, из которой получена выборка /X Nσ σ= - стандартная ошибка выборочного среднего /X Nσ σ=X m µ= ( ) XE X µ=
15. 15. 15 Доверительные интервалыДоверительные интервалы для выборочного среднего (для выборочного среднего (σσ известна)известна) o При известном σ (генеральном СКО) можно построить доверительный интервал для выборочного среднего, пользуясь свойствами выборочного распределения o Ширина интервала ∆ выбирается из условия: o Соответствующие площади можно вычислить при помощи таблиц или функций, в т.ч. Excel /X Nσ σ=X m µ= ( ) 1P X X Pµ α− ∆ ≤ ≤ + ∆ = = − Z N α σ ∆ =
16. 16. 16 Определение вероятности попаданияОпределение вероятности попадания случайной величины в интервалслучайной величины в интервал o Вероятность попадания в заданный интервал для непрерывной случайной величины может быть определена при помощи плотности или функции распределения ( ) ( ) ( ) ( ) b a P a X b f x dx F b F a≤ ≤ = = −∫ 4− 2− 0 2 4 0 0.1 0.2 0.3 fd x 2−, 2,( ) f x( ) 0 x 4− 2− 0 2 4 0 0.5 1 F x( ) 0 x 2− 2 xf x( ) ⌠  ⌡ d 0.954= F 2( ) F 2−( )− 0.954= ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) 1 1 2 1 2 2 1 / 2 F b F a F b F b F b F b F b α α α − = − = − − = − = − ⇒ = − Для нормального распределения справедливо: ( ) ( )1F x F x− = −
17. 17. 17 Интервальная оценка среднего при неизвестномИнтервальная оценка среднего при неизвестном σσ o Если неизвестно σ, то в качестве его оценки принимается s o В случае небольшой (N<30) выборки из нормальной совокупности используется распределение Стьюдента (t-распределение): o При N > 30 можно использовать нормальное выборочное распределение: ,df s t N α∆ = s Z N α∆ = 10− 5− 0 5 10 0.1 0.2 0.3 0.4 dnorm X 0, 1,( ) dt X 1,( ) dt X 5,( ) dt X 30,( ) X N=1 N=5 N=30 Нормальная кривая Сходимость t-распределения к нормальному при N->inf Квантили t- и Z-распределения для α = 5% (двухсторонний интервал) Число степеней свободы (t-распределения) Z или t
18. 18. 18 Источники неопределенности приИсточники неопределенности при прогнозировании по уравнению регрессиипрогнозировании по уравнению регрессии o Прогноз, полученный по уравнению регрессии, подвержен двум видам неопределенности: – В статистической модели содержится слагаемое ошибки ε: – Уравнение регрессии построено по случайной выборке, поэтому расположение регрессионной прямой также случайно и не совпадает с регрессионной прямой генеральной совокупности 0 1Y Xβ β ε= + +
19. 19. 19 Интервальный прогнозИнтервальный прогноз o Стандартная ошибка прогноза позволяет оценить меру вариативности предсказанного значения Y, учитывающую оба вида неопределенности o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно увеличивается при увеличении отклонения от среднего o Для построения интервального прогноза используется t-распределение Стьюдента с df = N – 2 степенями свободы o При N >= 30 можно использовать стандартное нормальное распределение ( ) ( ) ( ) ( ) 2 2 2 2 2 2 1 1 1f y x y x y x X X X X s s s s n nX X X X × × ×  − −  ÷= + × + = × + +  ÷− − ∑ ∑ вклад ошибки ε вклад отклонения от прямой генеральной совокупности 1 /2 fZ sα−∆ = × 1 /2, 2N ft sα− −∆ = × 1 5%/2 1.96 2Z − = ≈
20. 20. 20 Разложение дисперсииРазложение дисперсии o Из статистической модели регрессии следует: o Это равенство можно преобразовать: o И далее: 0 1 ˆ ˆ( )Y b b X e Y Y Y= + + = + − Наблюдаемое значение Y Объясненное линейной зависимостью Остаток ( ) ( ) ˆ ˆ( ) ˆ ˆ Y Y Y Y Y Y Y Y Y Y Y Y − = + − − ⇒ − = − + − ˆY Y− Y Y− ˆY Y− ( ) ( ) ( ) 2 2 2 ˆ ˆ Y Y Y Y Y Y − = − + − ∑ ∑ ∑
21. 21. 21 Формула разложения дисперсииФормула разложения дисперсии o В статистических пакетах приняты обозначения: SS = Sum of Squares, T - Total, R – Regression, E – Error (полная, объясненная, остаточная суммы квадратов соответственно) o С учетом этих обозначений формула разложения дисперсии: o Равенство справедливо и для числа степеней свободы: ( ) ( ) ( ) 2 22 ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑ ( ) 2 SST Y Y= −∑ ( ) 2 ˆSSE Y Y= −∑ ( ) 2 ˆSSR Y Y= −∑ SST SSR SSE= + ( ) ( ) ( ) ( ) ( )1 1 2 df SST df SSR df SSE n n = + − = + −
22. 22. 22 Таблица дисперсионного анализаТаблица дисперсионного анализа o При выполнении процедуры линейной регрессии можно вывести таблицу дисперсионного анализа (Analysis of Variance, ANOVA) o В таблице дисперсионного анализа содержатся суммы квадратов, степени свободы и средние квадраты (Mean Squares), получаемые делением сумм на число степеней свободы o При этом средний квадрат ошибки связан со стандартной ошибкой оценки: ( ) 2 2 ˆ 2 y x Y Y MSE s n × − = = − ∑
23. 23. 23 Коэффициент детерминацииКоэффициент детерминации o Коэффициент детерминации обозначает долю объясненной дисперсии в общей дисперсии: o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее пользоваться формулой: o Для простой линейной регрессии коэффициент детерминации связан с коэффициентом корреляции: o Тем не менее, R2 и r необходимо рассматривать отдельно, т.к. они несут разную информацию: r – о направлении и тесноте связи X-Y, а R2 – о том, насколько хорошо модель объясняет изменчивость Y o Коэффициент детерминации применяется и для многофакторной регрессии, для которой r не определен ( ) ( ) 2 2 2 ˆY YSSR R SST Y Y − = = − ∑ ∑ ( ) ( ) 2 2 2 ˆ 1 1 Y YSSE R SST Y Y − = − = − − ∑ ∑ 2 2 R r= 2 1 S ST R SE S = −
24. 24. 24 Диапазон значенийДиапазон значений RR22 o Если модель полностью объясняет Y, то SSE = 0 => R2 = 1 o Если связи между переменными нет, то SSE = SST => R2 = 0 o Возможна ситуация, когда SSE > SST, поэтому нижней границы у области значений R2 не существует Нет корреляции Совершенная связь X-Y
25. 25. 25 Проверка значимости коэффициентов регрессииПроверка значимости коэффициентов регрессии o Коэффициенты уравнения регрессионной прямой: оцениваются по ограниченной выборке, поэтому они являются случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто случайными причинами o Значимость коэффициентов регрессии проверяется через проверку гипотезы о равенстве коэффициента 0: 0 1Y Xβ β ε= + + 0 1: 0H β =
26. 26. 26 Проверка статистических гипотезПроверка статистических гипотез o Проверка утверждения о выборке или генеральной совокупности (статистической гипотезы) включает этапы: 1. Формулируется проверяемая гипотеза H0 и альтернативная гипотеза H1, которая принимается если отвергается H0 2. Выполняется случайная выборка из генеральной совокупности, для выборки вычисляются требуемая выборочная статистика 3. Рассматривается распределение выборочной статистики в предположении что H0 верна 4. Вычисляется вероятность того, что подобная выборочная статистика может быть получена из этого выборочного распределения 5. Если эта вероятность высока, то H0 принимается, в противном случае – отвергается и принимается H1 При этом предполагается заданная малая вероятность ошибки, называемая уровнем значимости
27. 27. 27 Ошибки при проверке гипотезОшибки при проверке гипотез Выбор аналитика Действительное состояние H0 принимается H0 отвергается H0 справедлива Ошибка I рода, вероятность α (уровень значимости) H0 несправедлива Ошибка II рода, вероятность β (мощность критерия)
28. 28. 28 Пример проверки гипотезыПример проверки гипотезы (2-сторонний критерий)(2-сторонний критерий) o Задача: Проверить, верно ли, что средний вес деталей, производимых на оборудовании по- прежнему равен 50 г. СКО веса деталей известно и равно 5 г o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г o Схема проверки: – строим выборочное распределение в предположении истинности H0 – определяем критические значения X из условия P(| µ - Xcp| > dx) = a – если | µ – Xcp | > dx, то H0 отвергается на уровне значимости α, иначе - нет оснований ее отвергнуть – В данном случае: Xcp- µ = 1.3 г > dx, H0 – отвергаем, принимаем H1 µ 50:= N 100:= σ 5:= σXcp σ N 0.5=:= α 5%:= dx qnorm 1 α 2 − 0, σXcp,      := dx 0.98= 48 49 50 51 52 0 0.2 0.4 0.6 dcrit x µ, σXcp, α,( ) dnorm x µ, σXcp,( ) µ dx+µ dx− x µ dx− 49.02= µ dx+ 50.98= α 2 2.5% α 2 2.5% dxdx
29. 29. 29 p-p-значениязначения o p-значение – это вероятность того, что выборочная статистика, полученная из распределения, окажется не меньше найденной по выборке o В предыдущем примере – вероятность того, что отклонение от среднего dx превысит найденное по выборке значение | 51.3 – 50 | = 1.3 o Малое значение p свидетельствует о низком правдоподобии H0, в примере p = 0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0. o Равносильное утверждение: p – минимальный уровень значимости, с которым может быть отвергнута гипотеза H0. o p-значения очень удобны, поскольку не требуют использования таблиц критических значений для проверочных статистик 0 1 2 3 0 0.2 0.4 0.6 0.8 p dx σXcp,( ) dx 2− 1− 0 1 2 0.2 0.4 0.6 dcrit x 0, σXcp, α,( ) dnorm x 0, σXcp,( ) dx− dx x p dx σ,( ) 2 1 pnorm dx 0, σ,( )−( )⋅:= p 1.3 σXcp,( ) 0.0093= P 1 F dx( )−( ) 2⋅
30. 30. 30 Пример проверки гипотезыПример проверки гипотезы (1-сторонний критерий)(1-сторонний критерий) o Задача: Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по- прежнему равно 500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500 o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35. o Предполагая распределение совокупности нормальным, для описания выборочного распределения используется t-распределение. Статистика критерия: o Критическое значение t-критерия определяется для α = 5% и df = N-1 = 14, tкрит= -1.761 o p-значение – вероятность получить из t-распределения отклонение от 0 больше полученной по выборке t-статистики p = 0.008, H0 - отвергаем 475 500 2.766 / / 35 / 15 X X t N S N µ µ σ − − − = = = = − 4− 2− 0 2 4 0.2 0.4 tcrit t N 1−, α,( ) dt t N 1−,( ) dnorm t 0, 1,( ) t tcrit t t 2.766−= tcrit 1.761−= p t N,( ) pt t N,( ):= p t N 1−,( ) 0.008= t-статистика – нормализованное отклонение от среднего
31. 31. 31 Проверка гипотез о значимостиПроверка гипотез о значимости коэффициентов регрессиикоэффициентов регрессии o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу о равенстве нулю углового коэффициента регрессионной прямой совокупности: o Гипотезы: o Выборочная статистика: o В примере: o Критическое значение для α = 1%, df = 10-2 = 8: t0.005=3.355 o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0 отвергается на уровне значимости 0.1% 0 1Y Xβ β ε= + + 0 1: 0H β = 1 1: 0H β ≠ 1 b b t s = ( ) 2 y x b s s X X × = − 1 0.969 4.842 0.2b b t s − = = = −
32. 32. 32 Проверка значимости регрессииПроверка значимости регрессии при помощи таблицыпри помощи таблицы ANOVAANOVA o Гипотезы: o Выборочная статистика: o При справедливости H0 имеет F-распределение с числом степеней свободы: o при β1=0 MSR и MSE оценивают дисперсию ошибки ε, если β1<>0, то MSR>MSE o При уровне значимости a гипотеза отклоняется при F > Fαи dfMSR, dfMSE 0 1: 0H β = 1 1: 0H β ≠ 1 0 MSR F MSE β = ⇒ = ( ) ( ),df MSR df MSE F.95=5.3 F.99=11.3
33. 33. 33 Допущения модели линейной регрессииДопущения модели линейной регрессии o Статистическая модель линейной регрессии основана на следующих допущениях: – Для заданного X генеральная совокупность значений Y нормально распределена относительно регрессионной прямой совокупности, параметры распределения (µY,σ) – СКО генеральной совокупности относительно регрессионной прямой совокупности всюду постоянно (σ=const), нарушение этого предположения - гетероскедастичность – Слагаемые ошибок ε независимы между собой. Это предположение часто нарушается, если точки данных записывались в течение нескольких периодов времени (серийная корреляция) – В генеральной совокупности существует линейная зависимость между X и Y
34. 34. 34 Схема анализа остатков моделиСхема анализа остатков модели o Для проверки справедливости допущений статистической модели регрессии выполняется анализ остатков: 1. Проверить нормальность (гистограмма, график P-P или Q-Q) 2. Проверить независимость остатков от X (график остатки – X) 3. Проверить независимость остатков от прогнозируемой величины – Для данных временного ряда требуются дополнительные проверки: – независимость остатков от времени (график остатки – t) – независимость остатков между собой (АКФ, тест Дарбина-Уотсона на серийную корреляцию) ˆY Дисперсия остатков увеличивается с ростом ˆY
35. 35. 35 Построение модели простой линейнойПостроение модели простой линейной регрессии врегрессии в SPSSSPSS o Подготовка набора данных, проверка типов и шкал измерения переменных • Для построения модели данные должны иметь количественный тип (Numeric) и интервальную шкалу (Scale). • Двоичные (1-0) переменные в номинальной шкале также могут использоваться как факторы в регрессионной модели (фиктивные переменные)
36. 36. 36 Отбор наблюденийОтбор наблюдений o Если переменная содержит данные для нескольких объектов, то данные можно: – отобрать (Data>Select Cases>[задать условие отбора] – расщепить (Data>Split File)>[выбрать переменную или набор переменных, для каждого значения которой будет создана отдельная группа]
37. 37. 37 Исследование корреляцийИсследование корреляций o Корреляционная матрица (Analysis>Correlate>Bivariate) o Данные в таблице – Pearson Correlation – коэффициент корреляции Пирсона r – Sig – p-значение для проверки гипотезы о r = 0 – N – число наблюдений, по которым производился расчет – * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%
38. 38. 38 Исследование корреляцийИсследование корреляций o Матрица диаграмм рассеяния (Graphs>…>Matrix Scatter) o Диаграмма рассеяния (Graphs> … > Simple Scatter)
39. 39. 39 Построение уравнения регрессииПостроение уравнения регрессии o Analyze>Regression>Linear – Отобрать зависимую (Dependent) и независимые (Independents) переменные – Method – метод включения независимых переменных (Enter = принудительное включение) – Case Labels – метки наблюдений: если есть идентификаторы объектов, можно пометить ими наблюдения (в таблицах и на графиках)
40. 40. 40 Настройка вывода статистикНастройка вывода статистик o [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет таблиц со статистическими характеристиками модели o Regression Coefficients – [x] Estimates – выводить оценки коэффициентов уравнения – [x] Confidence intervals / Level – выводить доверительные интервалы для коэффициентов, доверительная вероятность o Residuals – [x] Casewise diagnostics – обнаружение выбросов (за пределами n стандартных отклонений)
41. 41. 41 Анализ моделиАнализ модели o Model Summary - Сводка о статистических характеристиках модели o ANOVA – Таблица дисперсионного анализа • R – коэфициент корреляции • R Square – коэффициент детерминации R2 Std. Error of the Estimate – стандартная ошибка оценки, syx • Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная (Residual) и общая (Total) суммы квадратов (разложение дисперсии) • df - Число степеней свободы • Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx 2 • F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df • Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой коэффициент равен нулю => нет связи между переменными). Регрессия в примере значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи
42. 42. 42 Коэффициенты уравнения регрессииКоэффициенты уравнения регрессии o Coefficients – коэффициенты модели и их статистические характеристики o Model – константа + список переменных, включенных в модель, коэффициенты в строках таблицы соответствуют этим переменным o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они включаются в уравнение) – B – значение коэффициента – Std. error – стандартная ошибка o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами (Z = (x-xcp)/sx) – используются для сопоставления степени влияния отдельных переменных o t – статистика для проверки значимости коэффициента, t = b/sb o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном примере b0 незначим, коэффициент b1 значим на уровне 0.06% o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если интервал включает 0, то коэффициент незначим, в данном случае b0 незначим
43. 43. 43 Уточнение моделиУточнение модели o Если константа b0 незначима, можно построить модель без ее учета – [Options…] в диалоге Linear Regression – [ ] Include constant in equation o Результаты оценки модели без учета b0
44. 44. 44 Сохранение результатовСохранение результатов o [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и остатки в переменные o Prediction Values - оценки – Unstandardized – непреобразованные (полученные из уравнения для независимых переменных, для каждого наблюдения) – Standardized – нормализованные – Adjusted – прогноз для данного наблюдения по модели, не учитывающей это наблюдение – S.E. of mean predictions – стандартная ошибка прогноза для данного значения зависимой переменной o Residuals – Остатки – Unstandardized - непреобразованные – Standardized – нормализованные с учетом syx – Studentized – нормализованные с учетом sf – Deleted – полученные по модели, не учитывающей данное наблюдение – Studentized deleted – то же, + нормализация o Prediction Intervals – доверительные интервалы – Mean – полученный на основе стандартной sf – Confidence Interval – уровень значимости
45. 45. 45 Вывод графиков для остатков моделиВывод графиков для остатков модели o [Plots…] Вывести в отчет графики для анализа остатков модели o Standartized Residual Plot – [x] Histogram – гистограмма остатков – [x] Normal Probability Plot – график P-P для проверки нормальности остатков o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков – ось X: ZPRED – нормализованное значение оценки – ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный остаток
46. 46. 46 Диаграммы рассеяния для моделиДиаграммы рассеяния для модели o Качество модели можно визуально оценить по диаграмме рассеяния Модель с константой > < Модель без константы
47. 47. 47 Анализ остатковАнализ остатков o Проверка нормальности с помощью гистограммы Модель без константы Модель с константойМодель без константы
48. 48. 48 Анализ остатковАнализ остатков o Проверка нормальности с помощью P-P графика Модель без константы Модель с константойМодель без константы Модель с константой
49. 49. 49 Анализ остатковАнализ остатков o Проверка равенства дисперсий (отсутствия гетероскедастичности) с помощью графика Остаток-Оценка Модель без константы Модель с константой
50. 50. 50 Анализ остатковАнализ остатков o Проверка равенства дисперсий (отсутствия гетероскедастичности) с помощью графика Остаток-Независимая переменная
51. 51. 51 Анализ остатковАнализ остатков o Проверка независимости остатков с помощью графика Остаток-Номер наблюдения
52. 52. 52 Преобразование переменныхПреобразование переменных o Для исключения нелинейной зависимости между переменными можно строить уравнение регрессии для преобразованных переменных: – ln Y = b0+b1 X – X -> 1/X , log(X), sqrt(X), X2
53. 53. 53 Анализ остатковАнализ остатков до преобразования после преобразования
54. 54. 54 Пример преобразования переменныхПример преобразования переменных Исходные данные
55. 55. 55 Пример преобразования переменныхПример преобразования переменных X -> sqrt(X)
56. 56. 56 Пример преобразования переменныхПример преобразования переменных X -> lg(X)
57. 57. 57 Пример преобразования переменныхПример преобразования переменных X -> 1/X y = 4.3 – 12.7 / X