SlideShare a Scribd company logo
Лекция 3. Линейная регрессия
Авдеенко Татьяна Владимировна,
Новосибирский государственный
технический университет,
Факультет бизнеса,
Кафедра экономической информатики
Две основные задачи анализа данных
• Классификация.
Отнесение объекта к тому или иному классу.
Зависимая переменная принимает
дискретные значения {0,1,…}. Например,
предсказание банкротства предприятия.
• Регрессия.
Предсказание количественных свойств
объектов. Зависимая переменная принимает
непрерывные значения. Например,
предсказание объема продаж.
Две основные задачи анализа данных
Предсказание цены дома в зависимости от его площади
Две основные задачи анализа данных
Предсказание цены дома в зависимости от его площади
Задача регрессии
Две основные задачи анализа данных
Предсказание злокачественности опухоли в
зависимости от ее размера
Tumor SizeTumor Size
(Yes) 1
(No) 0
Две основные задачи анализа данных
Предсказание злокачественности опухоли в
зависимости от ее размера
Задача классификации
Tumor SizeTumor Size
(Yes) 1
(No) 0
Задача регрессии. Различие между
регрессией и корреляцией
В обоих случаях речь идет о статистической взаимозависимости
между переменными. Однако имеются существенные различия:
- коэффициент корреляции измеряет степень статистической
линейной связи между переменными, но ничего не говорит о
нелинейной. Низкий коэффициент корреляции не исключает
сильную нелинейную связь между переменными;
- корреляция ничего не говорит о причинной зависимости между
переменными. Если установлено наличие корреляции между X
и Y, то X не обуславливает изменение Y, и наоборот. Часто
бывает, что высокий коэффициент корреляции ничего не
значит (пример – коэффициент корреляции между смертностью
в Англии и количеством зарегистрированных браков за
некоторый период, составил 0,95).
Выдвижение гипотезы в задачах регрессии
Набор данных
Выдвижение гипотезы
h
X1
X2
…
Xk
h(x)
Множественная регрессия
Уравнение регрессии
Гипотеза
Матричный вид уравнения регрессии
y X β ε= +
( ) ,y h xβ ε= +
0 1 1( ) ... k kh x x xβ β β β= + + +
Множественная регрессия (матричный вид)
Size (feet2
) Number of
bedrooms
Number of
floors
Age of home
(years)
Price ($1000)
1 2104 5 1 45 460
1 1416 3 2 40 232
1 1534 3 2 30 315
1 852 2 1 36 178
0
1
2
3
4
β
β
β β
β
β
 
 
 
 =
 
 
 
 y X β ε= +
Допущения, лежащие в основе
линейной регрессии
• Истинная форма связи между эндогенной и
объясняющими переменными является линейной.
• M(ε)=0. Ошибки удовлетворяют нормальному
распределению с нулевым математическим ожиданием.
• D(ε)=σ2
=const. Ошибки должны иметь постоянную
дисперсию.
• Ошибки являются некоррелированными друг с другом.
• Ошибки не коррелированны со всеми объясняющими
переменными.
• Независимые переменные не являются зависимыми
друг с другом (отсутствует совершенная
мультиколлинеарность)
Множественная регрессия.
Класс линейных регрессионных моделей
Критерий качества модели (метод наименьших
квадратов)
Система нормальных уравнений
y X β ε= +
2
1
( ) ( ) min
n
T T
i
i
y X y Xε ε ε β β
=
= = − − →∑
1ˆ ( )T T
X X X yβ −
=
Диагностика модели
1. Коэффициент детерминации R2
– величина,
характеризующая точностные характеристики уравнения
регрессии в целом. Значение коэффициента детерминации R2
позволяет понять, насколько вариация зависимой переменной
y объясняется изменением независимой переменной x.
приемлемая модель
2
2 1
2
1
ˆ( )
,
( )
n
i
i
n
i
i
y y
SSR SSR
R
SSO SSR SSE
y y
=
=
−
= = =
+
−
∑
∑
2
1
ˆ( )
n
i i
i
SSE y y
=
= −∑
2
0 1R≤ ≤
2
0.75R ≥
Диагностика модели
1. Коэффициент детерминации R2
. Проблемы, связанные
с вычислением коэффициента детерминации:
- Нельзя сравнивать величины R2
для моделей с
различными независимыми переменными;
- R2
никогда не уменьшается при добавлении в модель
новых объясняющих переменных. Эта проблема
решается использованием скорректированного
коэффициента детерминации:
- R2
малопригоден для оценки качества временных рядов.
Значение становится очень близким к 1, что затрудняет
сравнение моделей.
2 2
1 (1 )
1
n
R R
n k
= − −
− −
Диагностика модели
2. Проверка значимости коэффициентов регрессии
Гипотеза
Для проверки этой гипотезы используется t- критерий с
(n-k-1) степенями свободы
- стандартная ошибка оценки
гипотеза отвергается
0 : 0iH β = 1 : 0iH β ≠
ˆ
i
i
i
t
SE
β
β
β
= i
SEβ
,( 1)i n kt tβ α − −>
Диагностика модели
3. Проверка значимости уравнения регрессии
Гипотеза
Для проверки этой гипотезы используется F- критерий с
k, (n-k-1) степенями свободы
- гипотеза о незначимости
регрессии отвергается
0 1 2: ... 0kH β β β= = = = 1 : 0 0iH äëÿ iβ ≠ ≠
2
2
/ 1
/( 1) 1
SSR k R n k
F
SSE n k R k
− −
= =
− − −
, , 1k n kF Fα − −>
Диагностика модели
4. Проверка допущений линейного регрессионного
анализа. Для проверки допущений регрессии используется
анализ остатков
 проверка допущений о линейности и гомоскедастичности
(графический анализ остатков);
 проверка соответствия остатков нормальному распределению
(гистограмма);
 проверка избыточности переменных (толерантность)
 проверка независимости (некоррелированности) остатков.
 График остатков в зависимости от предикторных
переменных;
 Тест серий. При наличии очень большого или очень
малого количества серий (групп одинакового знака) можно
заподозрить независимость остатков.
 Тест Дарбина-Уотсона
DW ≈ 2 остатки независимы
0 1 1
ˆ ˆ ˆˆ ... k ky x xε β β β= − − − −
2
1
2
2
1
ˆ ˆ( )
ˆ
n
i i
i
n
i
i
DW
ε ε
ε
−
=
=
−
=
∑
∑

More Related Content

What's hot

логистическая регрессия
логистическая регрессиялогистическая регрессия
логистическая регрессия
Natalia Smirnova
 
линейная функция
линейная функциялинейная функция
линейная функцияartec457
 
Classifier evaluation and comparison
Classifier evaluation and comparisonClassifier evaluation and comparison
Classifier evaluation and comparisonAnton Konushin
 
Aa97b0f540f686123fa4f693a35aa8d0
Aa97b0f540f686123fa4f693a35aa8d0Aa97b0f540f686123fa4f693a35aa8d0
Aa97b0f540f686123fa4f693a35aa8d0tomik1044
 
Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...
Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...
Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...
Yandex
 
Производная. Алгоритм нахождения производной
Производная. Алгоритм нахождения производнойПроизводная. Алгоритм нахождения производной
Производная. Алгоритм нахождения производной
Oleksii Voronkin
 
Predely nepreryvnost funkcij
Predely nepreryvnost funkcijPredely nepreryvnost funkcij
Predely nepreryvnost funkcij
Dimon4
 
Tr11mat114 kr
Tr11mat114 krTr11mat114 kr
Tr11mat114 kreekdiary
 
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Vladimir Tcherniak
 
Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
Kurbatskiy Alexey
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
Kurbatskiy Alexey
 
науменко степенная функция
науменко степенная функциянауменко степенная функция
науменко степенная функцияurvlan
 
логарифмическая функция
логарифмическая функциялогарифмическая функция
логарифмическая функция
Kirrrr123
 

What's hot (19)

6
66
6
 
логистическая регрессия
логистическая регрессиялогистическая регрессия
логистическая регрессия
 
линейная функция
линейная функциялинейная функция
линейная функция
 
функция
функцияфункция
функция
 
Lection02
Lection02Lection02
Lection02
 
12
1212
12
 
Classifier evaluation and comparison
Classifier evaluation and comparisonClassifier evaluation and comparison
Classifier evaluation and comparison
 
Aa97b0f540f686123fa4f693a35aa8d0
Aa97b0f540f686123fa4f693a35aa8d0Aa97b0f540f686123fa4f693a35aa8d0
Aa97b0f540f686123fa4f693a35aa8d0
 
Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...
Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...
Е.В. Бурнаев "Изменение среднего значения последовательности независимых норм...
 
Ivm1257
Ivm1257Ivm1257
Ivm1257
 
Производная. Алгоритм нахождения производной
Производная. Алгоритм нахождения производнойПроизводная. Алгоритм нахождения производной
Производная. Алгоритм нахождения производной
 
Predely nepreryvnost funkcij
Predely nepreryvnost funkcijPredely nepreryvnost funkcij
Predely nepreryvnost funkcij
 
Tr11mat114 kr
Tr11mat114 krTr11mat114 kr
Tr11mat114 kr
 
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
 
8
88
8
 
Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
науменко степенная функция
науменко степенная функциянауменко степенная функция
науменко степенная функция
 
логарифмическая функция
логарифмическая функциялогарифмическая функция
логарифмическая функция
 

Viewers also liked

Yuk piknik
Yuk piknikYuk piknik
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядов
DEVTYPE
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
DEVTYPE
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
DEVTYPE
 
Strategy maria ortega
Strategy maria ortegaStrategy maria ortega
Strategy maria ortega
María Ortega
 
Magui Mohamed Gadallah cv up
Magui Mohamed Gadallah cv upMagui Mohamed Gadallah cv up
Magui Mohamed Gadallah cv up
Magui Gadallah
 
Free e-assessment tools for formative assessment
Free e-assessment tools for formative assessmentFree e-assessment tools for formative assessment
Free e-assessment tools for formative assessment
Jisc RSC East Midlands
 
Natureview Farm Solution
Natureview Farm SolutionNatureview Farm Solution
Natureview Farm Solution
Abhinav Pratyush
 
通信規格OSC(OpenSoundControl)
通信規格OSC(OpenSoundControl)通信規格OSC(OpenSoundControl)
通信規格OSC(OpenSoundControl)
Yuta Egawa
 
RESUME Carol G. Skelton, CPC
RESUME Carol G. Skelton, CPCRESUME Carol G. Skelton, CPC
RESUME Carol G. Skelton, CPC
Carol skelton
 
Carl Jung
Carl JungCarl Jung
T2 e2 rosell-marti
T2 e2 rosell-martiT2 e2 rosell-marti
T2 e2 rosell-marti
Martí Rosell Mas
 
Hotstar- SUCCESS STORY - Papercups Marketing 2016
Hotstar- SUCCESS STORY - Papercups Marketing 2016Hotstar- SUCCESS STORY - Papercups Marketing 2016
Hotstar- SUCCESS STORY - Papercups Marketing 2016
Sunil Saha Director Redplum India Pvt Ltd
 
Fundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO B
Fundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO BFundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO B
Fundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO B
Antonio Fdez
 
Medios de comunicación
Medios de comunicaciónMedios de comunicación
Medios de comunicación
Daniel Gil Duran
 
Prueba los cretinos
Prueba los cretinosPrueba los cretinos
Prueba los cretinos
Celeste Puyol Carreño
 
プロダクトにおけるScala
プロダクトにおけるScalaプロダクトにおけるScala
プロダクトにおけるScala
Yuto Suzuki
 

Viewers also liked (17)

Yuk piknik
Yuk piknikYuk piknik
Yuk piknik
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядов
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Strategy maria ortega
Strategy maria ortegaStrategy maria ortega
Strategy maria ortega
 
Magui Mohamed Gadallah cv up
Magui Mohamed Gadallah cv upMagui Mohamed Gadallah cv up
Magui Mohamed Gadallah cv up
 
Free e-assessment tools for formative assessment
Free e-assessment tools for formative assessmentFree e-assessment tools for formative assessment
Free e-assessment tools for formative assessment
 
Natureview Farm Solution
Natureview Farm SolutionNatureview Farm Solution
Natureview Farm Solution
 
通信規格OSC(OpenSoundControl)
通信規格OSC(OpenSoundControl)通信規格OSC(OpenSoundControl)
通信規格OSC(OpenSoundControl)
 
RESUME Carol G. Skelton, CPC
RESUME Carol G. Skelton, CPCRESUME Carol G. Skelton, CPC
RESUME Carol G. Skelton, CPC
 
Carl Jung
Carl JungCarl Jung
Carl Jung
 
T2 e2 rosell-marti
T2 e2 rosell-martiT2 e2 rosell-marti
T2 e2 rosell-marti
 
Hotstar- SUCCESS STORY - Papercups Marketing 2016
Hotstar- SUCCESS STORY - Papercups Marketing 2016Hotstar- SUCCESS STORY - Papercups Marketing 2016
Hotstar- SUCCESS STORY - Papercups Marketing 2016
 
Fundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO B
Fundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO BFundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO B
Fundación de Roma, trabajo de latín Ayamonte IES GUADIANA 4 ESO B
 
Medios de comunicación
Medios de comunicaciónMedios de comunicación
Medios de comunicación
 
Prueba los cretinos
Prueba los cretinosPrueba los cretinos
Prueba los cretinos
 
プロダクトにおけるScala
プロダクトにおけるScalaプロダクトにおけるScala
プロダクトにおけるScala
 

Similar to Линейная регрессия

Прогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядовПрогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
Gleb Zakhodiakin
 
Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Vladimir Tcherniak
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
Gleb Zakhodiakin
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторовAnton Konushin
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
Kurbatskiy Alexey
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Gleb Zakhodiakin
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Vladimir Tcherniak
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Vladimir Tcherniak
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
Kh Ider
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеLidia Pivovarova
 
матемтик анализ лекц№ 2
матемтик анализ лекц№ 2матемтик анализ лекц№ 2
матемтик анализ лекц№ 2narangerelodon
 
математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2narangerelodon
 
Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решением
Kurbatskiy Alexey
 
лекция07
лекция07лекция07
лекция07cezium
 
Domain-тестирование
Domain-тестированиеDomain-тестирование
Domain-тестирование
SPB SQA Group
 

Similar to Линейная регрессия (15)

Прогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядовПрогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
 
Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторов
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделирование
 
матемтик анализ лекц№ 2
матемтик анализ лекц№ 2матемтик анализ лекц№ 2
матемтик анализ лекц№ 2
 
математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2математик анализ хичээлийн лекц № 2
математик анализ хичээлийн лекц № 2
 
Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решением
 
лекция07
лекция07лекция07
лекция07
 
Domain-тестирование
Domain-тестированиеDomain-тестирование
Domain-тестирование
 

More from DEVTYPE

Рукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебреРукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебре
DEVTYPE
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства
DEVTYPE
 
1.3 Описательная статистика
1.3 Описательная статистика1.3 Описательная статистика
1.3 Описательная статистика
DEVTYPE
 
1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство
DEVTYPE
 
Continuity and Uniform Continuity
Continuity and Uniform ContinuityContinuity and Uniform Continuity
Continuity and Uniform Continuity
DEVTYPE
 
Coin Change Problem
Coin Change ProblemCoin Change Problem
Coin Change Problem
DEVTYPE
 
Recurrences
RecurrencesRecurrences
Recurrences
DEVTYPE
 
D-кучи и их применение
D-кучи и их применениеD-кучи и их применение
D-кучи и их применение
DEVTYPE
 
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицыДиаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
DEVTYPE
 
ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ
DEVTYPE
 
Скорость роста функций
Скорость роста функцийСкорость роста функций
Скорость роста функций
DEVTYPE
 
Asymptotic Growth of Functions
Asymptotic Growth of FunctionsAsymptotic Growth of Functions
Asymptotic Growth of Functions
DEVTYPE
 
Кучи
КучиКучи
Кучи
DEVTYPE
 
Кодирование Хаффмана
Кодирование ХаффманаКодирование Хаффмана
Кодирование Хаффмана
DEVTYPE
 
Жадные алгоритмы: введение
Жадные алгоритмы: введениеЖадные алгоритмы: введение
Жадные алгоритмы: введение
DEVTYPE
 
Разбор задач по дискретной вероятности
Разбор задач по дискретной вероятностиРазбор задач по дискретной вероятности
Разбор задач по дискретной вероятности
DEVTYPE
 
Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"
DEVTYPE
 
Наибольший общий делитель
Наибольший общий делительНаибольший общий делитель
Наибольший общий делитель
DEVTYPE
 
Числа Фибоначчи
Числа ФибоначчиЧисла Фибоначчи
Числа Фибоначчи
DEVTYPE
 
О-символика
О-символикаО-символика
О-символика
DEVTYPE
 

More from DEVTYPE (20)

Рукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебреРукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебре
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства
 
1.3 Описательная статистика
1.3 Описательная статистика1.3 Описательная статистика
1.3 Описательная статистика
 
1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство
 
Continuity and Uniform Continuity
Continuity and Uniform ContinuityContinuity and Uniform Continuity
Continuity and Uniform Continuity
 
Coin Change Problem
Coin Change ProblemCoin Change Problem
Coin Change Problem
 
Recurrences
RecurrencesRecurrences
Recurrences
 
D-кучи и их применение
D-кучи и их применениеD-кучи и их применение
D-кучи и их применение
 
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицыДиаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
 
ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ
 
Скорость роста функций
Скорость роста функцийСкорость роста функций
Скорость роста функций
 
Asymptotic Growth of Functions
Asymptotic Growth of FunctionsAsymptotic Growth of Functions
Asymptotic Growth of Functions
 
Кучи
КучиКучи
Кучи
 
Кодирование Хаффмана
Кодирование ХаффманаКодирование Хаффмана
Кодирование Хаффмана
 
Жадные алгоритмы: введение
Жадные алгоритмы: введениеЖадные алгоритмы: введение
Жадные алгоритмы: введение
 
Разбор задач по дискретной вероятности
Разбор задач по дискретной вероятностиРазбор задач по дискретной вероятности
Разбор задач по дискретной вероятности
 
Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"
 
Наибольший общий делитель
Наибольший общий делительНаибольший общий делитель
Наибольший общий делитель
 
Числа Фибоначчи
Числа ФибоначчиЧисла Фибоначчи
Числа Фибоначчи
 
О-символика
О-символикаО-символика
О-символика
 

Линейная регрессия

  • 1. Лекция 3. Линейная регрессия Авдеенко Татьяна Владимировна, Новосибирский государственный технический университет, Факультет бизнеса, Кафедра экономической информатики
  • 2. Две основные задачи анализа данных • Классификация. Отнесение объекта к тому или иному классу. Зависимая переменная принимает дискретные значения {0,1,…}. Например, предсказание банкротства предприятия. • Регрессия. Предсказание количественных свойств объектов. Зависимая переменная принимает непрерывные значения. Например, предсказание объема продаж.
  • 3. Две основные задачи анализа данных Предсказание цены дома в зависимости от его площади
  • 4. Две основные задачи анализа данных Предсказание цены дома в зависимости от его площади Задача регрессии
  • 5. Две основные задачи анализа данных Предсказание злокачественности опухоли в зависимости от ее размера Tumor SizeTumor Size (Yes) 1 (No) 0
  • 6. Две основные задачи анализа данных Предсказание злокачественности опухоли в зависимости от ее размера Задача классификации Tumor SizeTumor Size (Yes) 1 (No) 0
  • 7. Задача регрессии. Различие между регрессией и корреляцией В обоих случаях речь идет о статистической взаимозависимости между переменными. Однако имеются существенные различия: - коэффициент корреляции измеряет степень статистической линейной связи между переменными, но ничего не говорит о нелинейной. Низкий коэффициент корреляции не исключает сильную нелинейную связь между переменными; - корреляция ничего не говорит о причинной зависимости между переменными. Если установлено наличие корреляции между X и Y, то X не обуславливает изменение Y, и наоборот. Часто бывает, что высокий коэффициент корреляции ничего не значит (пример – коэффициент корреляции между смертностью в Англии и количеством зарегистрированных браков за некоторый период, составил 0,95).
  • 8. Выдвижение гипотезы в задачах регрессии Набор данных Выдвижение гипотезы h X1 X2 … Xk h(x)
  • 9. Множественная регрессия Уравнение регрессии Гипотеза Матричный вид уравнения регрессии y X β ε= + ( ) ,y h xβ ε= + 0 1 1( ) ... k kh x x xβ β β β= + + +
  • 10. Множественная регрессия (матричный вид) Size (feet2 ) Number of bedrooms Number of floors Age of home (years) Price ($1000) 1 2104 5 1 45 460 1 1416 3 2 40 232 1 1534 3 2 30 315 1 852 2 1 36 178 0 1 2 3 4 β β β β β β        =        y X β ε= +
  • 11. Допущения, лежащие в основе линейной регрессии • Истинная форма связи между эндогенной и объясняющими переменными является линейной. • M(ε)=0. Ошибки удовлетворяют нормальному распределению с нулевым математическим ожиданием. • D(ε)=σ2 =const. Ошибки должны иметь постоянную дисперсию. • Ошибки являются некоррелированными друг с другом. • Ошибки не коррелированны со всеми объясняющими переменными. • Независимые переменные не являются зависимыми друг с другом (отсутствует совершенная мультиколлинеарность)
  • 12. Множественная регрессия. Класс линейных регрессионных моделей Критерий качества модели (метод наименьших квадратов) Система нормальных уравнений y X β ε= + 2 1 ( ) ( ) min n T T i i y X y Xε ε ε β β = = = − − →∑ 1ˆ ( )T T X X X yβ − =
  • 13. Диагностика модели 1. Коэффициент детерминации R2 – величина, характеризующая точностные характеристики уравнения регрессии в целом. Значение коэффициента детерминации R2 позволяет понять, насколько вариация зависимой переменной y объясняется изменением независимой переменной x. приемлемая модель 2 2 1 2 1 ˆ( ) , ( ) n i i n i i y y SSR SSR R SSO SSR SSE y y = = − = = = + − ∑ ∑ 2 1 ˆ( ) n i i i SSE y y = = −∑ 2 0 1R≤ ≤ 2 0.75R ≥
  • 14. Диагностика модели 1. Коэффициент детерминации R2 . Проблемы, связанные с вычислением коэффициента детерминации: - Нельзя сравнивать величины R2 для моделей с различными независимыми переменными; - R2 никогда не уменьшается при добавлении в модель новых объясняющих переменных. Эта проблема решается использованием скорректированного коэффициента детерминации: - R2 малопригоден для оценки качества временных рядов. Значение становится очень близким к 1, что затрудняет сравнение моделей. 2 2 1 (1 ) 1 n R R n k = − − − −
  • 15. Диагностика модели 2. Проверка значимости коэффициентов регрессии Гипотеза Для проверки этой гипотезы используется t- критерий с (n-k-1) степенями свободы - стандартная ошибка оценки гипотеза отвергается 0 : 0iH β = 1 : 0iH β ≠ ˆ i i i t SE β β β = i SEβ ,( 1)i n kt tβ α − −>
  • 16. Диагностика модели 3. Проверка значимости уравнения регрессии Гипотеза Для проверки этой гипотезы используется F- критерий с k, (n-k-1) степенями свободы - гипотеза о незначимости регрессии отвергается 0 1 2: ... 0kH β β β= = = = 1 : 0 0iH äëÿ iβ ≠ ≠ 2 2 / 1 /( 1) 1 SSR k R n k F SSE n k R k − − = = − − − , , 1k n kF Fα − −>
  • 17. Диагностика модели 4. Проверка допущений линейного регрессионного анализа. Для проверки допущений регрессии используется анализ остатков  проверка допущений о линейности и гомоскедастичности (графический анализ остатков);  проверка соответствия остатков нормальному распределению (гистограмма);  проверка избыточности переменных (толерантность)  проверка независимости (некоррелированности) остатков.  График остатков в зависимости от предикторных переменных;  Тест серий. При наличии очень большого или очень малого количества серий (групп одинакового знака) можно заподозрить независимость остатков.  Тест Дарбина-Уотсона DW ≈ 2 остатки независимы 0 1 1 ˆ ˆ ˆˆ ... k ky x xε β β β= − − − − 2 1 2 2 1 ˆ ˆ( ) ˆ n i i i n i i DW ε ε ε − = = − = ∑ ∑