Простая линейная регрессия в системе R

Тема 8
Сергей Мастицкий
БГУ, Минск, май 2014

 Коэффициент корреляции отражает
степень связи между переменными
 Но мы не можем его использовать для
предсказания значений одной
переменной по значениям другой
Author: Sergey Mastitsky

8.1. Линейная регрессия:
вспоминаем теорию

 yi – зависимая переменная
 0 – свободный член уравнения
 1 – регрессионный коэффициент
 xi – предиктор (= “независимая переменная”)
 εi – остатки, независимые и
iii xy   10
),0( N

Это тоже линейная регрессионная модель,
хотя и описывает кривую:
Объяснение:
iiii xxy   2
21
iiii
ii
cxy
cxесли
 

21
2

 Параметры 0, 1 и  оцениваются
методом наименьших квадратов

8.2. Подгонка линейных
моделей в R
Подробнее см.:
http://r-analytics.blogspot.de/2014/03/blog-post.html
http://r-analytics.blogspot.de/2014/05/blog-post_18.html

 Freedman et al. (2001)*
опубликовали данные по
расстоянию до 24
галактик (Мегапарсек),
измеренному
Телескопом Хаббла
 Приведены также
скорости удаления этих
галактик (по эффекту
Доплера, км/с)
*Freedman WL et al. (2001) The
Astrophysical Journal 553: 47-72 hubblesite.org

5 10 15 20
50010001500
Distance (Mpc)
Velocity(km/sec)

 Согласно ТБВ, Вселенная равномерно
расширяется по закону Хаббла:
где y – относительная скорость расхождения
любых двух галактик, находящихся на
расстоянии x друг от друга
  -1 – неизвестный параметр, который примерно
равен возрасту Вселенной
 Мы можем использовать данные Friedman et al.
(2001) для оценки : iii xy  
xy 

 Используйте команду:
> setwd("~/Introductory R
Course/R_Course_Datasets")
 Или в RStudio:
Session -> Set Working Directory -> Choose
Directory -> …Рабочий стол -> папка
“Introductory R Course” -> папка
“R_Course_Datasets”

> hub.data <- read.table(
file = "hubble_data.txt",
header = TRUE,
sep = "t")
> head(hub.data)

> hub.mod <- lm(y ~ x - 1,
data = hub.data)
Объект с результатами
анализа
Формула модели:
“ ~ “ - “тилда”
“ -1” значит отсутствие
свободного члена
Имя таблицы с данными

> summary(hub.mod)

 Показывает, о какой модели идет речь
 Полезно при построении большого
числа моделей

 Сводка о распределении остатков
 Позволяет выполнить экспресс-оценку
их распределения
 Так, Median должна быть ~0, а Max и
Min должны быть примерно равны

 Регрессионный коэффициент (76.581), его
станд. ошибка и P-значение соответствующего
t-теста
 * - индикатор уровня значимости
 Эти «звездочки» можно отключить командой
options(show.signif.stars = FALSE)

 Стандартное отклонение остатков, 

 Multiple R-squared (= коэффициент
детерминации)
 Adjusted R-squared скорректированный
Multiple R-squared с учетом объема
выборки и числа параметров модели

 F-тест гипотезы о том, что все регрессионные
коэффициенты в действительности равны
нулю
 Показатель того, насколько модель хороша в
целом

 В целом, модель высоко значима
(P < 0.001, F-тест)
 Расстояние до галактики является
хорошим предиктором скорости ее
удаления (P < 0.001, t-тест)
 Полученная модель:
xy 581.76

8.3. Проверка адекватности
модели

 Низкие P-значения не гарантируют, что
модель адекватно описывает изучаемый
процесс
 После построения модели необходимо
проверить ряд допущений
 В частности:
 характер распределения остатков
 наличие «выбросов»

# resid() извлекает остатки из модельного
объекта:
> resid(hub.mod)
5 10 20
5001500
x
y

5 10 20
5001500
x
y
# fitted() извлекает предсказанные
моделью значения y:
> fitted(hub.mod)

> plot(resid(hub.mod) ~
fitted(hub.mod),
xlab = "fitted values",
ylab = "residuals")
Разброс остатков
возрастает – плохие
новости!
500 1000 1500
-600-200200600
fitted values
residuals

> qqnorm(resid(hub.mod))
> qqline(resid(hub.mod))
-2 -1 0 1 2
-600-200200600 Normal Q-Q Plot
Theoretical Quantiles
SampleQuantiles
3
15

 Диагностические графики показывают,
что наблюдения #3 и #15, по-видимому,
оказывают слишком большое влияние
на оценки параметров модели. Удалим
эти наблюдения и подгоним новую
модель:
> hub.mod1 <- lm(y ~ x - 1,
data = hub.data[-c(3, 15), ])

> summary(hub.mod1)

-2 -1 0 1 2
-300-100100
Normal Q-Q Plot
Theoretical Quantiles
SampleQuantiles
500 1000 1500
-300-100100
fitted(hub.mod1)
resid(hub.mod1)

5 10 15 20
50010001500
Distance (Mpc)
Velocity(km/sec)
 Один Мегапарсек -
3.091019 км => разделим 
на это число, чтобы
получить постоянную
Хаббла (сек-1):
> hub.const <-
coef(hub.mod1)/3.09e19
# возраст в секундах:
> age <- 1/hub.const
# возраст в годах:
> age/(60^2*24*365)
12614854757
 Ответ: ~ 13 млрд. лет

 Поскольку полученная оценка возраста
Вселенной является выборочной, существует
неопределенность в отношении того, насколько
она точна
 Эту неопределенность выражают при помощи
доверительного интервала
 О том, как рассчитать доверительные интервалы
для параметров регрессионной модели, см. здесь:

Простая линейная регрессия в системе R

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Простая линейная регрессия в системе R

Similar to Простая линейная регрессия в системе R (20)

More from Sergey Mastitsky

More from Sergey Mastitsky (10)

Простая линейная регрессия в системе R