SlideShare a Scribd company logo
Тема 10
Сергей Мастицкий
БГУ, Минск, май 2014
 Регрессионный анализ, включающий как
количественные, так и качественные
предикторы (факторы), называется
ковариционным анализом (ANCOVA)
 Используется все та же функция lm(), но
имеются некоторые особенности
касательно интерпретации результатов
Author: Sergey Mastitsky
10.1. Графическое
представление данных,
подпадающих по случай
ANCOVA
> library(ISwR)
> data(hellung)
> head(hellung)
> help("hellung")
 Два типа культур: с глюкозой
(1) и без глюкозы (2) в
питательной среде
 Измерены концентрация
(conc) и диаметр (diameter)
 Оказывает ли наличие
глюкозы влияние на связь
diameter~conc?
Author: Sergey Mastitsky
> summary(hellung)
Распознана R как
количественная
переменная – не хорошо
Резко асимметричное
распределение
Author: Sergey Mastitsky
> hellung$glucose <-
factor(hellung$glucose, labels =
c("Yes", "No"))
> summary(hellung)
Author: Sergey Mastitsky
> attach(hellung)
> plot(conc, diameter,
pch = as.numeric(glucose))
0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05
19212325
conc
diameter
Author: Sergey Mastitsky
> legend(locator(), legend =
c("glucose","no glucose"),
pch = 1:2)
0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05
19212325
conc
diameter
glucose
no glucose
Author: Sergey Mastitsky
 Поскольку имеется выраженная
экспоненциальная зависимость
(обратная), имеет смысл log-
трансформировать данные (также
приводит к ~нормальному
распределению):
> plot(conc, diameter,
pch = as.numeric(glucose),
log = "xy")
Author: Sergey Mastitsky
1e+04 2e+04 5e+04 1e+05 2e+05 5e+05
1920212223242526
conc
diameter
Author: Sergey Mastitsky
> tethym.gluc <-
hellung[glucose == "Yes", ]
> tethym.nogluc <-
hellung[glucose == "No", ]
> lm.nogluc <- lm(log10(diameter)~
log10(conc), data = tethym.nogluc)
> lm.gluc <- lm(log10(diameter)~
log10(conc), data = tethym.gluc)
Author: Sergey Mastitsky
> abline(lm.nogluc)
> abline(lm.gluc)
1e+04 2e+04 5e+04 1e+05 2e+05 5e+05
192021222325
conc
diameter
Author: Sergey Mastitsky
 Линии примерно
параллельны, но не
«идеально»
 Различаются линии по
углам наклона
(=степени зависимости
размера клеток от
плотности популяции)?
 Различаются ли группы
по среднему размеру
клеток?
1e+04 5e+04 2e+05
1920212223242526
conc
diameter
Author: Sergey Mastitsky
10.2. Реализация ANCOVA в R
> AN1 <- lm(log10(diameter) ~
log10(conc)*glucose)
> summary(AN1)
Author: Sergey Mastitsky
При концентрации C, ожидаемое среднее значение
log-диаметра клеток будет суммой:
 Свободного члена уравнения (Intercept), 1.6313
 -0.0532log10C
 0.0034, но только в культуре без глюкозы
 -0.0065log10C, но только в культуре без глюкозы
Author: Sergey Mastitsky
Свободный член и
регрессионный
коэффициент для
культуры с глюкозой
Разница между
группами по
свободному члену и
регрессионому
коэффициенту
Author: Sergey Mastitsky
 Так, для культуры с глюкозой:
log10D = 1.6313 – 0.0532log10C
 Для культуры без глюкозы:
log10D = (1.6313+0.0034) – (0.0532+0.0064)log10C
Author: Sergey Mastitsky
Регрессионный коэффициент в культуре
без глюкозы статистически не отличается
от коэффициента в культуре с глюкозой =>
линии параллельны
Author: Sergey Mastitsky
> AN2 <- lm(log10(diameter) ~
log10(conc) + glucose)
> summary(AN2)
Author: Sergey Mastitsky
 Культура с глюкозой:
log10D = 1.6421 – 0.0554log10C
 Культура без глюкозы:
log10D = (1.6421-0.0282) – 0.0554log10C,
Таким образом, клетки в культуре без глюкозы в
среднем на 6.3% мельче (10-0.0282 = 0.937)
Author: Sergey Mastitsky
 ANCOVA предполагает одинаковые групповые
дисперсии
 Это условие можно проверить так:
> var.test(lm.gluc, lm.nogluc)
Author: Sergey Mastitsky
> anova(AN2)
Author: Sergey Mastitsky

More Related Content

More from Sergey Mastitsky

Karataev_et_al._2003_Conchophthirus_emergenece.PDF
Karataev_et_al._2003_Conchophthirus_emergenece.PDFKarataev_et_al._2003_Conchophthirus_emergenece.PDF
Karataev_et_al._2003_Conchophthirus_emergenece.PDFSergey Mastitsky
 
AI_2007_2_1_Mastitsky_Makarevich
AI_2007_2_1_Mastitsky_MakarevichAI_2007_2_1_Mastitsky_Makarevich
AI_2007_2_1_Mastitsky_MakarevichSergey Mastitsky
 
Karatayev et al 2008 Aquatic invasions in Belarus
Karatayev et al 2008 Aquatic invasions in BelarusKaratayev et al 2008 Aquatic invasions in Belarus
Karatayev et al 2008 Aquatic invasions in BelarusSergey Mastitsky
 
Дисперсионный анализ (ANOVA) в системе R
Дисперсионный анализ (ANOVA) в системе RДисперсионный анализ (ANOVA) в системе R
Дисперсионный анализ (ANOVA) в системе R
Sergey Mastitsky
 
Простая линейная регрессия в системе R
Простая линейная регрессия в системе RПростая линейная регрессия в системе R
Простая линейная регрессия в системе R
Sergey Mastitsky
 
Реализация классических статистических тестов в системе R
Реализация классических статистических тестов в системе RРеализация классических статистических тестов в системе R
Реализация классических статистических тестов в системе R
Sergey Mastitsky
 
Разведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе RРазведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе R
Sergey Mastitsky
 
Основы языка R
Основы языка RОсновы языка R
Основы языка R
Sergey Mastitsky
 
Инсталляция системы статистических вычислений R
Инсталляция системы статистических вычислений RИнсталляция системы статистических вычислений R
Инсталляция системы статистических вычислений R
Sergey Mastitsky
 

More from Sergey Mastitsky (11)

Karataev_et_al._2003_Conchophthirus_emergenece.PDF
Karataev_et_al._2003_Conchophthirus_emergenece.PDFKarataev_et_al._2003_Conchophthirus_emergenece.PDF
Karataev_et_al._2003_Conchophthirus_emergenece.PDF
 
AI_2007_2_1_Mastitsky_Makarevich
AI_2007_2_1_Mastitsky_MakarevichAI_2007_2_1_Mastitsky_Makarevich
AI_2007_2_1_Mastitsky_Makarevich
 
mastitsky_article
mastitsky_articlemastitsky_article
mastitsky_article
 
Karatayev et al 2008 Aquatic invasions in Belarus
Karatayev et al 2008 Aquatic invasions in BelarusKaratayev et al 2008 Aquatic invasions in Belarus
Karatayev et al 2008 Aquatic invasions in Belarus
 
AI_2012_1_Claudi_etal
AI_2012_1_Claudi_etalAI_2012_1_Claudi_etal
AI_2012_1_Claudi_etal
 
Дисперсионный анализ (ANOVA) в системе R
Дисперсионный анализ (ANOVA) в системе RДисперсионный анализ (ANOVA) в системе R
Дисперсионный анализ (ANOVA) в системе R
 
Простая линейная регрессия в системе R
Простая линейная регрессия в системе RПростая линейная регрессия в системе R
Простая линейная регрессия в системе R
 
Реализация классических статистических тестов в системе R
Реализация классических статистических тестов в системе RРеализация классических статистических тестов в системе R
Реализация классических статистических тестов в системе R
 
Разведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе RРазведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе R
 
Основы языка R
Основы языка RОсновы языка R
Основы языка R
 
Инсталляция системы статистических вычислений R
Инсталляция системы статистических вычислений RИнсталляция системы статистических вычислений R
Инсталляция системы статистических вычислений R
 

Ковариационный анализ (ANСOVA) в системе R

  • 2.  Регрессионный анализ, включающий как количественные, так и качественные предикторы (факторы), называется ковариционным анализом (ANCOVA)  Используется все та же функция lm(), но имеются некоторые особенности касательно интерпретации результатов Author: Sergey Mastitsky
  • 4. > library(ISwR) > data(hellung) > head(hellung) > help("hellung")  Два типа культур: с глюкозой (1) и без глюкозы (2) в питательной среде  Измерены концентрация (conc) и диаметр (diameter)  Оказывает ли наличие глюкозы влияние на связь diameter~conc? Author: Sergey Mastitsky
  • 5. > summary(hellung) Распознана R как количественная переменная – не хорошо Резко асимметричное распределение Author: Sergey Mastitsky
  • 6. > hellung$glucose <- factor(hellung$glucose, labels = c("Yes", "No")) > summary(hellung) Author: Sergey Mastitsky
  • 7. > attach(hellung) > plot(conc, diameter, pch = as.numeric(glucose)) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05 19212325 conc diameter Author: Sergey Mastitsky
  • 8. > legend(locator(), legend = c("glucose","no glucose"), pch = 1:2) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05 19212325 conc diameter glucose no glucose Author: Sergey Mastitsky
  • 9.  Поскольку имеется выраженная экспоненциальная зависимость (обратная), имеет смысл log- трансформировать данные (также приводит к ~нормальному распределению): > plot(conc, diameter, pch = as.numeric(glucose), log = "xy") Author: Sergey Mastitsky
  • 10. 1e+04 2e+04 5e+04 1e+05 2e+05 5e+05 1920212223242526 conc diameter Author: Sergey Mastitsky
  • 11. > tethym.gluc <- hellung[glucose == "Yes", ] > tethym.nogluc <- hellung[glucose == "No", ] > lm.nogluc <- lm(log10(diameter)~ log10(conc), data = tethym.nogluc) > lm.gluc <- lm(log10(diameter)~ log10(conc), data = tethym.gluc) Author: Sergey Mastitsky
  • 12. > abline(lm.nogluc) > abline(lm.gluc) 1e+04 2e+04 5e+04 1e+05 2e+05 5e+05 192021222325 conc diameter Author: Sergey Mastitsky
  • 13.  Линии примерно параллельны, но не «идеально»  Различаются линии по углам наклона (=степени зависимости размера клеток от плотности популяции)?  Различаются ли группы по среднему размеру клеток? 1e+04 5e+04 2e+05 1920212223242526 conc diameter Author: Sergey Mastitsky
  • 15. > AN1 <- lm(log10(diameter) ~ log10(conc)*glucose) > summary(AN1) Author: Sergey Mastitsky
  • 16. При концентрации C, ожидаемое среднее значение log-диаметра клеток будет суммой:  Свободного члена уравнения (Intercept), 1.6313  -0.0532log10C  0.0034, но только в культуре без глюкозы  -0.0065log10C, но только в культуре без глюкозы Author: Sergey Mastitsky
  • 17. Свободный член и регрессионный коэффициент для культуры с глюкозой Разница между группами по свободному члену и регрессионому коэффициенту Author: Sergey Mastitsky
  • 18.  Так, для культуры с глюкозой: log10D = 1.6313 – 0.0532log10C  Для культуры без глюкозы: log10D = (1.6313+0.0034) – (0.0532+0.0064)log10C Author: Sergey Mastitsky
  • 19. Регрессионный коэффициент в культуре без глюкозы статистически не отличается от коэффициента в культуре с глюкозой => линии параллельны Author: Sergey Mastitsky
  • 20. > AN2 <- lm(log10(diameter) ~ log10(conc) + glucose) > summary(AN2) Author: Sergey Mastitsky
  • 21.  Культура с глюкозой: log10D = 1.6421 – 0.0554log10C  Культура без глюкозы: log10D = (1.6421-0.0282) – 0.0554log10C, Таким образом, клетки в культуре без глюкозы в среднем на 6.3% мельче (10-0.0282 = 0.937) Author: Sergey Mastitsky
  • 22.  ANCOVA предполагает одинаковые групповые дисперсии  Это условие можно проверить так: > var.test(lm.gluc, lm.nogluc) Author: Sergey Mastitsky