Reproducibility of results in the genetics of predisposition eng 2014
Modern free biostatistical software ppt
1. Современное общедоступное ПО
для биостатистических
вычислений
Никита Николаевич Хромов-Борисов
Кафедра физики, математики и информатики
СПбГМУ им. акад. И.П. Павлова (Санкт-Петербург)
8-952-204-89-49
Nikita.KhromovBorisov@gmail.com
13. Резко выделяющиеся (выскакивающие)
значения – «выбросы»
• Выскакивающие значения можно и нужно
выявлять.
• Но отбрасывать их следует на основе
внестатистических соображений.
• Например, если записано значение для
артериального давления 1100, то
очевидно, что здесь опечатка: лишняя 1
или лишний 0.
13
31. Statistics → Univariate → Bootstrap
ID
Границы 95%-го ДИ
DD
Границы 95%-го ДИ
L
нижняя
U
верхняя
L
нижняя
U
верхняя
N 50 33
Min 15 8
Max 132 125
M 51,3 44,6 57,4 53,3 43,1 62,7
SE 3,36 2,31 4,07 5,14 3,86 6,16
Var 565,2 266,9 823,4 871,6 490,9 1253,1
SD 23,77 16,34 28,70 29,52 22,15 35,40
Me 47,5 38,5 57 46 27 55
Q1 33,75 29,5 39,75 32 26 55
Q2 62 49,25 67,75 73,5 57,5 90,5
As 1,2 0,58 2,0 0,73 0,13 1,4
Ex 1,7 -1,1 4,1 -0,11 -2,0 1,0
36. Однофакторный дисперсионный анализ
(One-way ANOVA)
• F-критерий: Pval = 0,051
• Критерии Левена (Levene's test)
для проверки равенства
дисперсий:
• На основе средних, Pval = 0,084
• На основе медиан, Pval = 0,020
• Критерий Уэлча (Welch F test) в
случае неравных дисперсий:
• Pval = 0,0020
• Q-Критерий Тьюки для попарных
множественных сравнений:
• ID DD
• II 0,051 0,025
• ID 0,96
• Критерий Крaскала-Уоллиса
(Kruskal-Wallis test)
• II ID DD
• II 0,0056 0,037
• ID 0,017 0,97
• DD 0,11 1
• Над диагональю – попарные
сравнения по
двухвыборочному критерию
Манна-Уитни
• Под диагональю – то же, но с
поправкой по Бонферрони на
множественность сравнений
37. Пример 2
ДА, F-критерий и Q-
критерий Тьюки
Критерий Краскала-Уоллиса
и критерий Манна-Уитни с
поправкой по Бонферрони и
без нее
38. Много совпадающих значений, данные надо
анализировать как счетные
-3 -2 -1 0 1 2
Нормальные порядковые статистики для медиан
88
90
92
94
96
98
Возраст
43. • Хромов-Борисов Н.Н.
• Синдром статистической
снисходительности или значение и
назначение P-значения // 16.02.2011 г.
• http://tele-conf.ru/aktualnyie-problemyi-
tehnologicheskih-izyiskaniy/sindrom-
statisticheskoy-snishoditelnosti-ili-znachenie-
i-naznachenie-p-znacheniya.html
44. • Хромов-Борисов Н.Н., Рубанович А.В.
• Основные причины неизбежной
неопределенности и низкой прогностичности в
генетике предрасположенностей //
• Cб. тезисов Российского конгресса с
международным участием «Молекулярные
основы клинической медицины – возможное и
реальное». – СПб.: Изд-во «Человек и его
здоровье», 2012. – С. 233-236.
46. Единые требования
• Редакции многих отечественных и зарубежных биомедицинских
журналов при подготовке к публикации научных статей
рекомендуют авторам руководствоваться «Едиными требованиями
к рукописям, представляемым в биомедицинские журналы».
• Требования разрабатывает Международный комитет редакторов
медицинских журналов (International Committee of Medical Journal
Editors – ICMJE).
• Эти требования регулярно пересматриваются, и последняя их
редакция датирована октябрем 2008 г.:
• http://www.icmje.org/index.html
• На русский наиболее удачно переведена редакция 2005 г.:
• http://www.mediasphera.ru/mjmp/2005/5/10.pdf
46
47. Единые требования, раздел «Статистика»
• В этих требованиях в разделе «Статистика» сказано:
• «Описывайте статистические методы настолько детально,
чтобы осведомленный читатель, имеющий доступ к
исходным данным, мог проверить сообщаемые Вами
результаты.
• По возможности, подвергайте полученные данные
количественной оценке и представляйте их с
соответствующими показателями ошибок измерения и
неопределенности или варьирования измерений (такими как
доверительные интервалы).
• Не следует полагаться исключительно на проверку
статистических гипотез, например, на использование Р-
значений, которые не содержат важную информацию о
размере эффекта».
47
48. Экология человека, 2008. - № 7. - С. 57-64.
• Обновленные требования появились недавно в журнале
«Экология человека», в которых в частности содержится
чрезвычайно важное предостережение:
• «Всегда следует помнить, что выявление
статистически значимых различий еще не означает
наличия достоверных или клинически важных
различий, а также причинно-следственных связей».
• Несмотря на рекомендацию «не полагаться
исключительно на использование P-значения», до сих
пор во многих научных публикациях оно фигурирует как
решающий показатель значимости наблюдаемых
авторами эффектов, различий, корреляций и т.п.
48
49. 49
Р-значение
• P-значение есть условная вероятность, а именно:
• Вероятность получить наблюдаемое значение tнабл. статистики
некоего критерия T и все остальные еще менее вероятные
значения этой статистики (или значения, еще более
отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна
нулевая гипотеза H0:
• Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0].
• Тут следует обратить внимание на то, что «еще менее
вероятные значения статистики критерия» не являются
«данными», мы их не наблюдаем.
• Мы их додумываем из всех возможных значений в рамках
выбранной нами (нулевой) модели.
49
51. 51
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н.
Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с.
• Выбор уровня значимости определяется
важностью биологических выводов,
которые должен сделать
экспериментатор.
• В настоящее время многие биометрики
склоняются к следующему правилу:
• а) если P > 0,05, то принимается нулевая
гипотеза;
• б) если P < 0,01, то нулевая гипотеза
отклоняется и принимается
конкурирующая;
• в) если 0,01 < P < 0,05, то результат
считается неопределенным.
51
52. 52
[0,05; 0,01] – «серая зона»
P-значение Статистическая
значимость
Шкала Мишлена
> 0,05 Незначимо
От 0,05 до 0,01 Неопределенно *
От 0,01 до 0,001 Значимо **
< 0,001 Высоко значимо ***
52
53. Не «достоверный», но «статистически значимый»
http://ru.wikipedia.org/wiki/Статистическая_значимость
• В отечественных научных работах часто
употребляется неправильный термин
«достоверность» вместо термина
«статистическая значимость».
• См.:
• Зорин Н.А. О неправильном употреблении
термина "достоверность"
в российских научных психиатрических и
общемедицинских статьях
• http://www.biometrica.tomsk.ru/let1.htm
53
54. 54
Распространенный соблазн
• Квинтэссенцию традиционных (частотнических)
заключений при проверке статистических гипотез
принято интерпретировать так:
• чем меньше P-значение, тем весомее доводы против
нулевой гипотезы H0, которые предоставляют нам
имеющиеся данные; тем больше у нас оснований
сомневаться в H0.
• Отсюда невольно (и вроде бы естественно) возникает
соблазн интерпретировать P-значение как вероятность
нулевой гипотезы.
54
55. 55
Распространенное заблуждение
• P-значение не есть вероятность нулевой гипотезы !
• Поскольку P-значение вычисляется
при условии,
• что справедлива нулевая гипотеза H0: t0 = 0
• Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0],
• то оно никак не может быть вероятностью нулевой
гипотезы:
• P{D|H0} ≠ P{H0|D}
• Здесь |T| ≥ |tнабл.| суть все значения статистики критерия
T, которые (по модулю) равны наблюдаемому значению
|tнабл.| и превышают его.
55
56. P-значение не есть вероятность нулевой
гипотезы!
• Подробнее о том, чем еще не является Р-
значение, см. энциклопедическую статью:
• http://en.wikipedia.org/wiki/P-value
• и недавнюю работу С. Гудмана, в которой
перечислена «грязная дюжина» ошибочных
интерпертаций Р-значения:
• Goodman S. A dirty dozen: Twelve P-value
misconceptions // Semin. Hematol., 2008. - Vol. 45.
– P. 135-140.
56
57. Еще раз:
• Принципиально важно понять и
запомнить, что
• P(D|H0) ≠ P(H0|D)
• т.е. что вероятность P(D|H0) получить
наблюдаемые данные D при условии, что
верна нулевая гипотеза H0, не есть
вероятность P(H0|D) нулевой гипотезы
при условии, что получены наблюдаемые
данные D.
58. Калибровка P-значений
• Как уже было сказано, Р-значение не может быть
вероятностью нулевой гипотезы P(H0).
• Но именно вероятность нулевой гипотезы, очевидно, должна
интересовать исследователя более всего.
• К сожалению традиционная частотническая статистика не
способно вычислять эту веротяность.
• Это может делать бейзовская статистика.
• Уже относительно давно статистики-бейзовцы предложили
калибровать Р-значения относительно вероятности P(H0).
• В простейшем варианте удается оценить не P(H0), а лишь ее
нижнюю границу (минимально достижимое значение) P(H0).
58
59. Калибровка p-значения
• Sellke T., Bayarri M.J., Berger J.O.
• Calibration of p Values for Testing Precise Null Hypotheses
• The American Statistician, Vol. 55, No. 1. (2001), pp. 62-71.
• При
1
0
1
1
ppe
DHP
ln
ep 1
59
60. 60
Калибровка P-значений
Held L. A nomogram for P values.
BMC Medical Research Methodology 2010, 10:21
doi:10.1186/1471-2288-10-21
http://www.biostat.uzh.ch/static/pnomogram/
64. «Цена» Р-значения
P-значение
Нижняя граница
для вероятности
нулевой гипотезы
P(H0)
Верхняя граница
для вероятности
воспроизведения
Рrepr
0,05 > 30% < 50%
0,01 > 10% < 75%
0,001 > 2% < 90%
Для наглядности значения в таблице округлены до первой значащей
цифры. Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и
1,8%.
Posavac E.J. Using p values to estimate the probability of statistically
significant replication // Understanding Statistics, 2002. – Vol. 1. – No. 2. – P.
101-112.
64
67. Прямая выгода
• Надо перестать судорожно цепляться за уровень
значимости α = 0,05 (и скоре всего и за α = 0,01) и
некритично объявлять случаи его преодоления
(Pval < 0,05) статистически значимыми (или даже
«достоверными») событиями.
• Если мы сконцентрируемся на преодолении
уровня α = 0,001, т.е. будем считать статистически
значимыми Pval < 0,001, то в итоге сможем
съэкономить массу времени и средств и реже
выявлять ложные неподтверждающиеся эффекты.
67
68. Диалог
• - Надо забыть о P < 0,05
(точнее о 0,001 < P < 0,05).
• - Тогда надо закрыть всю нашу науку.
• - Да, такую науку надо закрывать.
68
69. 69
Бейзов фактор, BF
• Бейзов фактор BF принципиально отличается от Р-
значения.
• Бейзов фактор не является вероятностью сам по себе, а
является отношением вероятностей, и он может
варьировать от нуля до бесконечности.
• Он требует знания двух гипотез, тем самым четко
указывая, что если есть свидетельства против нулевой
гипотезы, то должны существовать свидетельства и в
пользу альтернативной гипотезы.
• BF01 = P(D|H0)/ P(D|H1)
• BF10 = P(D|H1) / P(D|H0)
70. 70
Интерпретация убедительности
Бейзовых факторов, BF10 и BF01
BF10
Свидетельство в
пользу гипотезы Н1
против гипотезы Н0
>100 Убедительное
30 – 100 Очень сильное
10 – 30 Сильное
3 – 10 Умеренное
1 – 3 Пренебрежимо
малое
BF01
Свидетельство в
пользу гипотезы Н0
против гипотезы Н1
<0,01 Убедительное
0,01 – 0,03 Очень сильное
0,03 – 0,1 Сильное
0,1 – 0,3 Умеренное
0,3 - 1 Пренебрежимо
малое
72. 72
Размер эффекта
• Вопрос о практической важности (клинической
ценности) наблюдаемого
• Размера Эффекта
• является ключевым при интерпретации
результатов биомедицинских исследований,
таких как диагностические исследования,
клинические испытания и т.п.
• Размер эффекта можно выражать в реальных
единицах, а можно сделать его безразмерным –
Стандартизированным.
72
74. 74
Интерпретация стандартизированного размера эффекта dC
http://www.sportsci.org/resource/stats/
Размер эффекта, dC Градация эффекта
0 – 0,2 Ничтожный
0,2 – 0,6 Малый
0,6 – 1,2 Умеренный
1,2 – 2,0 Большой
2,0 – 4,0 Очень большой
4,0 - Исключительно большой
74
76. • Невооруженным глазом можно видеть, что в
группе здоровых матерей здоровых
новорожденных чаще наблюдаются более
низкое содержание INF-α/β, чем в группе
матерей новорожденных с ЗВУР.
• По-видимому, различия в содержании
INF-α/β в сравниваемых группах существенны и
могут представлять клиническую ценность.
76
78. Диаграммы «короб с усами» для данных об уровне индуцированной
продукции IFN-/ у здоровых матерей здоровых детей и у матерей
доношенных новорожденных с ЗВУР.
Программа Instat+ (URL: http://www.reading.ac.uk/ssc/n/n_instat.htm)
78
80. 80
Гистограммы содержания INF-α/β у здоровых матерей здоровых детей
и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 4
класса. Программа PAST (URL: http://folk.uio.no/ohammer/past/)
Здоровые ЗВУР
112 128 144 160 176
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
Численность
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
9
Численность
Сплошные кривые суть теоретически ожидаемые плотности
нормального распределения.
81. Сопоставление гистограмм для содержания INF-α/β у
здоровых матерей здоровых детей и матерей доношенных
новорожденных с ЗВУР
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
2
4
6
8
10
12
14
16
Численность
• Синие столбцы –
гистограмма для данных
в группе здоровых
матерей.
• Красные столбцы –
гистограмма для данных
в группе матерей
новорожденных с ЗВУР.
• Сплошные кривые суть
теоретически ожидаемые
плотности нормального
распределения.
81
82. • При малых объемах выборок гистограмма
является очень ненадежным средством
глазомерной проверки согласия данных с
нормальным распределением.
• Форма гистограммы может сильно изменяться в
зависимости от числа столбцов (классов) в
гистограмме.
• Поэтому более надежным средством являются
нормальные вероятностные графики.
82
83. Гистограммы содержания INF-α/β у здоровых матерей здоровых детей
и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 5
классов. Программа PAST (URL: http://folk.uio.no/ohammer/past/)
Здоровые ЗВУР
40 60 80 100 120 140 160
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
Численность
120 140 160
IFN-a/b, МЕ/мл
0
2
4
6
Численность
83
89. 89
Проверка согласия с нормальным (гауссовым)
распределением для данных о содержании IFN-/ у
матерей здоровых детей и детей с ЗВУР
Статистический критерий
Наблюдаемые Р-значения, Pval
Здоровые ЗВУР
Андерсона-Дарлинга 0,25 0,15
Шапиро-Уилка 0,19 0,21
Коэффициента асимметрии 0,059 0,46
Коэффициент эксцесса 0,23 0,34
Жарка-Бера 0,42 0,14
Гири 0.17 0,26
Д'Агостино 0,068 0,45
Эппса-Палли 0,17 0,048
Все Р-значения превышают пороговое значение 0,05 или почти
равны ему. Следовательно у нас почти нет оснований сомневаться в
гипотезе о согласии с нормальным распределением для
анализируемых данных в обеих группах .
90. Описательные статистики с 95%-и ДИ, вычисленными методом бутстрепа
Программа PAST http://folk.uio.no/ohammer/past/
Показатель Символы Здоровые ЗВУР
Объем выборки N, n 16 20
Среднее, МЕ/мл M, 71,089,5106,0 133,8141,6149,5
Дисперсия s2, D, V, Var 449,71330,12262,4 167,8335,7510,0
Стандартное отклонение, МЕ/мл s, SD 21,2136,4747,56 12,9618,3222,58
Коэффициент вариации CV 0,290,410,69 0,100,130,18
Стандартная ошибка (среднего),
МЕ/мл
m, SE 5,309,1211,89 2,904,105,05
Медиана, МЕ/мл Me 7789108 134142153
Псевдомедиана (медиана
Ходжеса-Лемана)
MeHL 69,586,5108 133141,5150
Коэффициент асимметрии A, As 0,100,882,44 -0,810,0480,77
Коэффициент эксцесса E, Ex -2,80,803,0 -1,95-0,400,68
90
92. Перекрывание-неперекрывание ДИ
• Перекрывание или неперекрывание ДИ для
оцениваемых средних двух совокупностей
может служить простым критерием
статистической значимости наблюдаемых
различий.
• В данном случае можно видеть, что 95%-е ДИ
почти для всех основных показателей в
сравниваемых группах не перекрываются, т.е.
почти всех их можно признать статистически
значимо различающимися на уровне
значимости α = 0,05 (= 1 – 0,95).
92
93. 93
Результаты статистического сравнения групп матерей здоровых детей и
детей с ЗВУР, (1 - α) = 0,99. Программа ESCI JSMS.xls
http://www.latrobe.edu.au/psy/esci/
• В данном примере
абсолютный размер эффекта
ES есть попросту разность
средних:
• ES = 26,652,177,6 у.е.
• Стандартизированный размер
эффекта по Коуэну:
• dC = 1,87
• Его можно интерпретировать
как сильный (большой).
94. Размеры эффекта с 95%-и ДИ
Размер эффекта Символы Наблюдаемые значения
Разность средних, (МЕ/мл) Δ, SE 33,152,171,1
Стандартизированный размер
эффекта по Коуэну dC 0,91,92,7
Непараметрический
стандартизированный размер
эффекта с 95%-м ДИ δ 0,81,72,5
Площадь под ROC-кривой
AUC 0,780,891,00
Непараметрическая площадь
под ROC-кривой
θ
0,720,890,96
94
95. • В нашем случае показатели AUC и θ
• равны
• AUC = 0,780,891,00
• и
• θ = 0,720,890,96
• Т.е. с вероятностью 95% эффективность
различения сравниваемых групп лежит в
пределах от удовлетворительной до
отличной. 95
96. Общепринятые словесные
интерпретации для градаций AUC
Интервалы значений AUC
Способность
диагностического теста
распознавать наличие или
отсутствие болезни
0,9 – 1,0 Отличная
0,8 – 0,9 Хорошая
0,7 – 0,8 Удовлетворительная
0,6 – 0,7 Посредственная
0,5 – 0,6 Неудовлетворительная
< 0,5 Абсурдная
97. 97
Графическое представление результатов статистического сравнения
групп матерей здоровых детей и детей с ЗВУР, 1-α = 0,99. Программа
ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/
80
70
60
50
40
30
20
10
0
-10
-20
-30
-40
-50
0
20
40
60
80
100
120
140
160
180
200
Здоровые СЗРП Difference
Цитокин(у.е.)
• 99%-й ДИ для разности средних не
накрывает значение 0.
• Следовательно оцениваемая
разность статистически значимо
отличается от 0 на уровне
значимости 0,01.
• Соответственно мы можем взять
на себя смелость отклонить
нулевую гипотезу о равенстве
средних и принять
альтернативную.
• Вывод: Содержание IFN-/ у
матерей новорожденных с ЗВУР
статистически значимо выше, чем
у матерей здоровых детей на
уровне α = 0,01.
104. 104
Повторение – мать познания
• Повторение составляет суть науки:
• ученый должен всегда задумываться о том, что
произойдет, если он или другой ученый повторят его
эксперимент (Guttman, 1977).
• Ученые разработали метод определения надежности
(валидности) своих результатов.
• Они научились задавать вопрос: воспроизводимы ли
они? (Scherr, 1983).
104
106. 106
Воспроизводимость и предсказания абсолютного размера эффекта для
групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm
106
108. Воспроизводимость и предсказания размеров эффектов ES и dC и
P-значения при повторении изучения содержания INF-α/β у матерей
здоровых новорожденных и новорожденных с ЗВУР
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,05)
Psrep 0,99
95%-е ПИ для P-значения Pval [3∙10-11; 0,010]
95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9]
95%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [0,79; 3,0]
108
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% размер эффекта dC может получиться от
умеренного до очень большого.
109. Принцип Правдоподобия
• Наблюдаемое значение бейзова фактора BF10 =
625 свидетельствует о том, что в 625 раз более
правдоподобно получить наблюдаемые
различия (размеры эффекта) при условии, что
верна альтернативная гипотеза H1, чем при
условии, что верна нулевая гипотеза H0.
• Другими словами, апостериорные шансы в
пользу H1 против H0 в 625 раз превышают их
априорные шансы.
109
110. Вероятности гипотез
• Апостериорная вероятность альтернативной гипотезы H1
можно вычислить по формуле
• P(H1|D) = BF10/(1 + BF10)
• в нашем случае P(H1|D) = 0,998
• Апостериорная вероятность нулевой гипотезы H0 можно
вычислить как
• P(H0|D) = 1 - P(H1)
• В нашем случае P(H0|D) = 0,002.
• Непременное условие: a priori вероятности обеих гипотез
предполагаются равными:
• P(H1) = P(H0) = 1/2
110
111. 111
Диагностика
Есть (D+) Нет (D-)
Положительный
(T+)
Чувствительность
Se = P(T+|D+)
X
Ложный «позитив»
coSp = (1 – Sp) =
P(T+|D-)
Отрицательный
(T-)
X
Ложный «негатив»
coSe = (1 – Se) =
P(T-|D+)
Специфичность
Sp = P(T-|D-)
Тест
Болезнь
111
112. 112
Теория Неймана-Пирсона: Ошибки I и II рода, уровень
значимости α и мощность критерия Power = (1 – β)
Верна H1: ES 0 Верна Ho: ES = 0
H0 отклонена
(принята H1)
Верное решение
Мощность (1 - )
X
Ошибка I рода с
вероятностью
H0 не отклонена
X
Ошибка II рода с
вероятностью
Верное решение
(1 – α)
Критерий
Действитель-
ность
112
115. Ошибки I и II рода
Результат
применения
статистического
критерия
Верная гипотеза
H1 H0
Решено принять
H1 и отклонить H0
H1 верно принята
H0 верно отклонена
Вероятность (1 – β) –
мощность
H1 неверно принята
H0 неверно отклонена,
(Ошибка первого рода,
ложная тревога)
Вероятность α –
уровень значимости
Решено принять H0
и отклонить H1
H0 неверно принята
H1 неверно отклонена,
(Ошибка второго рода,
недостаточная
бдительность)
Вероятность β
H0 верно принята,
H1 верно отклонена
Вероятность (1 – α)
115
116. 116
Мощность статистического критерия
• Мощность статистического критерия есть
вероятность того, что критерий правильно отклонит
ложную нулевую гипотезу (правильно примет
верную альтернативную гипотезу).
• Традиционно ее обозначают (1 – β), где β -
вероятность ошибки II рода.
• Чем больше мощность критерия, тем меньше
вероятность совершить ошибку II рода.
• Ее можно интерпретировать как чувствительность
статистического критерия к отклонениям от условий
нулевой гипотезы.
116
117. 117
Анализ мощности a priori или post-hoc
• Анализ мощности можно проводить либо a priori, т.е. до
получения данных, либо post hoc, т.е. после получения
данных.
• A priori анализ мощности обычно используется для
оценки объема выборки N, необходимого для
достижения приемлемой мощности.
• Post hoc анализ мощности используется для оценки
достигнутой мощности.
• В этом случае предполагается, что наблюдаемый эффект
и его варьирование равны истинным значениям
параметров.
117
118. 118
Оценка достигнутой мощности (post hoc). Программа G*Power
http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/
• Достигнутая
мощность
проведенного
исследования
составила
• (1 – β) = 0,9987
118
121. 121
Оценка необходимых объемов выборок (a priori)
121
• Для достижения
приемлемой
статистической
мощности
• (1 – β) = 0,95
• достаточно было
иметь группы по 12
человек.
126. 126
Повторение – мать познания
• Повторение составляет суть науки:
• ученый должен всегда задумываться о том, что
произойдет, если он или другой ученый повторят его
эксперимент (Guttman, 1977).
• Ученые разработали метод определения надежности
(валидности) своих результатов.
• Они научились задавать вопрос: воспроизводимы ли
они? (Scherr, 1983).
126
128. Воспроизводимость и предсказания размеров эффектов ES и dC и P-
значения при повторении изучения содержания INF-α/β у матерей
здоровых новорожденных и новорожденных с ЗВУР
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,05)
Psrep 0,99
95%-е ПИ для P-значения Pval [3∙10-11; 0,010]
95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9]
95%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [0,79; 3,0]
128
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% размер эффекта dC может получиться от
умеренного до очень большого.
129. 129
Воспроизводимость и предсказания абсолютного размера эффекта для
групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm
129
135. Параметрический однофакторный дисперсионный анализ
(ANOVA) и попарные сравнения для данных от восьми
хирургов
Все полученные P-значения больше уровня значимости α = 0,05 (P > 0,05).
У нас нет оснований сомневаться в отсутствии различий между данными от
всех хирургов.
138. Совмещение гистограмм для двух групп операций с
направителем и без него
10 20 30 40 50 60
Angle
0
20
40
60
80
100
Frequency
139. Проверка согласия с нормальным (гауссовым)
распределением
Группа С направителем Без направителя
Объемы выборок, N 390 300
Критерий P-значения
Шапиро-Уилка 0,10 0,085
Жарка-Бера 0,0098 0,042
Монте-Карло 0,015 0,041
Чем меньше P-значение, тем больше основание сомневаться в
согласии наших данных с нормальным распределением.
Пороговым значением принято считать уровень значимости
α < 0,05.
140. Гистограмма и нормальный вероятностный график
для группы операций с направителем
10 20 30 40 50
Angle
0
20
40
60
80
100
Frequency
-3 -2 -1 0 1 2
Normal order statistic medians
10
20
30
40
50
Angle
141. Доверительные (ДИ) и предсказательные (ПИ) интервалы
для группы операций с направителем
142. Гистограмма и нормальный вероятностный график для
группы операций без направителя
20 30 40 50 60
Angle
0
20
40
60
Frequency
-3 -2 -1 0 1 2
Normal order statistic medians
20
30
40
50
60
Angle
143. Доверительные (ДИ) и предсказательные (ПИ) интервалы
для группы операций без направителя
146. Сравнение распределений для двух групп операций с
направителем и без него с помощью непараметрических
критериев Манна-Уитни и Коновера
Критерий Манна-Уитни
Статистика, P-значение
(двустороннее)
66019 0,0038
Критерий Коновера
Статистика, P-значение
(двустороннее)
46738584 0,60
Программа PAST
http://folk.uio.no/ohammer/past/
Программа AtteStat
http://attestatsoft.narod.ru/
147.
148. Визуализация результатов сравнения двух групп операций
с направителем и без него
20
18
16
14
12
10
8
6
4
2
0
-2
-4
-6
-8
-10
-12
-14
-16
-18
-20
0
10
20
30
40
50
60
70
Guide NoGuide Difference
Angle(Grade)
• 99%-й ДИ для разности средних не
накрывает значение 0.
• Следовательно оцениваемая
разность статистически значимо
отличается от 0 на уровне
значимости 0,01.
• Соответственно мы можем взять
на себя смелость отклонить
нулевую гипотезу о равенстве
средних и принять
альтернативную.
• Среднее в группе операций без
направителя статистически
значимо превышает среднее в
группе с направителем
150. Программа Bayes Factor Calculator
http://pcl.missouri.edu/bayesfactor
• BF01 = 0,065
• BF10 = 1/BF01 = 15,3
• Примерно в 15 раз более
правдоподобно получить
наблюдаемое различие при
условии, что верна нулевая
гипотеза H0, чем при условии,
что справедлива
альтернативная гипотеза H1.
• Такое свидетельство в пользу
H1 против H0 можно
интерпретировать как сильное.
151. Размеры эффекта с 99%-и ДИ
Размер эффекта Симв
олы
Наблюдаемые значения
Разность средних, (МЕ/мл)
Δ, SE 0,351,52,72
Стандартизированный размер
эффекта по Коуэну dC 0,260,260,87
Непараметрический
стандартизированный размер
эффекта с 95%-м ДИ δ 0,070,230,38
Площадь под ROC-кривой
AUC 0,520,56,0,61
Непараметрическая площадь
под ROC-кривой
θ
0,520,560,61
151
152. Непараметрическая оценка двух стандартизированных
размеров эффекта при сравнении двух групп операций с
направителем и без него
10 20 30 40 50 60
Angle
0
20
40
60
80
100
Frequency
155. Минимальные объемы выборок, необходимые для достижения
мощности (1 – β) = 0,95 при уровне значимости α = 0,01:
n1 = 477 и n2 = 619
156. 995-е предсказательные интервалы (ПИ) и вероятности
воспроизведения (Psrep и др.) для размера эффекта (разности средних, Δ
или ES) в исходных единицах измерения
157. Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для стандартизированного размера эффекта по Коуэну, dC
158. Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для размера эффекта (Δ или ES) при 10-кратном увеличении
объемов выборок
159. Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для размера эффекта по Коуэну (dC) при 10-кратном
увеличении объемов выборок
160. Воспроизводимость и предсказания размеров эффектов ES и dC и P-
значения при повторении изучения углов с направителем и без него
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,01)
Psrep 0,71
99%-е ПИ для P-значения Pval [10-12; 0,62]
99%-е ПИ для разности средних (град.) ES, Δ [-0,14; 3,2]
99%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [-0,02; 5,4]
160
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% оба размера эффекта ES и dC могут получиться
статистически незначимыми.
163. 163
Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000)
• Исследования должны быть как
минимум двухэтапными.
• Первый этап – разведочное
(пилотное, порождающее
гипотезы) исследование.
• Второй этап – проверочное
(подтверждающее или
опровергающее) исследование.
• Оно планируется на основе
результатов разведочного
исследования.
163
170. Распределение Пуассона
• Распределение числа событий, происходящих в
фиксированном временнóм или
пространственном интервале (объеме),
• при условии,
• что эти события независимы и что
• вероятность совпадения (попадания в одну
точку пространства) или одновременного
наступления двух и более событий
пренебрежимо мала.
171. Распределение Пуассона
• P(k) = e-λλk/k!
• e = 2,71828 – основание натурального логарифма
• k! = 1·2·…(k-1)·k – факториал
• Характеристическое свойство раcпределения
Пуассона – его математическое ожидание
(среднее значение) и дисперсия равны друг
другу:
• Ek* = Dk* = λ,
• т.е. это распределение имеет всего лишь один
параметр λ.
175. Распределения числа колоний дрожжей на десяти чашках Петри,
порожденные пуассонером, и их сравнение с распределением числа
колоний, полученных традиционным методом посева.
177. http://ihg.gsf.de/cgi-bin/hw/hwa1.pl
Case-control studies. Tests for deviation from Hardy-Weinberg equilibrium
and tests for association.
SNP
Tests for deviation from
Hardy-Weinberg
equilibrium
Tests for association (C.I.: 95% confidence interval)
Controls Cases
allele freq.
difference
heterozygous homozygous allele positivity
Armitage's
trend test
ACE
n11 = 1317
(1327.8)
n12 = 2980
(2958.4)
n22 = 1637
(1647.8)
f_a1 = 0.47
+/-0.005
F = -0.007
p = 0.57
(Pearson)
p = 0.57
(Llr)
p = inf
(Exact)
n11 = 1056
(1010.7)
n12 = 2214
(2304.6)
n22 = 1359
(1313.7)
f_a1 = 0.47
+/-0.005
F = 0.04
p = 0.0075
(Pearson)
p = 0.0075
(Llr)
p = inf
(Exact)
Risk allele 2
[1]<->[2] [11]<->[12] [11+]<->[22] [11]<->[12+22]
common
odds ratio
OR = 1.0
C.I. = [0.97-1.1]
p = 0.40 (P)
OR = 0.9
C.I. = [0.8-1.0]
p = 0.13
OR = 1.0
C.I. = [0.9-1.2]
p = 0.53
OR = 1.0
C.I. = [0.9-1.1]
p = 0.45
OR = 1.0
p = 0.41
Risk allele 1
[2]<->[1] [22]<->[12] [22]<->[11] [11+12]<->[22]
common
odds ratio
OR = 1.0
C.I. = 0.9-1.0]
p = 0.40 (P)
OR = 0.9
C.I. = [0.8-1.0]
p = 0.016
OR = 1.0
C.I. = [0.9-1.1]
p = 0.53
OR = 0.9
C.I. = [0.8-1.0]
p = 0.045
OR = 1.0
p = 0.41
177