SlideShare a Scribd company logo
1 of 178
Download to read offline
Современное общедоступное ПО
для биостатистических
вычислений
Никита Николаевич Хромов-Борисов
Кафедра физики, математики и информатики
СПбГМУ им. акад. И.П. Павлова (Санкт-Петербург)
8-952-204-89-49
Nikita.KhromovBorisov@gmail.com
Визуализация исходных данных и
результатов их статистического
описания
Программа Instat+
http://www.reading.ac.uk/ssc/n/software/instat/337/Instat+_v3.37.msi
3
Jeffery S., Saggar Malik A.K., CrosbY A., BlanD M., Eastwood J.B., Amoah-Danquah J., Acheampong J.W., Plange-Rhule J.
A dominant relationship between the ACE D allele and serum ACE levels in a Ghanaian population
J. Med. Genet. 1999;36:869-870
4
Table 1 Serum ACE in U/l for each ACE genotype
ACE genotype
II ID DD
24 26 48 82 60 50 21 23
27 48 62 42 56 20 43 35
42 31 47 74 57 37 33 8
42 15 35 45 57 24 46 60
19 31 25 25 24 53 89 31
36 43 55 98 62 83 70
25 44 28 62 27 50 125
26 61 52 82 21 20 69
33 52 56 71 21 65
74 62 68 33 35 77
32 38 97 34 90 65
44 37 32 37 117 82
30 39 36 35 100 38
29 132 103 77 41 38
Mean
(SD)
34.5 (13.6) 51.3 (23.8) 53.3 (29.5)
Median
(range)
31 (19-74) 47.5 (15-132) 46 (8-125)
Graphics → Boxplot Data to be plotted, Plot data
point, with jitter, Show
confidence limits for medians,
Show means
Заголовки по осям X и Y
Edit symbol style
«Коробы с усами»
File → Export
График (диаграмма) «короб с усами»
Резко выделяющиеся (выскакивающие)
значения – «выбросы»
• Выскакивающие значения можно и нужно
выявлять.
• Но отбрасывать их следует на основе
внестатистических соображений.
• Например, если записано значение для
артериального давления 1100, то
очевидно, что здесь опечатка: лишняя 1
или лишний 0.
13
Статистические предсказания
14
Statistics → Simple Models → Normal, One Sample
Edit line style
Edit line style
19
95%-е ПИ и ДИ для активности АПФ
http://smed.ru/guides/363/?q=%E0%ED%E3%E8%EE&search_type=tree#article
Эталонные (референсные) значения для
уровня активности АПФ
Возраст Активность, Ед/л
< 12 9,4 – 37
13 – 16 9 – 33,4
Взрослые 6,1 – 26,6
20
У здоровых индивидуумов в норме уровень
концентрации ACE между индивидуумами может
колебаться в 4-5 раз, а внутрииндивидуальная
вариабельность намного ниже.
http://medbiol.ru/medbiol/ace/00008b43.htm
Edit → Rename columns
Plot → Historgam → Fit normal
Разбивка на 6 классов Разбивка на 5 классов
Правая клавиша мыши →
Graph preferences → Font
Copy graphic Plot → Normal probability plot
0 30 60 90 120
Активность АПФб U/L
0
5
10
15
Численность
Два формата представления функции
нормального распределения
26
Graph preferences
-3 -2 -1 0 1 2
Normal order statistic medians
0
30
60
90
120
Samplevalues
Plot → Histogram
0 25 50 75 100 125
Активность АПФ, U/L
0
4
8
12
16
20
Численность
Проверка согласия с нормальным распределением
Statistics → Normality tests
II ID DD
N 14 50 33
Критерий
Шапиро-
Уилка
0,0067 0,0028 0,077
Жарка-
Бера
0,0012 0,00064 0,25
Монте-
Карло
0,0021 0,0050 0,10
Андерсона
-Дардинга
0,018 0,011 0,097
Описательная статистика и ДИ
Statistics → Univariate
Statistics → Univariate →
Bootstrap
Statistics → Univariate → Bootstrap
ID
Границы 95%-го ДИ
DD
Границы 95%-го ДИ
L
нижняя
U
верхняя
L
нижняя
U
верхняя
N 50 33
Min 15 8
Max 132 125
M 51,3 44,6 57,4 53,3 43,1 62,7
SE 3,36 2,31 4,07 5,14 3,86 6,16
Var 565,2 266,9 823,4 871,6 490,9 1253,1
SD 23,77 16,34 28,70 29,52 22,15 35,40
Me 47,5 38,5 57 46 27 55
Q1 33,75 29,5 39,75 32 26 55
Q2 62 49,25 67,75 73,5 57,5 90,5
As 1,2 0,58 2,0 0,73 0,13 1,4
Ex 1,7 -1,1 4,1 -0,11 -2,0 1,0
AtteStat
http://attestatsoft.narod.ru/download/AtteStat_32.exe
AtteStat → Описательная статистика
AtteStat → Проверка нормальности
Statistics → One-way ANOVA Statistics → Kruskal-Wallis
Однофакторный дисперсионный анализ
(One-way ANOVA)
• F-критерий: Pval = 0,051
• Критерии Левена (Levene's test)
для проверки равенства
дисперсий:
• На основе средних, Pval = 0,084
• На основе медиан, Pval = 0,020
• Критерий Уэлча (Welch F test) в
случае неравных дисперсий:
• Pval = 0,0020
• Q-Критерий Тьюки для попарных
множественных сравнений:
• ID DD
• II 0,051 0,025
• ID 0,96
• Критерий Крaскала-Уоллиса
(Kruskal-Wallis test)
• II ID DD
• II 0,0056 0,037
• ID 0,017 0,97
• DD 0,11 1
• Над диагональю – попарные
сравнения по
двухвыборочному критерию
Манна-Уитни
• Под диагональю – то же, но с
поправкой по Бонферрони на
множественность сравнений
Пример 2
ДА, F-критерий и Q-
критерий Тьюки
Критерий Краскала-Уоллиса
и критерий Манна-Уитни с
поправкой по Бонферрони и
без нее
Много совпадающих значений, данные надо
анализировать как счетные
-3 -2 -1 0 1 2
Нормальные порядковые статистики для медиан
88
90
92
94
96
98
Возраст
AtteStat – кросстабуляция → Критерий
Фримана-Холтона
Оценка точного P-значения методом Монте-
Карло (10 млн. рандомизаций)
BF01 = 9,3 в пользу нулевой гипотезы о
независимости (однородности)
Синдром статистической
снисходительности
или
значение и назначение
P-значения
• Хромов-Борисов Н.Н.
• Синдром статистической
снисходительности или значение и
назначение P-значения // 16.02.2011 г.
• http://tele-conf.ru/aktualnyie-problemyi-
tehnologicheskih-izyiskaniy/sindrom-
statisticheskoy-snishoditelnosti-ili-znachenie-
i-naznachenie-p-znacheniya.html
• Хромов-Борисов Н.Н., Рубанович А.В.
• Основные причины неизбежной
неопределенности и низкой прогностичности в
генетике предрасположенностей //
• Cб. тезисов Российского конгресса с
международным участием «Молекулярные
основы клинической медицины – возможное и
реальное». – СПб.: Изд-во «Человек и его
здоровье», 2012. – С. 233-236.
• Хромов-Борисов Н.Н., Рубанович А.В.
• Статистические аспекты генетики
предрасположенностей
• Хромов-Борисов Н.Н., Рубанович А.В.
• Генетика предрасположенностей –
разбитые мечты и утраченные грёзы
• http://prev-med.ru/ru/itogi.html
Единые требования
• Редакции многих отечественных и зарубежных биомедицинских
журналов при подготовке к публикации научных статей
рекомендуют авторам руководствоваться «Едиными требованиями
к рукописям, представляемым в биомедицинские журналы».
• Требования разрабатывает Международный комитет редакторов
медицинских журналов (International Committee of Medical Journal
Editors – ICMJE).
• Эти требования регулярно пересматриваются, и последняя их
редакция датирована октябрем 2008 г.:
• http://www.icmje.org/index.html
• На русский наиболее удачно переведена редакция 2005 г.:
• http://www.mediasphera.ru/mjmp/2005/5/10.pdf
46
Единые требования, раздел «Статистика»
• В этих требованиях в разделе «Статистика» сказано:
• «Описывайте статистические методы настолько детально,
чтобы осведомленный читатель, имеющий доступ к
исходным данным, мог проверить сообщаемые Вами
результаты.
• По возможности, подвергайте полученные данные
количественной оценке и представляйте их с
соответствующими показателями ошибок измерения и
неопределенности или варьирования измерений (такими как
доверительные интервалы).
• Не следует полагаться исключительно на проверку
статистических гипотез, например, на использование Р-
значений, которые не содержат важную информацию о
размере эффекта».
47
Экология человека, 2008. - № 7. - С. 57-64.
• Обновленные требования появились недавно в журнале
«Экология человека», в которых в частности содержится
чрезвычайно важное предостережение:
• «Всегда следует помнить, что выявление
статистически значимых различий еще не означает
наличия достоверных или клинически важных
различий, а также причинно-следственных связей».
• Несмотря на рекомендацию «не полагаться
исключительно на использование P-значения», до сих
пор во многих научных публикациях оно фигурирует как
решающий показатель значимости наблюдаемых
авторами эффектов, различий, корреляций и т.п.
48
49
Р-значение
• P-значение есть условная вероятность, а именно:
• Вероятность получить наблюдаемое значение tнабл. статистики
некоего критерия T и все остальные еще менее вероятные
значения этой статистики (или значения, еще более
отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна
нулевая гипотеза H0:
• Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0].
• Тут следует обратить внимание на то, что «еще менее
вероятные значения статистики критерия» не являются
«данными», мы их не наблюдаем.
• Мы их додумываем из всех возможных значений в рамках
выбранной нами (нулевой) модели.
49
50
Традиционная интерпретация
P-значений (шкала Michelin)
P-значение Статистическая
значимость
Шкала Мишлена
> 0,05 Незначимо
0,05 – 0,01 Умеренно значимо *
0,01 – 0,001 Значимо **
< 0,001 Высоко значимо ***
50
51
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н.
Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с.
• Выбор уровня значимости определяется
важностью биологических выводов,
которые должен сделать
экспериментатор.
• В настоящее время многие биометрики
склоняются к следующему правилу:
• а) если P > 0,05, то принимается нулевая
гипотеза;
• б) если P < 0,01, то нулевая гипотеза
отклоняется и принимается
конкурирующая;
• в) если 0,01 < P < 0,05, то результат
считается неопределенным.
51
52
[0,05; 0,01] – «серая зона»
P-значение Статистическая
значимость
Шкала Мишлена
> 0,05 Незначимо
От 0,05 до 0,01 Неопределенно *
От 0,01 до 0,001 Значимо **
< 0,001 Высоко значимо ***
52
Не «достоверный», но «статистически значимый»
http://ru.wikipedia.org/wiki/Статистическая_значимость
• В отечественных научных работах часто
употребляется неправильный термин
«достоверность» вместо термина
«статистическая значимость».
• См.:
• Зорин Н.А. О неправильном употреблении
термина "достоверность"
в российских научных психиатрических и
общемедицинских статьях
• http://www.biometrica.tomsk.ru/let1.htm
53
54
Распространенный соблазн
• Квинтэссенцию традиционных (частотнических)
заключений при проверке статистических гипотез
принято интерпретировать так:
• чем меньше P-значение, тем весомее доводы против
нулевой гипотезы H0, которые предоставляют нам
имеющиеся данные; тем больше у нас оснований
сомневаться в H0.
• Отсюда невольно (и вроде бы естественно) возникает
соблазн интерпретировать P-значение как вероятность
нулевой гипотезы.
54
55
Распространенное заблуждение
• P-значение не есть вероятность нулевой гипотезы !
• Поскольку P-значение вычисляется
при условии,
• что справедлива нулевая гипотеза H0: t0 = 0
• Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0],
• то оно никак не может быть вероятностью нулевой
гипотезы:
• P{D|H0} ≠ P{H0|D}
• Здесь |T| ≥ |tнабл.| суть все значения статистики критерия
T, которые (по модулю) равны наблюдаемому значению
|tнабл.| и превышают его.
55
P-значение не есть вероятность нулевой
гипотезы!
• Подробнее о том, чем еще не является Р-
значение, см. энциклопедическую статью:
• http://en.wikipedia.org/wiki/P-value
• и недавнюю работу С. Гудмана, в которой
перечислена «грязная дюжина» ошибочных
интерпертаций Р-значения:
• Goodman S. A dirty dozen: Twelve P-value
misconceptions // Semin. Hematol., 2008. - Vol. 45.
– P. 135-140.
56
Еще раз:
• Принципиально важно понять и
запомнить, что
• P(D|H0) ≠ P(H0|D)
• т.е. что вероятность P(D|H0) получить
наблюдаемые данные D при условии, что
верна нулевая гипотеза H0, не есть
вероятность P(H0|D) нулевой гипотезы
при условии, что получены наблюдаемые
данные D.
Калибровка P-значений
• Как уже было сказано, Р-значение не может быть
вероятностью нулевой гипотезы P(H0).
• Но именно вероятность нулевой гипотезы, очевидно, должна
интересовать исследователя более всего.
• К сожалению традиционная частотническая статистика не
способно вычислять эту веротяность.
• Это может делать бейзовская статистика.
• Уже относительно давно статистики-бейзовцы предложили
калибровать Р-значения относительно вероятности P(H0).
• В простейшем варианте удается оценить не P(H0), а лишь ее
нижнюю границу (минимально достижимое значение) P(H0).
58
Калибровка p-значения
• Sellke T., Bayarri M.J., Berger J.O.
• Calibration of p Values for Testing Precise Null Hypotheses
• The American Statistician, Vol. 55, No. 1. (2001), pp. 62-71.
• При
 
1
0
1
1









ppe
DHP
ln
ep 1
59
60
Калибровка P-значений
Held L. A nomogram for P values.
BMC Medical Research Methodology 2010, 10:21
doi:10.1186/1471-2288-10-21
http://www.biostat.uzh.ch/static/pnomogram/
61
62
63
«Цена» Р-значения
P-значение
Нижняя граница
для вероятности
нулевой гипотезы
P(H0)
Верхняя граница
для вероятности
воспроизведения
Рrepr
0,05 > 30% < 50%
0,01 > 10% < 75%
0,001 > 2% < 90%
Для наглядности значения в таблице округлены до первой значащей
цифры. Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и
1,8%.
Posavac E.J. Using p values to estimate the probability of statistically
significant replication // Understanding Statistics, 2002. – Vol. 1. – No. 2. – P.
101-112.
64
Калибровка P-значений (округленно)
Pval Min
P(H0|D)
Max
P(H1|D)
Min BF01 Max BF10 P(H0|D) P(H1|D)
0,05 0,29 0,71 0,41 2,46 0,71 0,29
0,01 0,11 0,89 0,13 7,99 0,89 0,11
0,0086 0,10 0,90 0,11 9 0,90 0,10
0,0035 0,05 0,95 0,053 19 0,95 0,05
0,001 0,018 0,98 0,019 53,3 0,98 0,018
0,00049 0,01 0,99 0,010 99 0,99 0,01
0,000036 0,001 0,999 0,001 999 0,999 0,001
Значение и назначение
P-значения
66
Прямая выгода
• Надо перестать судорожно цепляться за уровень
значимости α = 0,05 (и скоре всего и за α = 0,01) и
некритично объявлять случаи его преодоления
(Pval < 0,05) статистически значимыми (или даже
«достоверными») событиями.
• Если мы сконцентрируемся на преодолении
уровня α = 0,001, т.е. будем считать статистически
значимыми Pval < 0,001, то в итоге сможем
съэкономить массу времени и средств и реже
выявлять ложные неподтверждающиеся эффекты.
67
Диалог
• - Надо забыть о P < 0,05
(точнее о 0,001 < P < 0,05).
• - Тогда надо закрыть всю нашу науку.
• - Да, такую науку надо закрывать.
68
69
Бейзов фактор, BF
• Бейзов фактор BF принципиально отличается от Р-
значения.
• Бейзов фактор не является вероятностью сам по себе, а
является отношением вероятностей, и он может
варьировать от нуля до бесконечности.
• Он требует знания двух гипотез, тем самым четко
указывая, что если есть свидетельства против нулевой
гипотезы, то должны существовать свидетельства и в
пользу альтернативной гипотезы.
• BF01 = P(D|H0)/ P(D|H1)
• BF10 = P(D|H1) / P(D|H0)
70
Интерпретация убедительности
Бейзовых факторов, BF10 и BF01
BF10
Свидетельство в
пользу гипотезы Н1
против гипотезы Н0
>100 Убедительное
30 – 100 Очень сильное
10 – 30 Сильное
3 – 10 Умеренное
1 – 3 Пренебрежимо
малое
BF01
Свидетельство в
пользу гипотезы Н0
против гипотезы Н1
<0,01 Убедительное
0,01 – 0,03 Очень сильное
0,03 – 0,1 Сильное
0,1 – 0,3 Умеренное
0,3 - 1 Пренебрежимо
малое
Размеры эффекта
71
72
Размер эффекта
• Вопрос о практической важности (клинической
ценности) наблюдаемого
• Размера Эффекта
• является ключевым при интерпретации
результатов биомедицинских исследований,
таких как диагностические исследования,
клинические испытания и т.п.
• Размер эффекта можно выражать в реальных
единицах, а можно сделать его безразмерным –
Стандартизированным.
72
73
Стандартизированный размер эффекта по
Коуэну (Cohen) dC
pooleds
MM
d 21
C


73
74
Интерпретация стандартизированного размера эффекта dC
http://www.sportsci.org/resource/stats/
Размер эффекта, dC Градация эффекта
0 – 0,2 Ничтожный
0,2 – 0,6 Малый
0,6 – 1,2 Умеренный
1,2 – 2,0 Большой
2,0 – 4,0 Очень большой
4,0 -  Исключительно большой
74
75
Содержание INF-α/β у 16 здоровых матерей здоровых
детей и у 20 матерей доношенных новорожденных с ЗВУР
Здоровые, n1 = 16 ЗВУР, n2 = 20
№ IFN-α/β,
МЕ/мл
№ IFN-α/β,
МЕ/мл
№ IFN-α/β,
МЕ/мл
№ IFN-α/β,
МЕ/мл
1 38 9 92 1 104 11 144
2 42 10 93 2 121 12 146
3 58 11 94 3 123 13 147
4 59 12 101 4 123 14 149
5 70 13 103 5 127 15 151
6 71 14 115 6 130 16 153
7 81 15 159 7 132 17 162
8 86 16 170 8 134 18 168
9 134 19 171
10 140 20 173
• Невооруженным глазом можно видеть, что в
группе здоровых матерей здоровых
новорожденных чаще наблюдаются более
низкое содержание INF-α/β, чем в группе
матерей новорожденных с ЗВУР.
• По-видимому, различия в содержании
INF-α/β в сравниваемых группах существенны и
могут представлять клиническую ценность.
76
Статистическое описание
77
Диаграммы «короб с усами» для данных об уровне индуцированной
продукции IFN-/ у здоровых матерей здоровых детей и у матерей
доношенных новорожденных с ЗВУР.
Программа Instat+ (URL: http://www.reading.ac.uk/ssc/n/n_instat.htm)
78
Проверка согласия с
нормальным (гауссовым)
распределения
79
80
Гистограммы содержания INF-α/β у здоровых матерей здоровых детей
и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 4
класса. Программа PAST (URL: http://folk.uio.no/ohammer/past/)
Здоровые ЗВУР
112 128 144 160 176
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
Численность
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
9
Численность
Сплошные кривые суть теоретически ожидаемые плотности
нормального распределения.
Сопоставление гистограмм для содержания INF-α/β у
здоровых матерей здоровых детей и матерей доношенных
новорожденных с ЗВУР
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
2
4
6
8
10
12
14
16
Численность
• Синие столбцы –
гистограмма для данных
в группе здоровых
матерей.
• Красные столбцы –
гистограмма для данных
в группе матерей
новорожденных с ЗВУР.
• Сплошные кривые суть
теоретически ожидаемые
плотности нормального
распределения.
81
• При малых объемах выборок гистограмма
является очень ненадежным средством
глазомерной проверки согласия данных с
нормальным распределением.
• Форма гистограммы может сильно изменяться в
зависимости от числа столбцов (классов) в
гистограмме.
• Поэтому более надежным средством являются
нормальные вероятностные графики.
82
Гистограммы содержания INF-α/β у здоровых матерей здоровых детей
и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 5
классов. Программа PAST (URL: http://folk.uio.no/ohammer/past/)
Здоровые ЗВУР
40 60 80 100 120 140 160
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
Численность
120 140 160
IFN-a/b, МЕ/мл
0
2
4
6
Численность
83
Нормальный вероятностный
график
84
Два формата представления функции
нормального распределения
85
Гистограмма и нормальный вероятностный график для
данных о содержании IFN-/ у здоровых матерей
здоровых новорожденных (n1 = 16)
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
9
Численность
-2 -1,5 -1 -0,5 0 0,5 1 1,5
Медианы порядковых статистик
25
50
75
100
125
150
IFN-a/b,МЕ/мл
86
Гистограмма и нормальный вероятностный график для
данных о содержании IFN-/ у матерей новорожденных с
ЗВУР (n2 = 20)
112 128 144 160 176
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
Численность
-2 -1,5 -1 -0,5 0 0,5 1 1,5
Медианы порядковых статистик
112
128
144
160
176
IFN-a/b,МЕ/мл
87
Аналитические решения
задачи проверки согласия
данных с нормальным
распределением – критерии
«нормальности»
88
89
Проверка согласия с нормальным (гауссовым)
распределением для данных о содержании IFN-/ у
матерей здоровых детей и детей с ЗВУР
Статистический критерий
Наблюдаемые Р-значения, Pval
Здоровые ЗВУР
Андерсона-Дарлинга 0,25 0,15
Шапиро-Уилка 0,19 0,21
Коэффициента асимметрии 0,059 0,46
Коэффициент эксцесса 0,23 0,34
Жарка-Бера 0,42 0,14
Гири 0.17 0,26
Д'Агостино 0,068 0,45
Эппса-Палли 0,17 0,048
Все Р-значения превышают пороговое значение 0,05 или почти
равны ему. Следовательно у нас почти нет оснований сомневаться в
гипотезе о согласии с нормальным распределением для
анализируемых данных в обеих группах .
Описательные статистики с 95%-и ДИ, вычисленными методом бутстрепа
Программа PAST http://folk.uio.no/ohammer/past/
Показатель Символы Здоровые ЗВУР
Объем выборки N, n 16 20
Среднее, МЕ/мл M, 71,089,5106,0 133,8141,6149,5
Дисперсия s2, D, V, Var 449,71330,12262,4 167,8335,7510,0
Стандартное отклонение, МЕ/мл s, SD 21,2136,4747,56 12,9618,3222,58
Коэффициент вариации CV 0,290,410,69 0,100,130,18
Стандартная ошибка (среднего),
МЕ/мл
m, SE 5,309,1211,89 2,904,105,05
Медиана, МЕ/мл Me 7789108 134142153
Псевдомедиана (медиана
Ходжеса-Лемана)
MeHL 69,586,5108 133141,5150
Коэффициент асимметрии A, As 0,100,882,44 -0,810,0480,77
Коэффициент эксцесса E, Ex -2,80,803,0 -1,95-0,400,68
90
Статистические
доказательства
91
Перекрывание-неперекрывание ДИ
• Перекрывание или неперекрывание ДИ для
оцениваемых средних двух совокупностей
может служить простым критерием
статистической значимости наблюдаемых
различий.
• В данном случае можно видеть, что 95%-е ДИ
почти для всех основных показателей в
сравниваемых группах не перекрываются, т.е.
почти всех их можно признать статистически
значимо различающимися на уровне
значимости α = 0,05 (= 1 – 0,95).
92
93
Результаты статистического сравнения групп матерей здоровых детей и
детей с ЗВУР, (1 - α) = 0,99. Программа ESCI JSMS.xls
http://www.latrobe.edu.au/psy/esci/
• В данном примере
абсолютный размер эффекта
ES есть попросту разность
средних:
• ES = 26,652,177,6 у.е.
• Стандартизированный размер
эффекта по Коуэну:
• dC = 1,87
• Его можно интерпретировать
как сильный (большой).
Размеры эффекта с 95%-и ДИ
Размер эффекта Символы Наблюдаемые значения
Разность средних, (МЕ/мл) Δ, SE 33,152,171,1
Стандартизированный размер
эффекта по Коуэну dC 0,91,92,7
Непараметрический
стандартизированный размер
эффекта с 95%-м ДИ δ 0,81,72,5
Площадь под ROC-кривой
AUC 0,780,891,00
Непараметрическая площадь
под ROC-кривой
θ
0,720,890,96
94
• В нашем случае показатели AUC и θ
• равны
• AUC = 0,780,891,00
• и
• θ = 0,720,890,96
• Т.е. с вероятностью 95% эффективность
различения сравниваемых групп лежит в
пределах от удовлетворительной до
отличной. 95
Общепринятые словесные
интерпретации для градаций AUC
Интервалы значений AUC
Способность
диагностического теста
распознавать наличие или
отсутствие болезни
0,9 – 1,0 Отличная
0,8 – 0,9 Хорошая
0,7 – 0,8 Удовлетворительная
0,6 – 0,7 Посредственная
0,5 – 0,6 Неудовлетворительная
< 0,5 Абсурдная
97
Графическое представление результатов статистического сравнения
групп матерей здоровых детей и детей с ЗВУР, 1-α = 0,99. Программа
ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/
80
70
60
50
40
30
20
10
0
-10
-20
-30
-40
-50
0
20
40
60
80
100
120
140
160
180
200
Здоровые СЗРП Difference
Цитокин(у.е.)
• 99%-й ДИ для разности средних не
накрывает значение 0.
• Следовательно оцениваемая
разность статистически значимо
отличается от 0 на уровне
значимости 0,01.
• Соответственно мы можем взять
на себя смелость отклонить
нулевую гипотезу о равенстве
средних и принять
альтернативную.
• Вывод: Содержание IFN-/ у
матерей новорожденных с ЗВУР
статистически значимо выше, чем
у матерей здоровых детей на
уровне α = 0,01.
Скрипт для бейзовского t-критерия
Савиджа-Дики,
• Healthy = c(38,42,94,86,170,81,58,92,59,71,103,101,93,70,115,159)
• IUGR = c(104,134,153,123,132,144,162,147,123,171,121,130,140,127,134,168,149,146,173,151)
• group1=Healthy
• group2=IUGR
• dataSim=SD(group1=group1,
• group2=group2,
• iters=100000,
• burns=5001,
• chains=5,
• thins=1,
• sample=2,
• sig=2,
• wod=getwd(),
• prior='cauchy',
• dcheck=2,
• plot=F,
• bugsdir = "c:/winbugs14"
)
• Предварительно надо иметь
установленными программы WinBUGS и
пакет для R 2RWinBugs
Критерий Брюннера-Мюняеля
(Brunner and Munzel test)
• Y<-
c(38,42,94,86,170,81,58,92,59,71,103,101,93,
70,115,159)
• N<-
c(104,134,153,123,132,144,162,147,123,171,
121,130,140,127,134,168,149,146,173,151)
• brunner.munzel.test(Y, N)
• Нужен пакет LawStat
• Brunner-Munzel Test
• data: Y and N
• Brunner-Munzel Test Statistic = 5.3381, df =
15.573,
• p-value = 7.297e-05
• 95 percent confidence interval: 0.7351518
1.0460982
• sample estimates: P(X<Y)+.5*P(X=Y)
0.890625
Сравнение дисперсий и средних
F-критерий, P-значение Pval 0,0057
Критерий Левена Pval 0,061
Критерий Коновера Pval 0,13
t-критерий Уэлча, df = 20,99; t = 5,21 Pval 3,6∙10-5
Критерий Уилкоксона-Манна-Уитни Pval 1,9∙10-5
Рандомизационный (перестановочный)
критерий (метод Монте-Карло)
Pval 1,1∙10-5
t-критерий Савиджа-Дики, бейзов фактор BF01 0,0016
BF10 625
103
104
Повторение – мать познания
• Повторение составляет суть науки:
• ученый должен всегда задумываться о том, что
произойдет, если он или другой ученый повторят его
эксперимент (Guttman, 1977).
• Ученые разработали метод определения надежности
(валидности) своих результатов.
• Они научились задавать вопрос: воспроизводимы ли
они? (Scherr, 1983).
104
105
Статистические предсказания
и воспроизводимость
105
106
Воспроизводимость и предсказания абсолютного размера эффекта для
групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm
106
107
Воспроизводимость и предсказания стандартизированного
размера эффекта по Коуэну (Cohen) dC
107
Воспроизводимость и предсказания размеров эффектов ES и dC и
P-значения при повторении изучения содержания INF-α/β у матерей
здоровых новорожденных и новорожденных с ЗВУР
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,05)
Psrep 0,99
95%-е ПИ для P-значения Pval [3∙10-11; 0,010]
95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9]
95%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [0,79; 3,0]
108
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% размер эффекта dC может получиться от
умеренного до очень большого.
Принцип Правдоподобия
• Наблюдаемое значение бейзова фактора BF10 =
625 свидетельствует о том, что в 625 раз более
правдоподобно получить наблюдаемые
различия (размеры эффекта) при условии, что
верна альтернативная гипотеза H1, чем при
условии, что верна нулевая гипотеза H0.
• Другими словами, апостериорные шансы в
пользу H1 против H0 в 625 раз превышают их
априорные шансы.
109
Вероятности гипотез
• Апостериорная вероятность альтернативной гипотезы H1
можно вычислить по формуле
• P(H1|D) = BF10/(1 + BF10)
• в нашем случае P(H1|D) = 0,998
• Апостериорная вероятность нулевой гипотезы H0 можно
вычислить как
• P(H0|D) = 1 - P(H1)
• В нашем случае P(H0|D) = 0,002.
• Непременное условие: a priori вероятности обеих гипотез
предполагаются равными:
• P(H1) = P(H0) = 1/2
110
111
Диагностика
Есть (D+) Нет (D-)
Положительный
(T+)

Чувствительность
Se = P(T+|D+)
X
Ложный «позитив»
coSp = (1 – Sp) =
P(T+|D-)
Отрицательный
(T-)
X
Ложный «негатив»
coSe = (1 – Se) =
P(T-|D+)

Специфичность
Sp = P(T-|D-)
Тест
Болезнь
111
112
Теория Неймана-Пирсона: Ошибки I и II рода, уровень
значимости α и мощность критерия Power = (1 – β)
Верна H1: ES  0 Верна Ho: ES = 0
H0 отклонена
(принята H1)

Верное решение
Мощность (1 - )
X
Ошибка I рода с
вероятностью 
H0 не отклонена
X
Ошибка II рода с
вероятностью 

Верное решение
(1 – α)
Критерий
Действитель-
ность
112
Истинный
позитив,
верна H1
Истинный
негатив,
верна H0
Ложный
позитив,
ошибка I
рода,
ложная
тревога
Ложный
негатив,
ошибка II рода,
ложная
беспечность
H1: есть беременность; H0: нет беременности
113
Судебные ошибки
Вердикт:
подозреваемый
Действительность: подозреваемый
H1: виновен H0: невиновен
Виновен Верное решение
Неверное решение
(Ошибка первого рода,
ложное осуждение)
Невиновен
Неверное решение
(Ошибка второго рода,
ложное опрадание)
Верное решение
114
Ошибки I и II рода
Результат
применения
статистического
критерия
Верная гипотеза
H1 H0
Решено принять
H1 и отклонить H0
H1 верно принята
H0 верно отклонена
Вероятность (1 – β) –
мощность
H1 неверно принята
H0 неверно отклонена,
(Ошибка первого рода,
ложная тревога)
Вероятность α –
уровень значимости
Решено принять H0
и отклонить H1
H0 неверно принята
H1 неверно отклонена,
(Ошибка второго рода,
недостаточная
бдительность)
Вероятность β
H0 верно принята,
H1 верно отклонена
Вероятность (1 – α)
115
116
Мощность статистического критерия
• Мощность статистического критерия есть
вероятность того, что критерий правильно отклонит
ложную нулевую гипотезу (правильно примет
верную альтернативную гипотезу).
• Традиционно ее обозначают (1 – β), где β -
вероятность ошибки II рода.
• Чем больше мощность критерия, тем меньше
вероятность совершить ошибку II рода.
• Ее можно интерпретировать как чувствительность
статистического критерия к отклонениям от условий
нулевой гипотезы.
116
117
Анализ мощности a priori или post-hoc
• Анализ мощности можно проводить либо a priori, т.е. до
получения данных, либо post hoc, т.е. после получения
данных.
• A priori анализ мощности обычно используется для
оценки объема выборки N, необходимого для
достижения приемлемой мощности.
• Post hoc анализ мощности используется для оценки
достигнутой мощности.
• В этом случае предполагается, что наблюдаемый эффект
и его варьирование равны истинным значениям
параметров.
117
118
Оценка достигнутой мощности (post hoc). Программа G*Power
http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/
• Достигнутая
мощность
проведенного
исследования
составила
• (1 – β) = 0,9987
118
119
Элементы планирования
эксперимента
119
120
Программа G*Power
http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3
• Оценка a priori минимально
необходимого объема выборки N для
достижения статистически значимого
отличия наблюдаемой доли от
ожидаемого значения при заданных
уровне значимости α и мощности (1 – β).
120
121
Оценка необходимых объемов выборок (a priori)
121
• Для достижения
приемлемой
статистической
мощности
• (1 – β) = 0,95
• достаточно было
иметь группы по 12
человек.
Статистические предсказания
122
Предсказательный и доверительный интервалы для
данных о содержании IFN-/ у здоровых матерей
здоровых новорожденых
123
Предсказательный и доверительный интервалы для
данных о содержании IFN-/ у матерей доношенных
новорожденных с ЗВУР
124
Сопоставление 95%-х ПИ и 95%-х ДИ для
сравниваемых групп
125
126
Повторение – мать познания
• Повторение составляет суть науки:
• ученый должен всегда задумываться о том, что
произойдет, если он или другой ученый повторят его
эксперимент (Guttman, 1977).
• Ученые разработали метод определения надежности
(валидности) своих результатов.
• Они научились задавать вопрос: воспроизводимы ли
они? (Scherr, 1983).
126
127
Статистические предсказания
и воспроизводимость
127
Воспроизводимость и предсказания размеров эффектов ES и dC и P-
значения при повторении изучения содержания INF-α/β у матерей
здоровых новорожденных и новорожденных с ЗВУР
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,05)
Psrep 0,99
95%-е ПИ для P-значения Pval [3∙10-11; 0,010]
95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9]
95%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [0,79; 3,0]
128
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% размер эффекта dC может получиться от
умеренного до очень большого.
129
Воспроизводимость и предсказания абсолютного размера эффекта для
групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm
129
130
Воспроизводимость и предсказания стандартизированного
размера эффекта по Коуэну (Cohen) dC
130
Определение угла наклона вертлужного
компонента
Диаграммы «короб с усами»
для данных от восьми хирургов
Основные описательные статистики
Основные описательные статистики с границами
95%-х доверительных интервалов (ДИ)
Параметрический однофакторный дисперсионный анализ
(ANOVA) и попарные сравнения для данных от восьми
хирургов
Все полученные P-значения больше уровня значимости α = 0,05 (P > 0,05).
У нас нет оснований сомневаться в отсутствии различий между данными от
всех хирургов.
Непараметрический однофакторный дисперсионный
анализ (критерий Краскала-Уоллиса) и попарные сравнения
для данных от восьми хирургов
Сравнение двух групп операций с направителем и без него
Совмещение гистограмм для двух групп операций с
направителем и без него
10 20 30 40 50 60
Angle
0
20
40
60
80
100
Frequency
Проверка согласия с нормальным (гауссовым)
распределением
Группа С направителем Без направителя
Объемы выборок, N 390 300
Критерий P-значения
Шапиро-Уилка 0,10 0,085
Жарка-Бера 0,0098 0,042
Монте-Карло 0,015 0,041
Чем меньше P-значение, тем больше основание сомневаться в
согласии наших данных с нормальным распределением.
Пороговым значением принято считать уровень значимости
α < 0,05.
Гистограмма и нормальный вероятностный график
для группы операций с направителем
10 20 30 40 50
Angle
0
20
40
60
80
100
Frequency
-3 -2 -1 0 1 2
Normal order statistic medians
10
20
30
40
50
Angle
Доверительные (ДИ) и предсказательные (ПИ) интервалы
для группы операций с направителем
Гистограмма и нормальный вероятностный график для
группы операций без направителя
20 30 40 50 60
Angle
0
20
40
60
Frequency
-3 -2 -1 0 1 2
Normal order statistic medians
20
30
40
50
60
Angle
Доверительные (ДИ) и предсказательные (ПИ) интервалы
для группы операций без направителя
Сопоставление предсказательных и
доверительных интервалов для правых и левых
протезов ТБС
Сравнение параметров распределений для двух групп
операций с направителем и без него с помощью
параметрических критериев F и t
Сравнение распределений для двух групп операций с
направителем и без него с помощью непараметрических
критериев Манна-Уитни и Коновера
Критерий Манна-Уитни
Статистика, P-значение
(двустороннее)
66019 0,0038
Критерий Коновера
Статистика, P-значение
(двустороннее)
46738584 0,60
Программа PAST
http://folk.uio.no/ohammer/past/
Программа AtteStat
http://attestatsoft.narod.ru/
Визуализация результатов сравнения двух групп операций
с направителем и без него
20
18
16
14
12
10
8
6
4
2
0
-2
-4
-6
-8
-10
-12
-14
-16
-18
-20
0
10
20
30
40
50
60
70
Guide NoGuide Difference
Angle(Grade)
• 99%-й ДИ для разности средних не
накрывает значение 0.
• Следовательно оцениваемая
разность статистически значимо
отличается от 0 на уровне
значимости 0,01.
• Соответственно мы можем взять
на себя смелость отклонить
нулевую гипотезу о равенстве
средних и принять
альтернативную.
• Среднее в группе операций без
направителя статистически
значимо превышает среднее в
группе с направителем
Программа Bayes Factor Calculator
http://pcl.missouri.edu/bayesfactor
Программа Bayes Factor Calculator
http://pcl.missouri.edu/bayesfactor
• BF01 = 0,065
• BF10 = 1/BF01 = 15,3
• Примерно в 15 раз более
правдоподобно получить
наблюдаемое различие при
условии, что верна нулевая
гипотеза H0, чем при условии,
что справедлива
альтернативная гипотеза H1.
• Такое свидетельство в пользу
H1 против H0 можно
интерпретировать как сильное.
Размеры эффекта с 99%-и ДИ
Размер эффекта Симв
олы
Наблюдаемые значения
Разность средних, (МЕ/мл)
Δ, SE 0,351,52,72
Стандартизированный размер
эффекта по Коуэну dC 0,260,260,87
Непараметрический
стандартизированный размер
эффекта с 95%-м ДИ δ 0,070,230,38
Площадь под ROC-кривой
AUC 0,520,56,0,61
Непараметрическая площадь
под ROC-кривой
θ
0,520,560,61
151
Непараметрическая оценка двух стандартизированных
размеров эффекта при сравнении двух групп операций с
направителем и без него
10 20 30 40 50 60
Angle
0
20
40
60
80
100
Frequency
Достигнутая мощность статистического критерия при
уровне значимости α = 0,01:
(1 - β) = 0,78
154
Элементы планирования
эксперимента
154
Минимальные объемы выборок, необходимые для достижения
мощности (1 – β) = 0,95 при уровне значимости α = 0,01:
n1 = 477 и n2 = 619
995-е предсказательные интервалы (ПИ) и вероятности
воспроизведения (Psrep и др.) для размера эффекта (разности средних, Δ
или ES) в исходных единицах измерения
Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для стандартизированного размера эффекта по Коуэну, dC
Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для размера эффекта (Δ или ES) при 10-кратном увеличении
объемов выборок
Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для размера эффекта по Коуэну (dC) при 10-кратном
увеличении объемов выборок
Воспроизводимость и предсказания размеров эффектов ES и dC и P-
значения при повторении изучения углов с направителем и без него
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,01)
Psrep 0,71
99%-е ПИ для P-значения Pval [10-12; 0,62]
99%-е ПИ для разности средних (град.) ES, Δ [-0,14; 3,2]
99%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [-0,02; 5,4]
160
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% оба размера эффекта ES и dC могут получиться
статистически незначимыми.
Statistics → Correlation table
-20 0 20 40 60 80 100
IL4
-25
0
25
50
75
100
IL13
Statistics → Correlation table
Линейный коэффициент
корреляции Пирсона r
• r = 0,90
• Pval = 1,3∙10-26
Ранговый коэффициент
корреляции Спирмена rS
• rS = 0,061
• Pval = 0,61
163
Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000)
• Исследования должны быть как
минимум двухэтапными.
• Первый этап – разведочное
(пилотное, порождающее
гипотезы) исследование.
• Второй этап – проверочное
(подтверждающее или
опровергающее) исследование.
• Оно планируется на основе
результатов разведочного
исследования.
163
Статистика в клеточной
биологии
Распределение Пуассона
Симеон Дени Пуассон (Siméon Denis
Poisson, 21.06.1781—25.04.1840)
Упорядоченный посев и пуассонер –
высокоточная техника количественной
микробиологии
МЕДИЦИНА. XXI ВЕК
№ 2 (11) 2008, c. 92-97
Н. Н. Хромов-Борисов, Jenifer Saffi , Joao A. P. Henriques
Упорядоченный посев и пуассонер – высокоточная
техника количественной микробиологии
Упорядоченный посев
Распределение Пуассона
• Распределение числа событий, происходящих в
фиксированном временнóм или
пространственном интервале (объеме),
• при условии,
• что эти события независимы и что
• вероятность совпадения (попадания в одну
точку пространства) или одновременного
наступления двух и более событий
пренебрежимо мала.
Распределение Пуассона
• P(k) = e-λλk/k!
• e = 2,71828 – основание натурального логарифма
• k! = 1·2·…(k-1)·k – факториал
• Характеристическое свойство раcпределения
Пуассона – его математическое ожидание
(среднее значение) и дисперсия равны друг
другу:
• Ek* = Dk* = λ,
• т.е. это распределение имеет всего лишь один
параметр λ.
Пуассонер
Сравнение упорядоченного посева
с обычным методом
Воспроизводимость
Распределения числа колоний дрожжей на десяти чашках Петри,
порожденные пуассонером, и их сравнение с распределением числа
колоний, полученных традиционным методом посева.
Пуассоновость
http://ihg.gsf.de/cgi-bin/hw/hwa1.pl
Case-control studies. Tests for deviation from Hardy-Weinberg equilibrium
and tests for association.
SNP
Tests for deviation from
Hardy-Weinberg
equilibrium
Tests for association (C.I.: 95% confidence interval)
Controls Cases
allele freq.
difference
heterozygous homozygous allele positivity
Armitage's
trend test
ACE
n11 = 1317
(1327.8)
n12 = 2980
(2958.4)
n22 = 1637
(1647.8)
f_a1 = 0.47
+/-0.005
F = -0.007
p = 0.57
(Pearson)
p = 0.57
(Llr)
p = inf
(Exact)
n11 = 1056
(1010.7)
n12 = 2214
(2304.6)
n22 = 1359
(1313.7)
f_a1 = 0.47
+/-0.005
F = 0.04
p = 0.0075
(Pearson)
p = 0.0075
(Llr)
p = inf
(Exact)
Risk allele 2
[1]<->[2] [11]<->[12] [11+]<->[22] [11]<->[12+22]
common
odds ratio
OR = 1.0
C.I. = [0.97-1.1]
p = 0.40 (P)
OR = 0.9
C.I. = [0.8-1.0]
p = 0.13
OR = 1.0
C.I. = [0.9-1.2]
p = 0.53
OR = 1.0
C.I. = [0.9-1.1]
p = 0.45
OR = 1.0
p = 0.41
Risk allele 1
[2]<->[1] [22]<->[12] [22]<->[11] [11+12]<->[22]
common
odds ratio
OR = 1.0
C.I. = 0.9-1.0]
p = 0.40 (P)
OR = 0.9
C.I. = [0.8-1.0]
p = 0.016
OR = 1.0
C.I. = [0.9-1.1]
p = 0.53
OR = 0.9
C.I. = [0.8-1.0]
p = 0.045
OR = 1.0
p = 0.41
177
http://www.ekstroem.com/assotest/assotest.html
Web-Assotest
178

More Related Content

More from Nikita Khromov-Borisov

парадоксы спортгеномики 2015
парадоксы спортгеномики 2015парадоксы спортгеномики 2015
парадоксы спортгеномики 2015Nikita Khromov-Borisov
 
химия днк для генетиков 2015
химия днк для генетиков 2015химия днк для генетиков 2015
химия днк для генетиков 2015Nikita Khromov-Borisov
 
Harmonizing statistical evidences and predictions
Harmonizing statistical evidences and predictionsHarmonizing statistical evidences and predictions
Harmonizing statistical evidences and predictionsNikita Khromov-Borisov
 
Evolutionary arguments in medical genomics
Evolutionary arguments in medical genomicsEvolutionary arguments in medical genomics
Evolutionary arguments in medical genomicsNikita Khromov-Borisov
 
кризис воспроизводимости в биомедицине Rus 2014
кризис воспроизводимости в биомедицине Rus 2014кризис воспроизводимости в биомедицине Rus 2014
кризис воспроизводимости в биомедицине Rus 2014Nikita Khromov-Borisov
 
Prematurity of genetic testing of predispositions rus 2014
Prematurity of genetic testing of predispositions rus 2014Prematurity of genetic testing of predispositions rus 2014
Prematurity of genetic testing of predispositions rus 2014Nikita Khromov-Borisov
 
Population thinking in studies of genetic predispositions ppt
Population thinking in studies of genetic predispositions pptPopulation thinking in studies of genetic predispositions ppt
Population thinking in studies of genetic predispositions pptNikita Khromov-Borisov
 
Half a century with the central dogma of molecular biology ppt
Half a century with the central dogma of molecular biology pptHalf a century with the central dogma of molecular biology ppt
Half a century with the central dogma of molecular biology pptNikita Khromov-Borisov
 
Format for the population data in forensic genetics ppt
Format for the population data in forensic genetics pptFormat for the population data in forensic genetics ppt
Format for the population data in forensic genetics pptNikita Khromov-Borisov
 
Evolutionary medical genomics ppt 2013
Evolutionary medical genomics ppt 2013Evolutionary medical genomics ppt 2013
Evolutionary medical genomics ppt 2013Nikita Khromov-Borisov
 
Catalog of formulae for forensic genetics ppt
Catalog of formulae for forensic genetics pptCatalog of formulae for forensic genetics ppt
Catalog of formulae for forensic genetics pptNikita Khromov-Borisov
 
Reproducibility of results in the genetics of predisposition eng 2014
Reproducibility of results in the genetics of predisposition eng 2014Reproducibility of results in the genetics of predisposition eng 2014
Reproducibility of results in the genetics of predisposition eng 2014Nikita Khromov-Borisov
 

More from Nikita Khromov-Borisov (14)

парадоксы спортгеномики 2015
парадоксы спортгеномики 2015парадоксы спортгеномики 2015
парадоксы спортгеномики 2015
 
химия днк для генетиков 2015
химия днк для генетиков 2015химия днк для генетиков 2015
химия днк для генетиков 2015
 
Harmonizing statistical evidences and predictions
Harmonizing statistical evidences and predictionsHarmonizing statistical evidences and predictions
Harmonizing statistical evidences and predictions
 
Evolutionary arguments in medical genomics
Evolutionary arguments in medical genomicsEvolutionary arguments in medical genomics
Evolutionary arguments in medical genomics
 
кризис воспроизводимости в биомедицине Rus 2014
кризис воспроизводимости в биомедицине Rus 2014кризис воспроизводимости в биомедицине Rus 2014
кризис воспроизводимости в биомедицине Rus 2014
 
Prematurity of genetic testing of predispositions rus 2014
Prematurity of genetic testing of predispositions rus 2014Prematurity of genetic testing of predispositions rus 2014
Prematurity of genetic testing of predispositions rus 2014
 
Population thinking in studies of genetic predispositions ppt
Population thinking in studies of genetic predispositions pptPopulation thinking in studies of genetic predispositions ppt
Population thinking in studies of genetic predispositions ppt
 
Half a century with the central dogma of molecular biology ppt
Half a century with the central dogma of molecular biology pptHalf a century with the central dogma of molecular biology ppt
Half a century with the central dogma of molecular biology ppt
 
Genetics of predispositions ppt
Genetics of predispositions pptGenetics of predispositions ppt
Genetics of predispositions ppt
 
Format for the population data in forensic genetics ppt
Format for the population data in forensic genetics pptFormat for the population data in forensic genetics ppt
Format for the population data in forensic genetics ppt
 
Evolutionary medical genomics ppt 2013
Evolutionary medical genomics ppt 2013Evolutionary medical genomics ppt 2013
Evolutionary medical genomics ppt 2013
 
Catalog of formulae for forensic genetics ppt
Catalog of formulae for forensic genetics pptCatalog of formulae for forensic genetics ppt
Catalog of formulae for forensic genetics ppt
 
Joshua lederberg ppt
Joshua lederberg pptJoshua lederberg ppt
Joshua lederberg ppt
 
Reproducibility of results in the genetics of predisposition eng 2014
Reproducibility of results in the genetics of predisposition eng 2014Reproducibility of results in the genetics of predisposition eng 2014
Reproducibility of results in the genetics of predisposition eng 2014
 

Modern free biostatistical software ppt

  • 1. Современное общедоступное ПО для биостатистических вычислений Никита Николаевич Хромов-Борисов Кафедра физики, математики и информатики СПбГМУ им. акад. И.П. Павлова (Санкт-Петербург) 8-952-204-89-49 Nikita.KhromovBorisov@gmail.com
  • 2. Визуализация исходных данных и результатов их статистического описания
  • 4. Jeffery S., Saggar Malik A.K., CrosbY A., BlanD M., Eastwood J.B., Amoah-Danquah J., Acheampong J.W., Plange-Rhule J. A dominant relationship between the ACE D allele and serum ACE levels in a Ghanaian population J. Med. Genet. 1999;36:869-870 4 Table 1 Serum ACE in U/l for each ACE genotype ACE genotype II ID DD 24 26 48 82 60 50 21 23 27 48 62 42 56 20 43 35 42 31 47 74 57 37 33 8 42 15 35 45 57 24 46 60 19 31 25 25 24 53 89 31 36 43 55 98 62 83 70 25 44 28 62 27 50 125 26 61 52 82 21 20 69 33 52 56 71 21 65 74 62 68 33 35 77 32 38 97 34 90 65 44 37 32 37 117 82 30 39 36 35 100 38 29 132 103 77 41 38 Mean (SD) 34.5 (13.6) 51.3 (23.8) 53.3 (29.5) Median (range) 31 (19-74) 47.5 (15-132) 46 (8-125)
  • 5.
  • 6. Graphics → Boxplot Data to be plotted, Plot data point, with jitter, Show confidence limits for medians, Show means
  • 7.
  • 13. Резко выделяющиеся (выскакивающие) значения – «выбросы» • Выскакивающие значения можно и нужно выявлять. • Но отбрасывать их следует на основе внестатистических соображений. • Например, если записано значение для артериального давления 1100, то очевидно, что здесь опечатка: лишняя 1 или лишний 0. 13
  • 15. Statistics → Simple Models → Normal, One Sample
  • 16.
  • 19. 19 95%-е ПИ и ДИ для активности АПФ
  • 20. http://smed.ru/guides/363/?q=%E0%ED%E3%E8%EE&search_type=tree#article Эталонные (референсные) значения для уровня активности АПФ Возраст Активность, Ед/л < 12 9,4 – 37 13 – 16 9 – 33,4 Взрослые 6,1 – 26,6 20 У здоровых индивидуумов в норме уровень концентрации ACE между индивидуумами может колебаться в 4-5 раз, а внутрииндивидуальная вариабельность намного ниже. http://medbiol.ru/medbiol/ace/00008b43.htm
  • 21.
  • 22. Edit → Rename columns
  • 23. Plot → Historgam → Fit normal Разбивка на 6 классов Разбивка на 5 классов
  • 24. Правая клавиша мыши → Graph preferences → Font
  • 25. Copy graphic Plot → Normal probability plot 0 30 60 90 120 Активность АПФб U/L 0 5 10 15 Численность
  • 26. Два формата представления функции нормального распределения 26
  • 27. Graph preferences -3 -2 -1 0 1 2 Normal order statistic medians 0 30 60 90 120 Samplevalues
  • 28. Plot → Histogram 0 25 50 75 100 125 Активность АПФ, U/L 0 4 8 12 16 20 Численность
  • 29. Проверка согласия с нормальным распределением Statistics → Normality tests II ID DD N 14 50 33 Критерий Шапиро- Уилка 0,0067 0,0028 0,077 Жарка- Бера 0,0012 0,00064 0,25 Монте- Карло 0,0021 0,0050 0,10 Андерсона -Дардинга 0,018 0,011 0,097
  • 30. Описательная статистика и ДИ Statistics → Univariate Statistics → Univariate → Bootstrap
  • 31. Statistics → Univariate → Bootstrap ID Границы 95%-го ДИ DD Границы 95%-го ДИ L нижняя U верхняя L нижняя U верхняя N 50 33 Min 15 8 Max 132 125 M 51,3 44,6 57,4 53,3 43,1 62,7 SE 3,36 2,31 4,07 5,14 3,86 6,16 Var 565,2 266,9 823,4 871,6 490,9 1253,1 SD 23,77 16,34 28,70 29,52 22,15 35,40 Me 47,5 38,5 57 46 27 55 Q1 33,75 29,5 39,75 32 26 55 Q2 62 49,25 67,75 73,5 57,5 90,5 As 1,2 0,58 2,0 0,73 0,13 1,4 Ex 1,7 -1,1 4,1 -0,11 -2,0 1,0
  • 34. AtteStat → Проверка нормальности
  • 35. Statistics → One-way ANOVA Statistics → Kruskal-Wallis
  • 36. Однофакторный дисперсионный анализ (One-way ANOVA) • F-критерий: Pval = 0,051 • Критерии Левена (Levene's test) для проверки равенства дисперсий: • На основе средних, Pval = 0,084 • На основе медиан, Pval = 0,020 • Критерий Уэлча (Welch F test) в случае неравных дисперсий: • Pval = 0,0020 • Q-Критерий Тьюки для попарных множественных сравнений: • ID DD • II 0,051 0,025 • ID 0,96 • Критерий Крaскала-Уоллиса (Kruskal-Wallis test) • II ID DD • II 0,0056 0,037 • ID 0,017 0,97 • DD 0,11 1 • Над диагональю – попарные сравнения по двухвыборочному критерию Манна-Уитни • Под диагональю – то же, но с поправкой по Бонферрони на множественность сравнений
  • 37. Пример 2 ДА, F-критерий и Q- критерий Тьюки Критерий Краскала-Уоллиса и критерий Манна-Уитни с поправкой по Бонферрони и без нее
  • 38. Много совпадающих значений, данные надо анализировать как счетные -3 -2 -1 0 1 2 Нормальные порядковые статистики для медиан 88 90 92 94 96 98 Возраст
  • 39. AtteStat – кросстабуляция → Критерий Фримана-Холтона
  • 40. Оценка точного P-значения методом Монте- Карло (10 млн. рандомизаций)
  • 41. BF01 = 9,3 в пользу нулевой гипотезы о независимости (однородности)
  • 43. • Хромов-Борисов Н.Н. • Синдром статистической снисходительности или значение и назначение P-значения // 16.02.2011 г. • http://tele-conf.ru/aktualnyie-problemyi- tehnologicheskih-izyiskaniy/sindrom- statisticheskoy-snishoditelnosti-ili-znachenie- i-naznachenie-p-znacheniya.html
  • 44. • Хромов-Борисов Н.Н., Рубанович А.В. • Основные причины неизбежной неопределенности и низкой прогностичности в генетике предрасположенностей // • Cб. тезисов Российского конгресса с международным участием «Молекулярные основы клинической медицины – возможное и реальное». – СПб.: Изд-во «Человек и его здоровье», 2012. – С. 233-236.
  • 45. • Хромов-Борисов Н.Н., Рубанович А.В. • Статистические аспекты генетики предрасположенностей • Хромов-Борисов Н.Н., Рубанович А.В. • Генетика предрасположенностей – разбитые мечты и утраченные грёзы • http://prev-med.ru/ru/itogi.html
  • 46. Единые требования • Редакции многих отечественных и зарубежных биомедицинских журналов при подготовке к публикации научных статей рекомендуют авторам руководствоваться «Едиными требованиями к рукописям, представляемым в биомедицинские журналы». • Требования разрабатывает Международный комитет редакторов медицинских журналов (International Committee of Medical Journal Editors – ICMJE). • Эти требования регулярно пересматриваются, и последняя их редакция датирована октябрем 2008 г.: • http://www.icmje.org/index.html • На русский наиболее удачно переведена редакция 2005 г.: • http://www.mediasphera.ru/mjmp/2005/5/10.pdf 46
  • 47. Единые требования, раздел «Статистика» • В этих требованиях в разделе «Статистика» сказано: • «Описывайте статистические методы настолько детально, чтобы осведомленный читатель, имеющий доступ к исходным данным, мог проверить сообщаемые Вами результаты. • По возможности, подвергайте полученные данные количественной оценке и представляйте их с соответствующими показателями ошибок измерения и неопределенности или варьирования измерений (такими как доверительные интервалы). • Не следует полагаться исключительно на проверку статистических гипотез, например, на использование Р- значений, которые не содержат важную информацию о размере эффекта». 47
  • 48. Экология человека, 2008. - № 7. - С. 57-64. • Обновленные требования появились недавно в журнале «Экология человека», в которых в частности содержится чрезвычайно важное предостережение: • «Всегда следует помнить, что выявление статистически значимых различий еще не означает наличия достоверных или клинически важных различий, а также причинно-следственных связей». • Несмотря на рекомендацию «не полагаться исключительно на использование P-значения», до сих пор во многих научных публикациях оно фигурирует как решающий показатель значимости наблюдаемых авторами эффектов, различий, корреляций и т.п. 48
  • 49. 49 Р-значение • P-значение есть условная вероятность, а именно: • Вероятность получить наблюдаемое значение tнабл. статистики некоего критерия T и все остальные еще менее вероятные значения этой статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна нулевая гипотеза H0: • Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0]. • Тут следует обратить внимание на то, что «еще менее вероятные значения статистики критерия» не являются «данными», мы их не наблюдаем. • Мы их додумываем из всех возможных значений в рамках выбранной нами (нулевой) модели. 49
  • 50. 50 Традиционная интерпретация P-значений (шкала Michelin) P-значение Статистическая значимость Шкала Мишлена > 0,05 Незначимо 0,05 – 0,01 Умеренно значимо * 0,01 – 0,001 Значимо ** < 0,001 Высоко значимо *** 50
  • 51. 51 Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с. • Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор. • В настоящее время многие биометрики склоняются к следующему правилу: • а) если P > 0,05, то принимается нулевая гипотеза; • б) если P < 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая; • в) если 0,01 < P < 0,05, то результат считается неопределенным. 51
  • 52. 52 [0,05; 0,01] – «серая зона» P-значение Статистическая значимость Шкала Мишлена > 0,05 Незначимо От 0,05 до 0,01 Неопределенно * От 0,01 до 0,001 Значимо ** < 0,001 Высоко значимо *** 52
  • 53. Не «достоверный», но «статистически значимый» http://ru.wikipedia.org/wiki/Статистическая_значимость • В отечественных научных работах часто употребляется неправильный термин «достоверность» вместо термина «статистическая значимость». • См.: • Зорин Н.А. О неправильном употреблении термина "достоверность" в российских научных психиатрических и общемедицинских статьях • http://www.biometrica.tomsk.ru/let1.htm 53
  • 54. 54 Распространенный соблазн • Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так: • чем меньше P-значение, тем весомее доводы против нулевой гипотезы H0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться в H0. • Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать P-значение как вероятность нулевой гипотезы. 54
  • 55. 55 Распространенное заблуждение • P-значение не есть вероятность нулевой гипотезы ! • Поскольку P-значение вычисляется при условии, • что справедлива нулевая гипотеза H0: t0 = 0 • Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0], • то оно никак не может быть вероятностью нулевой гипотезы: • P{D|H0} ≠ P{H0|D} • Здесь |T| ≥ |tнабл.| суть все значения статистики критерия T, которые (по модулю) равны наблюдаемому значению |tнабл.| и превышают его. 55
  • 56. P-значение не есть вероятность нулевой гипотезы! • Подробнее о том, чем еще не является Р- значение, см. энциклопедическую статью: • http://en.wikipedia.org/wiki/P-value • и недавнюю работу С. Гудмана, в которой перечислена «грязная дюжина» ошибочных интерпертаций Р-значения: • Goodman S. A dirty dozen: Twelve P-value misconceptions // Semin. Hematol., 2008. - Vol. 45. – P. 135-140. 56
  • 57. Еще раз: • Принципиально важно понять и запомнить, что • P(D|H0) ≠ P(H0|D) • т.е. что вероятность P(D|H0) получить наблюдаемые данные D при условии, что верна нулевая гипотеза H0, не есть вероятность P(H0|D) нулевой гипотезы при условии, что получены наблюдаемые данные D.
  • 58. Калибровка P-значений • Как уже было сказано, Р-значение не может быть вероятностью нулевой гипотезы P(H0). • Но именно вероятность нулевой гипотезы, очевидно, должна интересовать исследователя более всего. • К сожалению традиционная частотническая статистика не способно вычислять эту веротяность. • Это может делать бейзовская статистика. • Уже относительно давно статистики-бейзовцы предложили калибровать Р-значения относительно вероятности P(H0). • В простейшем варианте удается оценить не P(H0), а лишь ее нижнюю границу (минимально достижимое значение) P(H0). 58
  • 59. Калибровка p-значения • Sellke T., Bayarri M.J., Berger J.O. • Calibration of p Values for Testing Precise Null Hypotheses • The American Statistician, Vol. 55, No. 1. (2001), pp. 62-71. • При   1 0 1 1          ppe DHP ln ep 1 59
  • 60. 60 Калибровка P-значений Held L. A nomogram for P values. BMC Medical Research Methodology 2010, 10:21 doi:10.1186/1471-2288-10-21 http://www.biostat.uzh.ch/static/pnomogram/
  • 61. 61
  • 62. 62
  • 63. 63
  • 64. «Цена» Р-значения P-значение Нижняя граница для вероятности нулевой гипотезы P(H0) Верхняя граница для вероятности воспроизведения Рrepr 0,05 > 30% < 50% 0,01 > 10% < 75% 0,001 > 2% < 90% Для наглядности значения в таблице округлены до первой значащей цифры. Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и 1,8%. Posavac E.J. Using p values to estimate the probability of statistically significant replication // Understanding Statistics, 2002. – Vol. 1. – No. 2. – P. 101-112. 64
  • 65. Калибровка P-значений (округленно) Pval Min P(H0|D) Max P(H1|D) Min BF01 Max BF10 P(H0|D) P(H1|D) 0,05 0,29 0,71 0,41 2,46 0,71 0,29 0,01 0,11 0,89 0,13 7,99 0,89 0,11 0,0086 0,10 0,90 0,11 9 0,90 0,10 0,0035 0,05 0,95 0,053 19 0,95 0,05 0,001 0,018 0,98 0,019 53,3 0,98 0,018 0,00049 0,01 0,99 0,010 99 0,99 0,01 0,000036 0,001 0,999 0,001 999 0,999 0,001
  • 67. Прямая выгода • Надо перестать судорожно цепляться за уровень значимости α = 0,05 (и скоре всего и за α = 0,01) и некритично объявлять случаи его преодоления (Pval < 0,05) статистически значимыми (или даже «достоверными») событиями. • Если мы сконцентрируемся на преодолении уровня α = 0,001, т.е. будем считать статистически значимыми Pval < 0,001, то в итоге сможем съэкономить массу времени и средств и реже выявлять ложные неподтверждающиеся эффекты. 67
  • 68. Диалог • - Надо забыть о P < 0,05 (точнее о 0,001 < P < 0,05). • - Тогда надо закрыть всю нашу науку. • - Да, такую науку надо закрывать. 68
  • 69. 69 Бейзов фактор, BF • Бейзов фактор BF принципиально отличается от Р- значения. • Бейзов фактор не является вероятностью сам по себе, а является отношением вероятностей, и он может варьировать от нуля до бесконечности. • Он требует знания двух гипотез, тем самым четко указывая, что если есть свидетельства против нулевой гипотезы, то должны существовать свидетельства и в пользу альтернативной гипотезы. • BF01 = P(D|H0)/ P(D|H1) • BF10 = P(D|H1) / P(D|H0)
  • 70. 70 Интерпретация убедительности Бейзовых факторов, BF10 и BF01 BF10 Свидетельство в пользу гипотезы Н1 против гипотезы Н0 >100 Убедительное 30 – 100 Очень сильное 10 – 30 Сильное 3 – 10 Умеренное 1 – 3 Пренебрежимо малое BF01 Свидетельство в пользу гипотезы Н0 против гипотезы Н1 <0,01 Убедительное 0,01 – 0,03 Очень сильное 0,03 – 0,1 Сильное 0,1 – 0,3 Умеренное 0,3 - 1 Пренебрежимо малое
  • 72. 72 Размер эффекта • Вопрос о практической важности (клинической ценности) наблюдаемого • Размера Эффекта • является ключевым при интерпретации результатов биомедицинских исследований, таких как диагностические исследования, клинические испытания и т.п. • Размер эффекта можно выражать в реальных единицах, а можно сделать его безразмерным – Стандартизированным. 72
  • 73. 73 Стандартизированный размер эффекта по Коуэну (Cohen) dC pooleds MM d 21 C   73
  • 74. 74 Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/ Размер эффекта, dC Градация эффекта 0 – 0,2 Ничтожный 0,2 – 0,6 Малый 0,6 – 1,2 Умеренный 1,2 – 2,0 Большой 2,0 – 4,0 Очень большой 4,0 -  Исключительно большой 74
  • 75. 75 Содержание INF-α/β у 16 здоровых матерей здоровых детей и у 20 матерей доношенных новорожденных с ЗВУР Здоровые, n1 = 16 ЗВУР, n2 = 20 № IFN-α/β, МЕ/мл № IFN-α/β, МЕ/мл № IFN-α/β, МЕ/мл № IFN-α/β, МЕ/мл 1 38 9 92 1 104 11 144 2 42 10 93 2 121 12 146 3 58 11 94 3 123 13 147 4 59 12 101 4 123 14 149 5 70 13 103 5 127 15 151 6 71 14 115 6 130 16 153 7 81 15 159 7 132 17 162 8 86 16 170 8 134 18 168 9 134 19 171 10 140 20 173
  • 76. • Невооруженным глазом можно видеть, что в группе здоровых матерей здоровых новорожденных чаще наблюдаются более низкое содержание INF-α/β, чем в группе матерей новорожденных с ЗВУР. • По-видимому, различия в содержании INF-α/β в сравниваемых группах существенны и могут представлять клиническую ценность. 76
  • 78. Диаграммы «короб с усами» для данных об уровне индуцированной продукции IFN-/ у здоровых матерей здоровых детей и у матерей доношенных новорожденных с ЗВУР. Программа Instat+ (URL: http://www.reading.ac.uk/ssc/n/n_instat.htm) 78
  • 79. Проверка согласия с нормальным (гауссовым) распределения 79
  • 80. 80 Гистограммы содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 4 класса. Программа PAST (URL: http://folk.uio.no/ohammer/past/) Здоровые ЗВУР 112 128 144 160 176 IFN-a/b, МЕ/мл 0 1 2 3 4 5 6 7 8 Численность 50 75 100 125 150 175 IFN-a/b, МЕ/мл 0 1 2 3 4 5 6 7 8 9 Численность Сплошные кривые суть теоретически ожидаемые плотности нормального распределения.
  • 81. Сопоставление гистограмм для содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР 50 75 100 125 150 175 IFN-a/b, МЕ/мл 0 2 4 6 8 10 12 14 16 Численность • Синие столбцы – гистограмма для данных в группе здоровых матерей. • Красные столбцы – гистограмма для данных в группе матерей новорожденных с ЗВУР. • Сплошные кривые суть теоретически ожидаемые плотности нормального распределения. 81
  • 82. • При малых объемах выборок гистограмма является очень ненадежным средством глазомерной проверки согласия данных с нормальным распределением. • Форма гистограммы может сильно изменяться в зависимости от числа столбцов (классов) в гистограмме. • Поэтому более надежным средством являются нормальные вероятностные графики. 82
  • 83. Гистограммы содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 5 классов. Программа PAST (URL: http://folk.uio.no/ohammer/past/) Здоровые ЗВУР 40 60 80 100 120 140 160 IFN-a/b, МЕ/мл 0 1 2 3 4 5 6 Численность 120 140 160 IFN-a/b, МЕ/мл 0 2 4 6 Численность 83
  • 85. Два формата представления функции нормального распределения 85
  • 86. Гистограмма и нормальный вероятностный график для данных о содержании IFN-/ у здоровых матерей здоровых новорожденных (n1 = 16) 50 75 100 125 150 175 IFN-a/b, МЕ/мл 0 1 2 3 4 5 6 7 8 9 Численность -2 -1,5 -1 -0,5 0 0,5 1 1,5 Медианы порядковых статистик 25 50 75 100 125 150 IFN-a/b,МЕ/мл 86
  • 87. Гистограмма и нормальный вероятностный график для данных о содержании IFN-/ у матерей новорожденных с ЗВУР (n2 = 20) 112 128 144 160 176 IFN-a/b, МЕ/мл 0 1 2 3 4 5 6 7 8 Численность -2 -1,5 -1 -0,5 0 0,5 1 1,5 Медианы порядковых статистик 112 128 144 160 176 IFN-a/b,МЕ/мл 87
  • 88. Аналитические решения задачи проверки согласия данных с нормальным распределением – критерии «нормальности» 88
  • 89. 89 Проверка согласия с нормальным (гауссовым) распределением для данных о содержании IFN-/ у матерей здоровых детей и детей с ЗВУР Статистический критерий Наблюдаемые Р-значения, Pval Здоровые ЗВУР Андерсона-Дарлинга 0,25 0,15 Шапиро-Уилка 0,19 0,21 Коэффициента асимметрии 0,059 0,46 Коэффициент эксцесса 0,23 0,34 Жарка-Бера 0,42 0,14 Гири 0.17 0,26 Д'Агостино 0,068 0,45 Эппса-Палли 0,17 0,048 Все Р-значения превышают пороговое значение 0,05 или почти равны ему. Следовательно у нас почти нет оснований сомневаться в гипотезе о согласии с нормальным распределением для анализируемых данных в обеих группах .
  • 90. Описательные статистики с 95%-и ДИ, вычисленными методом бутстрепа Программа PAST http://folk.uio.no/ohammer/past/ Показатель Символы Здоровые ЗВУР Объем выборки N, n 16 20 Среднее, МЕ/мл M, 71,089,5106,0 133,8141,6149,5 Дисперсия s2, D, V, Var 449,71330,12262,4 167,8335,7510,0 Стандартное отклонение, МЕ/мл s, SD 21,2136,4747,56 12,9618,3222,58 Коэффициент вариации CV 0,290,410,69 0,100,130,18 Стандартная ошибка (среднего), МЕ/мл m, SE 5,309,1211,89 2,904,105,05 Медиана, МЕ/мл Me 7789108 134142153 Псевдомедиана (медиана Ходжеса-Лемана) MeHL 69,586,5108 133141,5150 Коэффициент асимметрии A, As 0,100,882,44 -0,810,0480,77 Коэффициент эксцесса E, Ex -2,80,803,0 -1,95-0,400,68 90
  • 92. Перекрывание-неперекрывание ДИ • Перекрывание или неперекрывание ДИ для оцениваемых средних двух совокупностей может служить простым критерием статистической значимости наблюдаемых различий. • В данном случае можно видеть, что 95%-е ДИ почти для всех основных показателей в сравниваемых группах не перекрываются, т.е. почти всех их можно признать статистически значимо различающимися на уровне значимости α = 0,05 (= 1 – 0,95). 92
  • 93. 93 Результаты статистического сравнения групп матерей здоровых детей и детей с ЗВУР, (1 - α) = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/ • В данном примере абсолютный размер эффекта ES есть попросту разность средних: • ES = 26,652,177,6 у.е. • Стандартизированный размер эффекта по Коуэну: • dC = 1,87 • Его можно интерпретировать как сильный (большой).
  • 94. Размеры эффекта с 95%-и ДИ Размер эффекта Символы Наблюдаемые значения Разность средних, (МЕ/мл) Δ, SE 33,152,171,1 Стандартизированный размер эффекта по Коуэну dC 0,91,92,7 Непараметрический стандартизированный размер эффекта с 95%-м ДИ δ 0,81,72,5 Площадь под ROC-кривой AUC 0,780,891,00 Непараметрическая площадь под ROC-кривой θ 0,720,890,96 94
  • 95. • В нашем случае показатели AUC и θ • равны • AUC = 0,780,891,00 • и • θ = 0,720,890,96 • Т.е. с вероятностью 95% эффективность различения сравниваемых групп лежит в пределах от удовлетворительной до отличной. 95
  • 96. Общепринятые словесные интерпретации для градаций AUC Интервалы значений AUC Способность диагностического теста распознавать наличие или отсутствие болезни 0,9 – 1,0 Отличная 0,8 – 0,9 Хорошая 0,7 – 0,8 Удовлетворительная 0,6 – 0,7 Посредственная 0,5 – 0,6 Неудовлетворительная < 0,5 Абсурдная
  • 97. 97 Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с ЗВУР, 1-α = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/ 80 70 60 50 40 30 20 10 0 -10 -20 -30 -40 -50 0 20 40 60 80 100 120 140 160 180 200 Здоровые СЗРП Difference Цитокин(у.е.) • 99%-й ДИ для разности средних не накрывает значение 0. • Следовательно оцениваемая разность статистически значимо отличается от 0 на уровне значимости 0,01. • Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную. • Вывод: Содержание IFN-/ у матерей новорожденных с ЗВУР статистически значимо выше, чем у матерей здоровых детей на уровне α = 0,01.
  • 98. Скрипт для бейзовского t-критерия Савиджа-Дики, • Healthy = c(38,42,94,86,170,81,58,92,59,71,103,101,93,70,115,159) • IUGR = c(104,134,153,123,132,144,162,147,123,171,121,130,140,127,134,168,149,146,173,151) • group1=Healthy • group2=IUGR • dataSim=SD(group1=group1, • group2=group2, • iters=100000, • burns=5001, • chains=5, • thins=1, • sample=2, • sig=2, • wod=getwd(), • prior='cauchy', • dcheck=2, • plot=F, • bugsdir = "c:/winbugs14" )
  • 99. • Предварительно надо иметь установленными программы WinBUGS и пакет для R 2RWinBugs
  • 100.
  • 101. Критерий Брюннера-Мюняеля (Brunner and Munzel test) • Y<- c(38,42,94,86,170,81,58,92,59,71,103,101,93, 70,115,159) • N<- c(104,134,153,123,132,144,162,147,123,171, 121,130,140,127,134,168,149,146,173,151) • brunner.munzel.test(Y, N) • Нужен пакет LawStat
  • 102. • Brunner-Munzel Test • data: Y and N • Brunner-Munzel Test Statistic = 5.3381, df = 15.573, • p-value = 7.297e-05 • 95 percent confidence interval: 0.7351518 1.0460982 • sample estimates: P(X<Y)+.5*P(X=Y) 0.890625
  • 103. Сравнение дисперсий и средних F-критерий, P-значение Pval 0,0057 Критерий Левена Pval 0,061 Критерий Коновера Pval 0,13 t-критерий Уэлча, df = 20,99; t = 5,21 Pval 3,6∙10-5 Критерий Уилкоксона-Манна-Уитни Pval 1,9∙10-5 Рандомизационный (перестановочный) критерий (метод Монте-Карло) Pval 1,1∙10-5 t-критерий Савиджа-Дики, бейзов фактор BF01 0,0016 BF10 625 103
  • 104. 104 Повторение – мать познания • Повторение составляет суть науки: • ученый должен всегда задумываться о том, что произойдет, если он или другой ученый повторят его эксперимент (Guttman, 1977). • Ученые разработали метод определения надежности (валидности) своих результатов. • Они научились задавать вопрос: воспроизводимы ли они? (Scherr, 1983). 104
  • 106. 106 Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с ЗВУР. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm 106
  • 107. 107 Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC 107
  • 108. Воспроизводимость и предсказания размеров эффектов ES и dC и P-значения при повторении изучения содержания INF-α/β у матерей здоровых новорожденных и новорожденных с ЗВУР Вероятность воспроизведения статистически значимого эффекта (на уровне α = 0,05) Psrep 0,99 95%-е ПИ для P-значения Pval [3∙10-11; 0,010] 95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9] 95%-е ПИ для стандартизированного размера эффекта по Коуэну dC [0,79; 3,0] 108 Итак, удается предсказать, что при повторении эксперимента с вероятностью 95% размер эффекта dC может получиться от умеренного до очень большого.
  • 109. Принцип Правдоподобия • Наблюдаемое значение бейзова фактора BF10 = 625 свидетельствует о том, что в 625 раз более правдоподобно получить наблюдаемые различия (размеры эффекта) при условии, что верна альтернативная гипотеза H1, чем при условии, что верна нулевая гипотеза H0. • Другими словами, апостериорные шансы в пользу H1 против H0 в 625 раз превышают их априорные шансы. 109
  • 110. Вероятности гипотез • Апостериорная вероятность альтернативной гипотезы H1 можно вычислить по формуле • P(H1|D) = BF10/(1 + BF10) • в нашем случае P(H1|D) = 0,998 • Апостериорная вероятность нулевой гипотезы H0 можно вычислить как • P(H0|D) = 1 - P(H1) • В нашем случае P(H0|D) = 0,002. • Непременное условие: a priori вероятности обеих гипотез предполагаются равными: • P(H1) = P(H0) = 1/2 110
  • 111. 111 Диагностика Есть (D+) Нет (D-) Положительный (T+)  Чувствительность Se = P(T+|D+) X Ложный «позитив» coSp = (1 – Sp) = P(T+|D-) Отрицательный (T-) X Ложный «негатив» coSe = (1 – Se) = P(T-|D+)  Специфичность Sp = P(T-|D-) Тест Болезнь 111
  • 112. 112 Теория Неймана-Пирсона: Ошибки I и II рода, уровень значимости α и мощность критерия Power = (1 – β) Верна H1: ES  0 Верна Ho: ES = 0 H0 отклонена (принята H1)  Верное решение Мощность (1 - ) X Ошибка I рода с вероятностью  H0 не отклонена X Ошибка II рода с вероятностью   Верное решение (1 – α) Критерий Действитель- ность 112
  • 113. Истинный позитив, верна H1 Истинный негатив, верна H0 Ложный позитив, ошибка I рода, ложная тревога Ложный негатив, ошибка II рода, ложная беспечность H1: есть беременность; H0: нет беременности 113
  • 114. Судебные ошибки Вердикт: подозреваемый Действительность: подозреваемый H1: виновен H0: невиновен Виновен Верное решение Неверное решение (Ошибка первого рода, ложное осуждение) Невиновен Неверное решение (Ошибка второго рода, ложное опрадание) Верное решение 114
  • 115. Ошибки I и II рода Результат применения статистического критерия Верная гипотеза H1 H0 Решено принять H1 и отклонить H0 H1 верно принята H0 верно отклонена Вероятность (1 – β) – мощность H1 неверно принята H0 неверно отклонена, (Ошибка первого рода, ложная тревога) Вероятность α – уровень значимости Решено принять H0 и отклонить H1 H0 неверно принята H1 неверно отклонена, (Ошибка второго рода, недостаточная бдительность) Вероятность β H0 верно принята, H1 верно отклонена Вероятность (1 – α) 115
  • 116. 116 Мощность статистического критерия • Мощность статистического критерия есть вероятность того, что критерий правильно отклонит ложную нулевую гипотезу (правильно примет верную альтернативную гипотезу). • Традиционно ее обозначают (1 – β), где β - вероятность ошибки II рода. • Чем больше мощность критерия, тем меньше вероятность совершить ошибку II рода. • Ее можно интерпретировать как чувствительность статистического критерия к отклонениям от условий нулевой гипотезы. 116
  • 117. 117 Анализ мощности a priori или post-hoc • Анализ мощности можно проводить либо a priori, т.е. до получения данных, либо post hoc, т.е. после получения данных. • A priori анализ мощности обычно используется для оценки объема выборки N, необходимого для достижения приемлемой мощности. • Post hoc анализ мощности используется для оценки достигнутой мощности. • В этом случае предполагается, что наблюдаемый эффект и его варьирование равны истинным значениям параметров. 117
  • 118. 118 Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/ • Достигнутая мощность проведенного исследования составила • (1 – β) = 0,9987 118
  • 120. 120 Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3 • Оценка a priori минимально необходимого объема выборки N для достижения статистически значимого отличия наблюдаемой доли от ожидаемого значения при заданных уровне значимости α и мощности (1 – β). 120
  • 121. 121 Оценка необходимых объемов выборок (a priori) 121 • Для достижения приемлемой статистической мощности • (1 – β) = 0,95 • достаточно было иметь группы по 12 человек.
  • 123. Предсказательный и доверительный интервалы для данных о содержании IFN-/ у здоровых матерей здоровых новорожденых 123
  • 124. Предсказательный и доверительный интервалы для данных о содержании IFN-/ у матерей доношенных новорожденных с ЗВУР 124
  • 125. Сопоставление 95%-х ПИ и 95%-х ДИ для сравниваемых групп 125
  • 126. 126 Повторение – мать познания • Повторение составляет суть науки: • ученый должен всегда задумываться о том, что произойдет, если он или другой ученый повторят его эксперимент (Guttman, 1977). • Ученые разработали метод определения надежности (валидности) своих результатов. • Они научились задавать вопрос: воспроизводимы ли они? (Scherr, 1983). 126
  • 128. Воспроизводимость и предсказания размеров эффектов ES и dC и P- значения при повторении изучения содержания INF-α/β у матерей здоровых новорожденных и новорожденных с ЗВУР Вероятность воспроизведения статистически значимого эффекта (на уровне α = 0,05) Psrep 0,99 95%-е ПИ для P-значения Pval [3∙10-11; 0,010] 95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9] 95%-е ПИ для стандартизированного размера эффекта по Коуэну dC [0,79; 3,0] 128 Итак, удается предсказать, что при повторении эксперимента с вероятностью 95% размер эффекта dC может получиться от умеренного до очень большого.
  • 129. 129 Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с ЗВУР. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm 129
  • 130. 130 Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC 130
  • 131. Определение угла наклона вертлужного компонента
  • 132. Диаграммы «короб с усами» для данных от восьми хирургов
  • 134. Основные описательные статистики с границами 95%-х доверительных интервалов (ДИ)
  • 135. Параметрический однофакторный дисперсионный анализ (ANOVA) и попарные сравнения для данных от восьми хирургов Все полученные P-значения больше уровня значимости α = 0,05 (P > 0,05). У нас нет оснований сомневаться в отсутствии различий между данными от всех хирургов.
  • 136. Непараметрический однофакторный дисперсионный анализ (критерий Краскала-Уоллиса) и попарные сравнения для данных от восьми хирургов
  • 137. Сравнение двух групп операций с направителем и без него
  • 138. Совмещение гистограмм для двух групп операций с направителем и без него 10 20 30 40 50 60 Angle 0 20 40 60 80 100 Frequency
  • 139. Проверка согласия с нормальным (гауссовым) распределением Группа С направителем Без направителя Объемы выборок, N 390 300 Критерий P-значения Шапиро-Уилка 0,10 0,085 Жарка-Бера 0,0098 0,042 Монте-Карло 0,015 0,041 Чем меньше P-значение, тем больше основание сомневаться в согласии наших данных с нормальным распределением. Пороговым значением принято считать уровень значимости α < 0,05.
  • 140. Гистограмма и нормальный вероятностный график для группы операций с направителем 10 20 30 40 50 Angle 0 20 40 60 80 100 Frequency -3 -2 -1 0 1 2 Normal order statistic medians 10 20 30 40 50 Angle
  • 141. Доверительные (ДИ) и предсказательные (ПИ) интервалы для группы операций с направителем
  • 142. Гистограмма и нормальный вероятностный график для группы операций без направителя 20 30 40 50 60 Angle 0 20 40 60 Frequency -3 -2 -1 0 1 2 Normal order statistic medians 20 30 40 50 60 Angle
  • 143. Доверительные (ДИ) и предсказательные (ПИ) интервалы для группы операций без направителя
  • 144. Сопоставление предсказательных и доверительных интервалов для правых и левых протезов ТБС
  • 145. Сравнение параметров распределений для двух групп операций с направителем и без него с помощью параметрических критериев F и t
  • 146. Сравнение распределений для двух групп операций с направителем и без него с помощью непараметрических критериев Манна-Уитни и Коновера Критерий Манна-Уитни Статистика, P-значение (двустороннее) 66019 0,0038 Критерий Коновера Статистика, P-значение (двустороннее) 46738584 0,60 Программа PAST http://folk.uio.no/ohammer/past/ Программа AtteStat http://attestatsoft.narod.ru/
  • 147.
  • 148. Визуализация результатов сравнения двух групп операций с направителем и без него 20 18 16 14 12 10 8 6 4 2 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 0 10 20 30 40 50 60 70 Guide NoGuide Difference Angle(Grade) • 99%-й ДИ для разности средних не накрывает значение 0. • Следовательно оцениваемая разность статистически значимо отличается от 0 на уровне значимости 0,01. • Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную. • Среднее в группе операций без направителя статистически значимо превышает среднее в группе с направителем
  • 149. Программа Bayes Factor Calculator http://pcl.missouri.edu/bayesfactor
  • 150. Программа Bayes Factor Calculator http://pcl.missouri.edu/bayesfactor • BF01 = 0,065 • BF10 = 1/BF01 = 15,3 • Примерно в 15 раз более правдоподобно получить наблюдаемое различие при условии, что верна нулевая гипотеза H0, чем при условии, что справедлива альтернативная гипотеза H1. • Такое свидетельство в пользу H1 против H0 можно интерпретировать как сильное.
  • 151. Размеры эффекта с 99%-и ДИ Размер эффекта Симв олы Наблюдаемые значения Разность средних, (МЕ/мл) Δ, SE 0,351,52,72 Стандартизированный размер эффекта по Коуэну dC 0,260,260,87 Непараметрический стандартизированный размер эффекта с 95%-м ДИ δ 0,070,230,38 Площадь под ROC-кривой AUC 0,520,56,0,61 Непараметрическая площадь под ROC-кривой θ 0,520,560,61 151
  • 152. Непараметрическая оценка двух стандартизированных размеров эффекта при сравнении двух групп операций с направителем и без него 10 20 30 40 50 60 Angle 0 20 40 60 80 100 Frequency
  • 153. Достигнутая мощность статистического критерия при уровне значимости α = 0,01: (1 - β) = 0,78
  • 155. Минимальные объемы выборок, необходимые для достижения мощности (1 – β) = 0,95 при уровне значимости α = 0,01: n1 = 477 и n2 = 619
  • 156. 995-е предсказательные интервалы (ПИ) и вероятности воспроизведения (Psrep и др.) для размера эффекта (разности средних, Δ или ES) в исходных единицах измерения
  • 157. Предсказательные интервалы (ПИ) и вероятности воспроизведения (Psrep и др.) для стандартизированного размера эффекта по Коуэну, dC
  • 158. Предсказательные интервалы (ПИ) и вероятности воспроизведения (Psrep и др.) для размера эффекта (Δ или ES) при 10-кратном увеличении объемов выборок
  • 159. Предсказательные интервалы (ПИ) и вероятности воспроизведения (Psrep и др.) для размера эффекта по Коуэну (dC) при 10-кратном увеличении объемов выборок
  • 160. Воспроизводимость и предсказания размеров эффектов ES и dC и P- значения при повторении изучения углов с направителем и без него Вероятность воспроизведения статистически значимого эффекта (на уровне α = 0,01) Psrep 0,71 99%-е ПИ для P-значения Pval [10-12; 0,62] 99%-е ПИ для разности средних (град.) ES, Δ [-0,14; 3,2] 99%-е ПИ для стандартизированного размера эффекта по Коуэну dC [-0,02; 5,4] 160 Итак, удается предсказать, что при повторении эксперимента с вероятностью 95% оба размера эффекта ES и dC могут получиться статистически незначимыми.
  • 161. Statistics → Correlation table -20 0 20 40 60 80 100 IL4 -25 0 25 50 75 100 IL13
  • 162. Statistics → Correlation table Линейный коэффициент корреляции Пирсона r • r = 0,90 • Pval = 1,3∙10-26 Ранговый коэффициент корреляции Спирмена rS • rS = 0,061 • Pval = 0,61
  • 163. 163 Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000) • Исследования должны быть как минимум двухэтапными. • Первый этап – разведочное (пилотное, порождающее гипотезы) исследование. • Второй этап – проверочное (подтверждающее или опровергающее) исследование. • Оно планируется на основе результатов разведочного исследования. 163
  • 166. Симеон Дени Пуассон (Siméon Denis Poisson, 21.06.1781—25.04.1840)
  • 167. Упорядоченный посев и пуассонер – высокоточная техника количественной микробиологии МЕДИЦИНА. XXI ВЕК № 2 (11) 2008, c. 92-97
  • 168. Н. Н. Хромов-Борисов, Jenifer Saffi , Joao A. P. Henriques Упорядоченный посев и пуассонер – высокоточная техника количественной микробиологии
  • 170. Распределение Пуассона • Распределение числа событий, происходящих в фиксированном временнóм или пространственном интервале (объеме), • при условии, • что эти события независимы и что • вероятность совпадения (попадания в одну точку пространства) или одновременного наступления двух и более событий пренебрежимо мала.
  • 171. Распределение Пуассона • P(k) = e-λλk/k! • e = 2,71828 – основание натурального логарифма • k! = 1·2·…(k-1)·k – факториал • Характеристическое свойство раcпределения Пуассона – его математическое ожидание (среднее значение) и дисперсия равны друг другу: • Ek* = Dk* = λ, • т.е. это распределение имеет всего лишь один параметр λ.
  • 175. Распределения числа колоний дрожжей на десяти чашках Петри, порожденные пуассонером, и их сравнение с распределением числа колоний, полученных традиционным методом посева.
  • 177. http://ihg.gsf.de/cgi-bin/hw/hwa1.pl Case-control studies. Tests for deviation from Hardy-Weinberg equilibrium and tests for association. SNP Tests for deviation from Hardy-Weinberg equilibrium Tests for association (C.I.: 95% confidence interval) Controls Cases allele freq. difference heterozygous homozygous allele positivity Armitage's trend test ACE n11 = 1317 (1327.8) n12 = 2980 (2958.4) n22 = 1637 (1647.8) f_a1 = 0.47 +/-0.005 F = -0.007 p = 0.57 (Pearson) p = 0.57 (Llr) p = inf (Exact) n11 = 1056 (1010.7) n12 = 2214 (2304.6) n22 = 1359 (1313.7) f_a1 = 0.47 +/-0.005 F = 0.04 p = 0.0075 (Pearson) p = 0.0075 (Llr) p = inf (Exact) Risk allele 2 [1]<->[2] [11]<->[12] [11+]<->[22] [11]<->[12+22] common odds ratio OR = 1.0 C.I. = [0.97-1.1] p = 0.40 (P) OR = 0.9 C.I. = [0.8-1.0] p = 0.13 OR = 1.0 C.I. = [0.9-1.2] p = 0.53 OR = 1.0 C.I. = [0.9-1.1] p = 0.45 OR = 1.0 p = 0.41 Risk allele 1 [2]<->[1] [22]<->[12] [22]<->[11] [11+12]<->[22] common odds ratio OR = 1.0 C.I. = 0.9-1.0] p = 0.40 (P) OR = 0.9 C.I. = [0.8-1.0] p = 0.016 OR = 1.0 C.I. = [0.9-1.1] p = 0.53 OR = 0.9 C.I. = [0.8-1.0] p = 0.045 OR = 1.0 p = 0.41 177