Modern free biostatistical software ppt

Современное общедоступное ПО
для биостатистических
вычислений
Никита Николаевич Хромов-Борисов
Кафедра физики, математики и информатики
СПбГМУ им. акад. И.П. Павлова (Санкт-Петербург)
8-952-204-89-49
Nikita.KhromovBorisov@gmail.com

Визуализация исходных данных и
результатов их статистического
описания

Программа Instat+
http://www.reading.ac.uk/ssc/n/software/instat/337/Instat+_v3.37.msi
3

Jeffery S., Saggar Malik A.K., CrosbY A., BlanD M., Eastwood J.B., Amoah-Danquah J., Acheampong J.W., Plange-Rhule J.
A dominant relationship between the ACE D allele and serum ACE levels in a Ghanaian population
J. Med. Genet. 1999;36:869-870
4
Table 1 Serum ACE in U/l for each ACE genotype
ACE genotype
II ID DD
24 26 48 82 60 50 21 23
27 48 62 42 56 20 43 35
42 31 47 74 57 37 33 8
42 15 35 45 57 24 46 60
19 31 25 25 24 53 89 31
36 43 55 98 62 83 70
25 44 28 62 27 50 125
26 61 52 82 21 20 69
33 52 56 71 21 65
74 62 68 33 35 77
32 38 97 34 90 65
44 37 32 37 117 82
30 39 36 35 100 38
29 132 103 77 41 38
Mean
(SD)
34.5 (13.6) 51.3 (23.8) 53.3 (29.5)
Median
(range)
31 (19-74) 47.5 (15-132) 46 (8-125)

Graphics → Boxplot Data to be plotted, Plot data
point, with jitter, Show
confidence limits for medians,
Show means

Заголовки по осям X и Y

«Коробы с усами»

График (диаграмма) «короб с усами»

Резко выделяющиеся (выскакивающие)
значения – «выбросы»
• Выскакивающие значения можно и нужно
выявлять.
• Но отбрасывать их следует на основе
внестатистических соображений.
• Например, если записано значение для
артериального давления 1100, то
очевидно, что здесь опечатка: лишняя 1
или лишний 0.
13

Статистические предсказания
14

Statistics → Simple Models → Normal, One Sample

19
95%-е ПИ и ДИ для активности АПФ

http://smed.ru/guides/363/?q=%E0%ED%E3%E8%EE&search_type=tree#article
Эталонные (референсные) значения для
уровня активности АПФ
Возраст Активность, Ед/л
< 12 9,4 – 37
13 – 16 9 – 33,4
Взрослые 6,1 – 26,6
20
У здоровых индивидуумов в норме уровень
концентрации ACE между индивидуумами может
колебаться в 4-5 раз, а внутрииндивидуальная
вариабельность намного ниже.
http://medbiol.ru/medbiol/ace/00008b43.htm

Plot → Historgam → Fit normal
Разбивка на 6 классов Разбивка на 5 классов

Правая клавиша мыши →
Graph preferences → Font

Copy graphic Plot → Normal probability plot
0 30 60 90 120
Активность АПФб U/L
0
5
10
15
Численность

Два формата представления функции
нормального распределения
26

Graph preferences
-3 -2 -1 0 1 2
Normal order statistic medians
0
30
60
90
120
Samplevalues

Plot → Histogram
0 25 50 75 100 125
Активность АПФ, U/L
0
4
8
12
16
20

Проверка согласия с нормальным распределением
Statistics → Normality tests
II ID DD
N 14 50 33
Критерий
Шапиро-
Уилка
0,0067 0,0028 0,077
Жарка-
Бера
0,0012 0,00064 0,25
Монте-
Карло
0,0021 0,0050 0,10
Андерсона
-Дардинга
0,018 0,011 0,097

Описательная статистика и ДИ
Statistics → Univariate
Statistics → Univariate →
Bootstrap

Statistics → Univariate → Bootstrap
ID
Границы 95%-го ДИ
DD
Границы 95%-го ДИ
L
нижняя
U
верхняя
L
нижняя
U
верхняя
N 50 33
Min 15 8
Max 132 125
M 51,3 44,6 57,4 53,3 43,1 62,7
SE 3,36 2,31 4,07 5,14 3,86 6,16
Var 565,2 266,9 823,4 871,6 490,9 1253,1
SD 23,77 16,34 28,70 29,52 22,15 35,40
Me 47,5 38,5 57 46 27 55
Q1 33,75 29,5 39,75 32 26 55
Q2 62 49,25 67,75 73,5 57,5 90,5
As 1,2 0,58 2,0 0,73 0,13 1,4
Ex 1,7 -1,1 4,1 -0,11 -2,0 1,0

AtteStat
http://attestatsoft.narod.ru/download/AtteStat_32.exe

AtteStat → Описательная статистика

AtteStat → Проверка нормальности

Statistics → One-way ANOVA Statistics → Kruskal-Wallis

Однофакторный дисперсионный анализ
(One-way ANOVA)
• F-критерий: Pval = 0,051
• Критерии Левена (Levene's test)
для проверки равенства
дисперсий:
• На основе средних, Pval = 0,084
• На основе медиан, Pval = 0,020
• Критерий Уэлча (Welch F test) в
случае неравных дисперсий:
• Pval = 0,0020
• Q-Критерий Тьюки для попарных
множественных сравнений:
• ID DD
• II 0,051 0,025
• ID 0,96
• Критерий Крaскала-Уоллиса
(Kruskal-Wallis test)
• II ID DD
• II 0,0056 0,037
• ID 0,017 0,97
• DD 0,11 1
• Над диагональю – попарные
сравнения по
двухвыборочному критерию
Манна-Уитни
• Под диагональю – то же, но с
поправкой по Бонферрони на
множественность сравнений

Пример 2
ДА, F-критерий и Q-
критерий Тьюки
Критерий Краскала-Уоллиса
и критерий Манна-Уитни с
поправкой по Бонферрони и
без нее

Много совпадающих значений, данные надо
анализировать как счетные
-3 -2 -1 0 1 2
Нормальные порядковые статистики для медиан
88
90
92
94
96
98
Возраст

AtteStat – кросстабуляция → Критерий
Фримана-Холтона

Оценка точного P-значения методом Монте-
Карло (10 млн. рандомизаций)

BF01 = 9,3 в пользу нулевой гипотезы о
независимости (однородности)

Синдром статистической
снисходительности
или
значение и назначение
P-значения

• Хромов-Борисов Н.Н.
• Синдром статистической
снисходительности или значение и
назначение P-значения // 16.02.2011 г.
• http://tele-conf.ru/aktualnyie-problemyi-
tehnologicheskih-izyiskaniy/sindrom-
statisticheskoy-snishoditelnosti-ili-znachenie-
i-naznachenie-p-znacheniya.html

• Хромов-Борисов Н.Н., Рубанович А.В.
• Основные причины неизбежной
неопределенности и низкой прогностичности в
генетике предрасположенностей //
• Cб. тезисов Российского конгресса с
международным участием «Молекулярные
основы клинической медицины – возможное и
реальное». – СПб.: Изд-во «Человек и его
здоровье», 2012. – С. 233-236.

• Статистические аспекты генетики
предрасположенностей
• Генетика предрасположенностей –
разбитые мечты и утраченные грёзы
• http://prev-med.ru/ru/itogi.html

Единые требования
• Редакции многих отечественных и зарубежных биомедицинских
журналов при подготовке к публикации научных статей
рекомендуют авторам руководствоваться «Едиными требованиями
к рукописям, представляемым в биомедицинские журналы».
• Требования разрабатывает Международный комитет редакторов
медицинских журналов (International Committee of Medical Journal
Editors – ICMJE).
• Эти требования регулярно пересматриваются, и последняя их
редакция датирована октябрем 2008 г.:
• http://www.icmje.org/index.html
• На русский наиболее удачно переведена редакция 2005 г.:
• http://www.mediasphera.ru/mjmp/2005/5/10.pdf
46

Единые требования, раздел «Статистика»
• В этих требованиях в разделе «Статистика» сказано:
• «Описывайте статистические методы настолько детально,
чтобы осведомленный читатель, имеющий доступ к
исходным данным, мог проверить сообщаемые Вами
результаты.
• По возможности, подвергайте полученные данные
количественной оценке и представляйте их с
соответствующими показателями ошибок измерения и
неопределенности или варьирования измерений (такими как
доверительные интервалы).
• Не следует полагаться исключительно на проверку
статистических гипотез, например, на использование Р-
значений, которые не содержат важную информацию о
размере эффекта».
47

Экология человека, 2008. - № 7. - С. 57-64.
• Обновленные требования появились недавно в журнале
«Экология человека», в которых в частности содержится
чрезвычайно важное предостережение:
• «Всегда следует помнить, что выявление
статистически значимых различий еще не означает
наличия достоверных или клинически важных
различий, а также причинно-следственных связей».
• Несмотря на рекомендацию «не полагаться
исключительно на использование P-значения», до сих
пор во многих научных публикациях оно фигурирует как
решающий показатель значимости наблюдаемых
авторами эффектов, различий, корреляций и т.п.
48

49
Р-значение
• P-значение есть условная вероятность, а именно:
• Вероятность получить наблюдаемое значение tнабл. статистики
некоего критерия T и все остальные еще менее вероятные
значения этой статистики (или значения, еще более
отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна
нулевая гипотеза H0:
• Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0].
• Тут следует обратить внимание на то, что «еще менее
вероятные значения статистики критерия» не являются
«данными», мы их не наблюдаем.
• Мы их додумываем из всех возможных значений в рамках
выбранной нами (нулевой) модели.
49

50
Традиционная интерпретация
P-значений (шкала Michelin)
P-значение Статистическая
значимость
Шкала Мишлена
> 0,05 Незначимо
0,05 – 0,01 Умеренно значимо *
0,01 – 0,001 Значимо **
< 0,001 Высоко значимо ***
50

51
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н.
Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с.
• Выбор уровня значимости определяется
важностью биологических выводов,
которые должен сделать
экспериментатор.
• В настоящее время многие биометрики
склоняются к следующему правилу:
• а) если P > 0,05, то принимается нулевая
гипотеза;
• б) если P < 0,01, то нулевая гипотеза
отклоняется и принимается
конкурирующая;
• в) если 0,01 < P < 0,05, то результат
считается неопределенным.
51

52
[0,05; 0,01] – «серая зона»
P-значение Статистическая
значимость
Шкала Мишлена
> 0,05 Незначимо
От 0,05 до 0,01 Неопределенно *
От 0,01 до 0,001 Значимо **
< 0,001 Высоко значимо ***
52

Не «достоверный», но «статистически значимый»
http://ru.wikipedia.org/wiki/Статистическая_значимость
• В отечественных научных работах часто
употребляется неправильный термин
«достоверность» вместо термина
«статистическая значимость».
• См.:
• Зорин Н.А. О неправильном употреблении
термина "достоверность"
в российских научных психиатрических и
общемедицинских статьях
• http://www.biometrica.tomsk.ru/let1.htm
53

54
Распространенный соблазн
• Квинтэссенцию традиционных (частотнических)
заключений при проверке статистических гипотез
принято интерпретировать так:
• чем меньше P-значение, тем весомее доводы против
нулевой гипотезы H0, которые предоставляют нам
имеющиеся данные; тем больше у нас оснований
сомневаться в H0.
• Отсюда невольно (и вроде бы естественно) возникает
соблазн интерпретировать P-значение как вероятность
нулевой гипотезы.
54

55
Распространенное заблуждение
• P-значение не есть вероятность нулевой гипотезы !
• Поскольку P-значение вычисляется
при условии,
• что справедлива нулевая гипотеза H0: t0 = 0
• Pval = Pr[|T| ≥ |tнабл.| | H0: t0 = 0],
• то оно никак не может быть вероятностью нулевой
гипотезы:
• P{D|H0} ≠ P{H0|D}
• Здесь |T| ≥ |tнабл.| суть все значения статистики критерия
T, которые (по модулю) равны наблюдаемому значению
|tнабл.| и превышают его.
55

P-значение не есть вероятность нулевой
гипотезы!
• Подробнее о том, чем еще не является Р-
значение, см. энциклопедическую статью:
• http://en.wikipedia.org/wiki/P-value
• и недавнюю работу С. Гудмана, в которой
перечислена «грязная дюжина» ошибочных
интерпертаций Р-значения:
• Goodman S. A dirty dozen: Twelve P-value
misconceptions // Semin. Hematol., 2008. - Vol. 45.
– P. 135-140.
56

Еще раз:
• Принципиально важно понять и
запомнить, что
• P(D|H0) ≠ P(H0|D)
• т.е. что вероятность P(D|H0) получить
наблюдаемые данные D при условии, что
верна нулевая гипотеза H0, не есть
вероятность P(H0|D) нулевой гипотезы
при условии, что получены наблюдаемые
данные D.

Калибровка P-значений
• Как уже было сказано, Р-значение не может быть
вероятностью нулевой гипотезы P(H0).
• Но именно вероятность нулевой гипотезы, очевидно, должна
интересовать исследователя более всего.
• К сожалению традиционная частотническая статистика не
способно вычислять эту веротяность.
• Это может делать бейзовская статистика.
• Уже относительно давно статистики-бейзовцы предложили
калибровать Р-значения относительно вероятности P(H0).
• В простейшем варианте удается оценить не P(H0), а лишь ее
нижнюю границу (минимально достижимое значение) P(H0).
58

Калибровка p-значения
• Sellke T., Bayarri M.J., Berger J.O.
• Calibration of p Values for Testing Precise Null Hypotheses
• The American Statistician, Vol. 55, No. 1. (2001), pp. 62-71.
• При
 
1
0
1
1









ppe
DHP
ln
ep 1
59

60
Калибровка P-значений
Held L. A nomogram for P values.
BMC Medical Research Methodology 2010, 10:21
doi:10.1186/1471-2288-10-21
http://www.biostat.uzh.ch/static/pnomogram/

«Цена» Р-значения
P-значение
Нижняя граница
для вероятности
нулевой гипотезы
P(H0)
Верхняя граница
для вероятности
воспроизведения
Рrepr
0,05 > 30% < 50%
0,01 > 10% < 75%
0,001 > 2% < 90%
Для наглядности значения в таблице округлены до первой значащей
цифры. Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и
1,8%.
Posavac E.J. Using p values to estimate the probability of statistically
significant replication // Understanding Statistics, 2002. – Vol. 1. – No. 2. – P.
101-112.
64

Калибровка P-значений (округленно)
Pval Min
P(H0|D)
Max
P(H1|D)
Min BF01 Max BF10 P(H0|D) P(H1|D)
0,05 0,29 0,71 0,41 2,46 0,71 0,29
0,01 0,11 0,89 0,13 7,99 0,89 0,11
0,0086 0,10 0,90 0,11 9 0,90 0,10
0,0035 0,05 0,95 0,053 19 0,95 0,05
0,001 0,018 0,98 0,019 53,3 0,98 0,018
0,00049 0,01 0,99 0,010 99 0,99 0,01
0,000036 0,001 0,999 0,001 999 0,999 0,001

Значение и назначение
P-значения
66

Прямая выгода
• Надо перестать судорожно цепляться за уровень
значимости α = 0,05 (и скоре всего и за α = 0,01) и
некритично объявлять случаи его преодоления
(Pval < 0,05) статистически значимыми (или даже
«достоверными») событиями.
• Если мы сконцентрируемся на преодолении
уровня α = 0,001, т.е. будем считать статистически
значимыми Pval < 0,001, то в итоге сможем
съэкономить массу времени и средств и реже
выявлять ложные неподтверждающиеся эффекты.
67

Диалог
• - Надо забыть о P < 0,05
(точнее о 0,001 < P < 0,05).
• - Тогда надо закрыть всю нашу науку.
• - Да, такую науку надо закрывать.
68

69
Бейзов фактор, BF
• Бейзов фактор BF принципиально отличается от Р-
значения.
• Бейзов фактор не является вероятностью сам по себе, а
является отношением вероятностей, и он может
варьировать от нуля до бесконечности.
• Он требует знания двух гипотез, тем самым четко
указывая, что если есть свидетельства против нулевой
гипотезы, то должны существовать свидетельства и в
пользу альтернативной гипотезы.
• BF01 = P(D|H0)/ P(D|H1)
• BF10 = P(D|H1) / P(D|H0)

70
Интерпретация убедительности
Бейзовых факторов, BF10 и BF01
BF10
Свидетельство в
пользу гипотезы Н1
против гипотезы Н0
>100 Убедительное
30 – 100 Очень сильное
10 – 30 Сильное
3 – 10 Умеренное
1 – 3 Пренебрежимо
малое
BF01
Свидетельство в
пользу гипотезы Н0
против гипотезы Н1
<0,01 Убедительное
0,01 – 0,03 Очень сильное
0,03 – 0,1 Сильное
0,1 – 0,3 Умеренное
0,3 - 1 Пренебрежимо
малое

Размеры эффекта
71

72
Размер эффекта
• Вопрос о практической важности (клинической
ценности) наблюдаемого
• Размера Эффекта
• является ключевым при интерпретации
результатов биомедицинских исследований,
таких как диагностические исследования,
клинические испытания и т.п.
• Размер эффекта можно выражать в реальных
единицах, а можно сделать его безразмерным –
Стандартизированным.
72

73
Стандартизированный размер эффекта по
Коуэну (Cohen) dC
pooleds
MM
d 21
C


73

74
Интерпретация стандартизированного размера эффекта dC
http://www.sportsci.org/resource/stats/
Размер эффекта, dC Градация эффекта
0 – 0,2 Ничтожный
0,2 – 0,6 Малый
0,6 – 1,2 Умеренный
1,2 – 2,0 Большой
2,0 – 4,0 Очень большой
4,0 -  Исключительно большой
74

75
Содержание INF-α/β у 16 здоровых матерей здоровых
детей и у 20 матерей доношенных новорожденных с ЗВУР
Здоровые, n1 = 16 ЗВУР, n2 = 20
№ IFN-α/β,
МЕ/мл
№ IFN-α/β,
МЕ/мл
№ IFN-α/β,
МЕ/мл
№ IFN-α/β,
МЕ/мл
1 38 9 92 1 104 11 144
2 42 10 93 2 121 12 146
3 58 11 94 3 123 13 147
4 59 12 101 4 123 14 149
5 70 13 103 5 127 15 151
6 71 14 115 6 130 16 153
7 81 15 159 7 132 17 162
8 86 16 170 8 134 18 168
9 134 19 171
10 140 20 173

• Невооруженным глазом можно видеть, что в
группе здоровых матерей здоровых
новорожденных чаще наблюдаются более
низкое содержание INF-α/β, чем в группе
матерей новорожденных с ЗВУР.
• По-видимому, различия в содержании
INF-α/β в сравниваемых группах существенны и
могут представлять клиническую ценность.
76

Статистическое описание
77

Диаграммы «короб с усами» для данных об уровне индуцированной
продукции IFN-/ у здоровых матерей здоровых детей и у матерей
доношенных новорожденных с ЗВУР.
Программа Instat+ (URL: http://www.reading.ac.uk/ssc/n/n_instat.htm)
78

Проверка согласия с
нормальным (гауссовым)
распределения
79

80
Гистограммы содержания INF-α/β у здоровых матерей здоровых детей
и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 4
класса. Программа PAST (URL: http://folk.uio.no/ohammer/past/)
Здоровые ЗВУР
112 128 144 160 176
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
9
Сплошные кривые суть теоретически ожидаемые плотности
нормального распределения.

Сопоставление гистограмм для содержания INF-α/β у
здоровых матерей здоровых детей и матерей доношенных
новорожденных с ЗВУР
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
2
4
6
8
10
12
14
16
• Синие столбцы –
гистограмма для данных
в группе здоровых
матерей.
• Красные столбцы –
гистограмма для данных
в группе матерей
новорожденных с ЗВУР.
• Сплошные кривые суть
теоретически ожидаемые
плотности нормального
распределения.
81

• При малых объемах выборок гистограмма
является очень ненадежным средством
глазомерной проверки согласия данных с
нормальным распределением.
• Форма гистограммы может сильно изменяться в
зависимости от числа столбцов (классов) в
гистограмме.
• Поэтому более надежным средством являются
нормальные вероятностные графики.
82

Гистограммы содержания INF-α/β у здоровых матерей здоровых детей
и матерей доношенных новорожденных с ЗВУР. Данные разбиты на 5
классов. Программа PAST (URL: http://folk.uio.no/ohammer/past/)
40 60 80 100 120 140 160
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
120 140 160
IFN-a/b, МЕ/мл
0
2
4
6
83

Нормальный вероятностный
график
84

Два формата представления функции
нормального распределения
85

Гистограмма и нормальный вероятностный график для
данных о содержании IFN-/ у здоровых матерей
здоровых новорожденных (n1 = 16)
50 75 100 125 150 175
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
9
-2 -1,5 -1 -0,5 0 0,5 1 1,5
Медианы порядковых статистик
25
50
75
100
125
150
IFN-a/b,МЕ/мл
86

данных о содержании IFN-/ у матерей новорожденных с
ЗВУР (n2 = 20)
112 128 144 160 176
IFN-a/b, МЕ/мл
0
1
2
3
4
5
6
7
8
-2 -1,5 -1 -0,5 0 0,5 1 1,5
Медианы порядковых статистик
112
128
144
160
176
IFN-a/b,МЕ/мл
87

Аналитические решения
задачи проверки согласия
данных с нормальным
распределением – критерии
«нормальности»
88

89
Проверка согласия с нормальным (гауссовым)
распределением для данных о содержании IFN-/ у
матерей здоровых детей и детей с ЗВУР
Статистический критерий
Наблюдаемые Р-значения, Pval
Андерсона-Дарлинга 0,25 0,15
Шапиро-Уилка 0,19 0,21
Коэффициента асимметрии 0,059 0,46
Коэффициент эксцесса 0,23 0,34
Жарка-Бера 0,42 0,14
Гири 0.17 0,26
Д'Агостино 0,068 0,45
Эппса-Палли 0,17 0,048
Все Р-значения превышают пороговое значение 0,05 или почти
равны ему. Следовательно у нас почти нет оснований сомневаться в
гипотезе о согласии с нормальным распределением для
анализируемых данных в обеих группах .

Описательные статистики с 95%-и ДИ, вычисленными методом бутстрепа
Программа PAST http://folk.uio.no/ohammer/past/
Показатель Символы Здоровые ЗВУР
Объем выборки N, n 16 20
Среднее, МЕ/мл M, 71,089,5106,0 133,8141,6149,5
Дисперсия s2, D, V, Var 449,71330,12262,4 167,8335,7510,0
Стандартное отклонение, МЕ/мл s, SD 21,2136,4747,56 12,9618,3222,58
Коэффициент вариации CV 0,290,410,69 0,100,130,18
Стандартная ошибка (среднего),
МЕ/мл
m, SE 5,309,1211,89 2,904,105,05
Медиана, МЕ/мл Me 7789108 134142153
Псевдомедиана (медиана
Ходжеса-Лемана)
MeHL 69,586,5108 133141,5150
Коэффициент асимметрии A, As 0,100,882,44 -0,810,0480,77
Коэффициент эксцесса E, Ex -2,80,803,0 -1,95-0,400,68
90

Статистические
доказательства
91

Перекрывание-неперекрывание ДИ
• Перекрывание или неперекрывание ДИ для
оцениваемых средних двух совокупностей
может служить простым критерием
статистической значимости наблюдаемых
различий.
• В данном случае можно видеть, что 95%-е ДИ
почти для всех основных показателей в
сравниваемых группах не перекрываются, т.е.
почти всех их можно признать статистически
значимо различающимися на уровне
значимости α = 0,05 (= 1 – 0,95).
92

93
Результаты статистического сравнения групп матерей здоровых детей и
детей с ЗВУР, (1 - α) = 0,99. Программа ESCI JSMS.xls
http://www.latrobe.edu.au/psy/esci/
• В данном примере
абсолютный размер эффекта
ES есть попросту разность
средних:
• ES = 26,652,177,6 у.е.
• Стандартизированный размер
эффекта по Коуэну:
• dC = 1,87
• Его можно интерпретировать
как сильный (большой).

Размеры эффекта с 95%-и ДИ
Размер эффекта Символы Наблюдаемые значения
Разность средних, (МЕ/мл) Δ, SE 33,152,171,1
Стандартизированный размер
эффекта по Коуэну dC 0,91,92,7
Непараметрический
стандартизированный размер
эффекта с 95%-м ДИ δ 0,81,72,5
Площадь под ROC-кривой
AUC 0,780,891,00
Непараметрическая площадь
под ROC-кривой
θ
0,720,890,96
94

• В нашем случае показатели AUC и θ
• равны
• AUC = 0,780,891,00
• и
• θ = 0,720,890,96
• Т.е. с вероятностью 95% эффективность
различения сравниваемых групп лежит в
пределах от удовлетворительной до
отличной. 95

Общепринятые словесные
интерпретации для градаций AUC
Интервалы значений AUC
Способность
диагностического теста
распознавать наличие или
отсутствие болезни
0,9 – 1,0 Отличная
0,8 – 0,9 Хорошая
0,7 – 0,8 Удовлетворительная
0,6 – 0,7 Посредственная
0,5 – 0,6 Неудовлетворительная
< 0,5 Абсурдная

97
Графическое представление результатов статистического сравнения
групп матерей здоровых детей и детей с ЗВУР, 1-α = 0,99. Программа
ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/
80
70
60
50
40
30
20
10
0
-10
-20
-30
-40
-50
0
20
40
60
80
100
120
140
160
180
200
Здоровые СЗРП Difference
Цитокин(у.е.)
• 99%-й ДИ для разности средних не
накрывает значение 0.
• Следовательно оцениваемая
разность статистически значимо
отличается от 0 на уровне
значимости 0,01.
• Соответственно мы можем взять
на себя смелость отклонить
нулевую гипотезу о равенстве
средних и принять
альтернативную.
• Вывод: Содержание IFN-/ у
матерей новорожденных с ЗВУР
статистически значимо выше, чем
у матерей здоровых детей на
уровне α = 0,01.

Скрипт для бейзовского t-критерия
Савиджа-Дики,
• Healthy = c(38,42,94,86,170,81,58,92,59,71,103,101,93,70,115,159)
• IUGR = c(104,134,153,123,132,144,162,147,123,171,121,130,140,127,134,168,149,146,173,151)
• group1=Healthy
• group2=IUGR
• dataSim=SD(group1=group1,
• group2=group2,
• iters=100000,
• burns=5001,
• chains=5,
• thins=1,
• sample=2,
• sig=2,
• wod=getwd(),
• prior='cauchy',
• dcheck=2,
• plot=F,
• bugsdir = "c:/winbugs14"
)

• Предварительно надо иметь
установленными программы WinBUGS и
пакет для R 2RWinBugs

Критерий Брюннера-Мюняеля
(Brunner and Munzel test)
• Y<-
c(38,42,94,86,170,81,58,92,59,71,103,101,93,
70,115,159)
• N<-
c(104,134,153,123,132,144,162,147,123,171,
121,130,140,127,134,168,149,146,173,151)
• brunner.munzel.test(Y, N)
• Нужен пакет LawStat

• Brunner-Munzel Test
• data: Y and N
• Brunner-Munzel Test Statistic = 5.3381, df =
15.573,
• p-value = 7.297e-05
• 95 percent confidence interval: 0.7351518
1.0460982
• sample estimates: P(X<Y)+.5*P(X=Y)
0.890625

Сравнение дисперсий и средних
F-критерий, P-значение Pval 0,0057
Критерий Левена Pval 0,061
Критерий Коновера Pval 0,13
t-критерий Уэлча, df = 20,99; t = 5,21 Pval 3,6∙10-5
Критерий Уилкоксона-Манна-Уитни Pval 1,9∙10-5
Рандомизационный (перестановочный)
критерий (метод Монте-Карло)
Pval 1,1∙10-5
t-критерий Савиджа-Дики, бейзов фактор BF01 0,0016
BF10 625
103

104
Повторение – мать познания
• Повторение составляет суть науки:
• ученый должен всегда задумываться о том, что
произойдет, если он или другой ученый повторят его
эксперимент (Guttman, 1977).
• Ученые разработали метод определения надежности
(валидности) своих результатов.
• Они научились задавать вопрос: воспроизводимы ли
они? (Scherr, 1983).
104

105
и воспроизводимость
105

106
Воспроизводимость и предсказания абсолютного размера эффекта для
групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm
106

107
Воспроизводимость и предсказания стандартизированного
размера эффекта по Коуэну (Cohen) dC
107

Воспроизводимость и предсказания размеров эффектов ES и dC и
P-значения при повторении изучения содержания INF-α/β у матерей
здоровых новорожденных и новорожденных с ЗВУР
Вероятность воспроизведения
статистически значимого эффекта (на
уровне α = 0,05)
Psrep 0,99
95%-е ПИ для P-значения Pval [3∙10-11; 0,010]
95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9]
95%-е ПИ для стандартизированного
размера эффекта по Коуэну
dC [0,79; 3,0]
108
Итак, удается предсказать, что при повторении эксперимента с
вероятностью 95% размер эффекта dC может получиться от
умеренного до очень большого.

Принцип Правдоподобия
• Наблюдаемое значение бейзова фактора BF10 =
625 свидетельствует о том, что в 625 раз более
правдоподобно получить наблюдаемые
различия (размеры эффекта) при условии, что
верна альтернативная гипотеза H1, чем при
условии, что верна нулевая гипотеза H0.
• Другими словами, апостериорные шансы в
пользу H1 против H0 в 625 раз превышают их
априорные шансы.
109

Вероятности гипотез
• Апостериорная вероятность альтернативной гипотезы H1
можно вычислить по формуле
• P(H1|D) = BF10/(1 + BF10)
• в нашем случае P(H1|D) = 0,998
• Апостериорная вероятность нулевой гипотезы H0 можно
вычислить как
• P(H0|D) = 1 - P(H1)
• В нашем случае P(H0|D) = 0,002.
• Непременное условие: a priori вероятности обеих гипотез
предполагаются равными:
• P(H1) = P(H0) = 1/2
110

111
Диагностика
Есть (D+) Нет (D-)
Положительный
(T+)

Чувствительность
Se = P(T+|D+)
X
Ложный «позитив»
coSp = (1 – Sp) =
P(T+|D-)
Отрицательный
(T-)
X
Ложный «негатив»
coSe = (1 – Se) =
P(T-|D+)

Специфичность
Sp = P(T-|D-)
Тест
Болезнь
111

112
Теория Неймана-Пирсона: Ошибки I и II рода, уровень
значимости α и мощность критерия Power = (1 – β)
Верна H1: ES  0 Верна Ho: ES = 0
H0 отклонена
(принята H1)

Верное решение
Мощность (1 - )
X
Ошибка I рода с
вероятностью 
H0 не отклонена
X
Ошибка II рода с
вероятностью 

(1 – α)
Критерий
Действитель-
ность
112

Истинный
позитив,
верна H1
Истинный
негатив,
верна H0
Ложный
позитив,
ошибка I
рода,
ложная
тревога
Ложный
негатив,
ошибка II рода,
ложная
беспечность
H1: есть беременность; H0: нет беременности
113

Судебные ошибки
Вердикт:
подозреваемый
Действительность: подозреваемый
H1: виновен H0: невиновен
Виновен Верное решение
Неверное решение
(Ошибка первого рода,
ложное осуждение)
Невиновен
Неверное решение
(Ошибка второго рода,
ложное опрадание)
114

Ошибки I и II рода
Результат
применения
статистического
критерия
Верная гипотеза
H1 H0
Решено принять
H1 и отклонить H0
H1 верно принята
H0 верно отклонена
Вероятность (1 – β) –
мощность
H1 неверно принята
H0 неверно отклонена,
(Ошибка первого рода,
ложная тревога)
Вероятность α –
уровень значимости
Решено принять H0
и отклонить H1
H0 неверно принята
H1 неверно отклонена,
(Ошибка второго рода,
недостаточная
бдительность)
Вероятность β
H0 верно принята,
H1 верно отклонена
Вероятность (1 – α)
115

116
Мощность статистического критерия
• Мощность статистического критерия есть
вероятность того, что критерий правильно отклонит
ложную нулевую гипотезу (правильно примет
верную альтернативную гипотезу).
• Традиционно ее обозначают (1 – β), где β -
вероятность ошибки II рода.
• Чем больше мощность критерия, тем меньше
вероятность совершить ошибку II рода.
• Ее можно интерпретировать как чувствительность
статистического критерия к отклонениям от условий
нулевой гипотезы.
116

117
Анализ мощности a priori или post-hoc
• Анализ мощности можно проводить либо a priori, т.е. до
получения данных, либо post hoc, т.е. после получения
данных.
• A priori анализ мощности обычно используется для
оценки объема выборки N, необходимого для
достижения приемлемой мощности.
• Post hoc анализ мощности используется для оценки
достигнутой мощности.
• В этом случае предполагается, что наблюдаемый эффект
и его варьирование равны истинным значениям
параметров.
117

118
Оценка достигнутой мощности (post hoc). Программа G*Power
http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/
• Достигнутая
мощность
проведенного
исследования
составила
• (1 – β) = 0,9987
118

119
Элементы планирования
эксперимента
119

120
Программа G*Power
http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3
• Оценка a priori минимально
необходимого объема выборки N для
достижения статистически значимого
отличия наблюдаемой доли от
ожидаемого значения при заданных
уровне значимости α и мощности (1 – β).
120

121
Оценка необходимых объемов выборок (a priori)
121
• Для достижения
приемлемой
статистической
мощности
• (1 – β) = 0,95
• достаточно было
иметь группы по 12
человек.

122

Предсказательный и доверительный интервалы для
данных о содержании IFN-/ у здоровых матерей
здоровых новорожденых
123

Предсказательный и доверительный интервалы для
данных о содержании IFN-/ у матерей доношенных
новорожденных с ЗВУР
124

Сопоставление 95%-х ПИ и 95%-х ДИ для
сравниваемых групп
125

126
Повторение – мать познания
• Повторение составляет суть науки:
• ученый должен всегда задумываться о том, что
произойдет, если он или другой ученый повторят его
эксперимент (Guttman, 1977).
• Ученые разработали метод определения надежности
(валидности) своих результатов.
• Они научились задавать вопрос: воспроизводимы ли
они? (Scherr, 1983).
126

127
и воспроизводимость
127

Воспроизводимость и предсказания размеров эффектов ES и dC и P-
значения при повторении изучения содержания INF-α/β у матерей
здоровых новорожденных и новорожденных с ЗВУР
Psrep 0,99
95%-е ПИ для P-значения Pval [3∙10-11; 0,010]
95%-е ПИ для разности средних (МЕ/мл) ES, Δ [25,3; 78,9]
dC [0,79; 3,0]
128
вероятностью 95% размер эффекта dC может получиться от
умеренного до очень большого.

129
Воспроизводимость и предсказания абсолютного размера эффекта для
групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm
129

130
Воспроизводимость и предсказания стандартизированного
размера эффекта по Коуэну (Cohen) dC
130

Определение угла наклона вертлужного
компонента

Диаграммы «короб с усами»
для данных от восьми хирургов

Основные описательные статистики

Основные описательные статистики с границами
95%-х доверительных интервалов (ДИ)

Параметрический однофакторный дисперсионный анализ
(ANOVA) и попарные сравнения для данных от восьми
хирургов
Все полученные P-значения больше уровня значимости α = 0,05 (P > 0,05).
У нас нет оснований сомневаться в отсутствии различий между данными от
всех хирургов.

Непараметрический однофакторный дисперсионный
анализ (критерий Краскала-Уоллиса) и попарные сравнения
для данных от восьми хирургов

Сравнение двух групп операций с направителем и без него

Совмещение гистограмм для двух групп операций с
направителем и без него
10 20 30 40 50 60
Angle
0
20
40
60
80
100
Frequency

Проверка согласия с нормальным (гауссовым)
распределением
Группа С направителем Без направителя
Объемы выборок, N 390 300
Критерий P-значения
Шапиро-Уилка 0,10 0,085
Жарка-Бера 0,0098 0,042
Монте-Карло 0,015 0,041
Чем меньше P-значение, тем больше основание сомневаться в
согласии наших данных с нормальным распределением.
Пороговым значением принято считать уровень значимости
α < 0,05.

Гистограмма и нормальный вероятностный график
для группы операций с направителем
10 20 30 40 50
Angle
0
20
40
60
80
100
Frequency
-3 -2 -1 0 1 2
10
20
30
40
50
Angle

Доверительные (ДИ) и предсказательные (ПИ) интервалы
для группы операций с направителем

группы операций без направителя
20 30 40 50 60
Angle
0
20
40
60
Frequency
-3 -2 -1 0 1 2
20
30
40
50
60
Angle

Доверительные (ДИ) и предсказательные (ПИ) интервалы
для группы операций без направителя

Сопоставление предсказательных и
доверительных интервалов для правых и левых
протезов ТБС

Сравнение параметров распределений для двух групп
операций с направителем и без него с помощью
параметрических критериев F и t

Сравнение распределений для двух групп операций с
направителем и без него с помощью непараметрических
критериев Манна-Уитни и Коновера
Критерий Манна-Уитни
Статистика, P-значение
(двустороннее)
66019 0,0038
Критерий Коновера
Статистика, P-значение
(двустороннее)
46738584 0,60
Программа PAST
http://folk.uio.no/ohammer/past/
Программа AtteStat
http://attestatsoft.narod.ru/

Визуализация результатов сравнения двух групп операций
с направителем и без него
20
18
16
14
12
10
8
6
4
2
0
-2
-4
-6
-8
-10
-12
-14
-16
-18
-20
0
10
20
30
40
50
60
70
Guide NoGuide Difference
Angle(Grade)
• 99%-й ДИ для разности средних не
накрывает значение 0.
• Следовательно оцениваемая
разность статистически значимо
отличается от 0 на уровне
значимости 0,01.
• Соответственно мы можем взять
на себя смелость отклонить
нулевую гипотезу о равенстве
средних и принять
альтернативную.
• Среднее в группе операций без
направителя статистически
значимо превышает среднее в
группе с направителем

Программа Bayes Factor Calculator
http://pcl.missouri.edu/bayesfactor

Программа Bayes Factor Calculator
http://pcl.missouri.edu/bayesfactor
• BF01 = 0,065
• BF10 = 1/BF01 = 15,3
• Примерно в 15 раз более
правдоподобно получить
наблюдаемое различие при
условии, что верна нулевая
гипотеза H0, чем при условии,
что справедлива
альтернативная гипотеза H1.
• Такое свидетельство в пользу
H1 против H0 можно
интерпретировать как сильное.

Размеры эффекта с 99%-и ДИ
Размер эффекта Симв
олы
Наблюдаемые значения
Разность средних, (МЕ/мл)
Δ, SE 0,351,52,72
Стандартизированный размер
эффекта по Коуэну dC 0,260,260,87
Непараметрический
стандартизированный размер
эффекта с 95%-м ДИ δ 0,070,230,38
Площадь под ROC-кривой
AUC 0,520,56,0,61
Непараметрическая площадь
под ROC-кривой
θ
0,520,560,61
151

Непараметрическая оценка двух стандартизированных
размеров эффекта при сравнении двух групп операций с
направителем и без него
10 20 30 40 50 60
Angle
0
20
40
60
80
100
Frequency

Достигнутая мощность статистического критерия при
уровне значимости α = 0,01:
(1 - β) = 0,78

154
Элементы планирования
эксперимента
154

Минимальные объемы выборок, необходимые для достижения
мощности (1 – β) = 0,95 при уровне значимости α = 0,01:
n1 = 477 и n2 = 619

995-е предсказательные интервалы (ПИ) и вероятности
воспроизведения (Psrep и др.) для размера эффекта (разности средних, Δ
или ES) в исходных единицах измерения

Предсказательные интервалы (ПИ) и вероятности воспроизведения
(Psrep и др.) для стандартизированного размера эффекта по Коуэну, dC

(Psrep и др.) для размера эффекта (Δ или ES) при 10-кратном увеличении
объемов выборок

(Psrep и др.) для размера эффекта по Коуэну (dC) при 10-кратном
увеличении объемов выборок

Воспроизводимость и предсказания размеров эффектов ES и dC и P-
значения при повторении изучения углов с направителем и без него
Psrep 0,71
99%-е ПИ для P-значения Pval [10-12; 0,62]
99%-е ПИ для разности средних (град.) ES, Δ [-0,14; 3,2]
dC [-0,02; 5,4]
160
вероятностью 95% оба размера эффекта ES и dC могут получиться
статистически незначимыми.

Statistics → Correlation table
-20 0 20 40 60 80 100
IL4
-25
0
25
50
75
100
IL13

Statistics → Correlation table
Линейный коэффициент
корреляции Пирсона r
• r = 0,90
• Pval = 1,3∙10-26
Ранговый коэффициент
корреляции Спирмена rS
• rS = 0,061
• Pval = 0,61

163
Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000)
• Исследования должны быть как
минимум двухэтапными.
• Первый этап – разведочное
(пилотное, порождающее
гипотезы) исследование.
• Второй этап – проверочное
(подтверждающее или
опровергающее) исследование.
• Оно планируется на основе
результатов разведочного
исследования.
163

Статистика в клеточной
биологии

Распределение Пуассона

Симеон Дени Пуассон (Siméon Denis
Poisson, 21.06.1781—25.04.1840)

Упорядоченный посев и пуассонер –
высокоточная техника количественной
микробиологии
МЕДИЦИНА. XXI ВЕК
№ 2 (11) 2008, c. 92-97

Н. Н. Хромов-Борисов, Jenifer Saffi , Joao A. P. Henriques
Упорядоченный посев и пуассонер – высокоточная
техника количественной микробиологии

Упорядоченный посев

• Распределение числа событий, происходящих в
фиксированном временнóм или
пространственном интервале (объеме),
• при условии,
• что эти события независимы и что
• вероятность совпадения (попадания в одну
точку пространства) или одновременного
наступления двух и более событий
пренебрежимо мала.

• P(k) = e-λλk/k!
• e = 2,71828 – основание натурального логарифма
• k! = 1·2·…(k-1)·k – факториал
• Характеристическое свойство раcпределения
Пуассона – его математическое ожидание
(среднее значение) и дисперсия равны друг
другу:
• Ek* = Dk* = λ,
• т.е. это распределение имеет всего лишь один
параметр λ.

Сравнение упорядоченного посева
с обычным методом

Воспроизводимость

Распределения числа колоний дрожжей на десяти чашках Петри,
порожденные пуассонером, и их сравнение с распределением числа
колоний, полученных традиционным методом посева.

http://ihg.gsf.de/cgi-bin/hw/hwa1.pl
Case-control studies. Tests for deviation from Hardy-Weinberg equilibrium
and tests for association.
SNP
Tests for deviation from
Hardy-Weinberg
equilibrium
Tests for association (C.I.: 95% confidence interval)
Controls Cases
allele freq.
difference
heterozygous homozygous allele positivity
Armitage's
trend test
ACE
n11 = 1317
(1327.8)
n12 = 2980
(2958.4)
n22 = 1637
(1647.8)
f_a1 = 0.47
+/-0.005
F = -0.007
p = 0.57
(Pearson)
p = 0.57
(Llr)
p = inf
(Exact)
n11 = 1056
(1010.7)
n12 = 2214
(2304.6)
n22 = 1359
(1313.7)
f_a1 = 0.47
+/-0.005
F = 0.04
p = 0.0075
(Pearson)
p = 0.0075
(Llr)
p = inf
(Exact)
Risk allele 2
[1]<->[2] [11]<->[12] [11+]<->[22] [11]<->[12+22]
common
odds ratio
OR = 1.0
C.I. = [0.97-1.1]
p = 0.40 (P)
OR = 0.9
C.I. = [0.8-1.0]
p = 0.13
OR = 1.0
C.I. = [0.9-1.2]
p = 0.53
OR = 1.0
C.I. = [0.9-1.1]
p = 0.45
OR = 1.0
p = 0.41
Risk allele 1
[2]<->[1] [22]<->[12] [22]<->[11] [11+12]<->[22]
common
odds ratio
OR = 1.0
C.I. = 0.9-1.0]
p = 0.40 (P)
OR = 0.9
C.I. = [0.8-1.0]
p = 0.016
OR = 1.0
C.I. = [0.9-1.1]
p = 0.53
OR = 0.9
C.I. = [0.8-1.0]
p = 0.045
OR = 1.0
p = 0.41
177

http://www.ekstroem.com/assotest/assotest.html
Web-Assotest
178

Modern free biostatistical software ppt

Recommended

Recommended

More Related Content

More from Nikita Khromov-Borisov

More from Nikita Khromov-Borisov (14)

Modern free biostatistical software ppt