SlideShare a Scribd company logo
1 of 34
Лекция 10. Непараметрические методы
Курбацкий А. Н.
МШЭ МГУ
18 апреля 2016
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 1 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 2 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 3 / 34
Идея
В предыдущих лекциях рассматривались тесты для проверок
гипотез о математических ожиданиях, дисперсиях и пр. Однако,
при построении этих тестов предполагалось, что тестируемые
генеральные совокупности имеют нормальное распределение.
Важно!
Желательно иметь возможность работать и с выборками, которые не
имеют нормального распределения, и чтобы они были применимы для
номинальных и порядковых данных.
Разумеется, при отказе отказе от предположения о том, что
выборка имеет нормальное распределения, должна снизиться
мощность критерия. Это означает, что для отвержения нулевой
гипотезы требуются значительные отклонения статистики
критерия.
Для обеспечения той же мощности приходится брать большую
выборку.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 4 / 34
Три типа критериев
Мы рассмотрим непараметрические критерии следующих трёх
основных типов.
Во-первых – критерии однородности, проверяющие гипотезы о
том, что две выборки взяты из одного и того же распределения.
Во-вторых, мы обсудим непараметрические аналоги
коэффициента корреляции и линейной регрессии.
В-третьих, это критерии случайности, проверяющие гипотезы о
том, что выборка взята из одного распределения, и критерии
нормальности, проверяющие гипотезы о том, что выборка взята
из нормального распределения1.
1
Это обширная тема будет обсуждаться на следующей лекции.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 5 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 6 / 34
Постановка задачи
Критерии однородности проверяют гипотезу о том, что данные
выборки представляют собой выборки из одного и того же
распределения. Начнём с критерия знаков.
Пусть даны выборки x1, ..., xn и y1, ..., yn одного объёма. Проверим
гипотезу о том, что они представляют собой две выборки из
одного и того же распределения.
Для проверки образуем разности s1 = x1 − y1, ..., sn = xn − yn и
каждой разности сопоставляем знак +, если она положительна, и
−, если она отрицательна. Разности, равные нулю, просто
отбрасываем.
Идея теста состоит в том, что если выполнено предположение об
однородности, то число минусов и плюсов должно быть примерно
одинаково.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 7 / 34
Критерий знаков
Рассмотрим величину S = min{количество +, количество −}.
В случае, когда n велико (скажем, n ≥ 25), статистика S имеет
приблизительно нормальное распределение с математическим
ожиданием и дисперсией
E(S) =
n − 1
2
, Var(S) =
n
4
,
таким образом, разумно в качестве статистики критерия взять
величину
z∗
=
S − n−1
2
n
4
=
2S + 1 − n
√
n
.
Замечание
В случае, когда n мало, эта величина непосредственно используется
как статистика критерия. Гипотеза об однородности отвергается, если
S < Sкритич. (для критерия знаков есть специальные таблицы).
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 8 / 34
Критерий знаков
Так как при построении величины S брался минимум из числа плюсов
и минусов и нулевая гипотеза отвергалась при малом значении z, то
разумно сформулировать правило принятия решения так.
Важно!
Гипотеза об однородности отвергается, если величина z∗ < −z1−α
2
, где
z1−α
2
есть 1 − α
2 -квантиль стандартного нормального распределения.
Замечание
Критерий знаков является непараметрическим аналогом t-теста. Но
для сохранения той же мощности, придётся брать выборку примерно в
полтора раза больше.
Обратите внимание, что вместо n
2 математическое ожидание равно
E(S) = n−1
2 . Это, так называемая, поправка на непрерывность,
позволяющая значительно улучшить точность приближения
дискретного распределения непрерывным. В данном случае,
биномиальный закон нормальным.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 9 / 34
Таблица для критерия знаков
n α = 0.05 α = 0.1
9 1 1
10 1 1
11 1 2
12 2 2
13 2 3
14 2 3
15 3 3
16 3 4
17 4 4
18 4 5
19 4 5
20 5 5
25 7 7
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 10 / 34
Пример
Имеются выборки
0.01, 0.78, 0.17, 0.5, 0.78, 0.38, 0.22, 0.24, 0.12, 0.14
0.91, 0.42, 0.93, 0.72, 0.62, 0.11, 0.99, 0.67, 0.42, 0.96.
Проверим, что они взяты из одного и того же распределения.
1 Образуем выборку из разностей
−0.89, 0.35, −0.75, −0.22, 0.15, 0.27, −0.77, −0.43, −0.3, −0.81
Таким образом, последовательность знаков будет такой
− + − − + + − − −−
2 Вычисляем статистику z = min{3, 7} = 3.
3 Объём выборки n = 10 мал, то пользуемся специальной таблицей.
Так как z > zкритич = 1, то нулевая гипотеза о том, что выборки
взяты из одинаковых распределений, не отвергается.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 11 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 12 / 34
Проверка гипотезы о медиане
Критерий знаков может быть использован для проверки гипотезы
о значении медианы. Нулевая гипотеза состоит в том, что
медиана распределения равна M.
Сопоставим каждому элементу выборки + или − в зависимости
от того, что имеет место xi > M или xi < M (если случилось так,
что xi = M, то наблюдение отбрасывается).
Далее составляется статистика S при n < 25 или статистика z∗
при n ≥ 25, после чего проверка гипотез ведётся также, как
раньше.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 13 / 34
Пример
Дана выборка
0.90 0.94 0.63 0.37 0.32 0.56 0.99 0.44 0.06 0.07
Проверим гипотезу о том, что медиана соответствующего
распределения равна 0.5. Уровень значимости α = 0.05.
1 Составим последовательность знаков
+ + + − − + + − − −
2 Вычисляем статистику S = min{5, 5} = 5.
3 Так как S > Sкритич = 1, то нулевая гипотеза не отвергается.
Замечание
Для того, чтобы гипотеза отвергалась, требуется значительная
разница между числом плюсов и минусов.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 14 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 15 / 34
Гипотеза о доле
Также критерий знаков может быть использован для проверки
гипотезы о вероятности успеха в испытании Бернулли. Будет
проверяться гипотеза о том, что вероятность успеха равна p.
Тогда можно составить статистику
z∗
=
S − n
2 + p
n
4
=
2S − n + 2p
√
n
,
при n ≥ 25 можно считать, что она приблизительно имеет
нормальное распределение.
Как и раньше, гипотеза отвергается на уровне значимости α, если
z∗ < −z1−α
2
, где z1−α
2
есть 1 − α
2 -квантиль стандартного
нормального распределения.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 16 / 34
Пример
Рассмотрим последовательность из 25 испытаний, пусть результаты
этих испытаний следующие (пишем 1 в случае успеха и 0 в случае
неудачи)
1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
Проверим гипотезу о том, что вероятность успеха равна 0.5.
1 Вычислим статистику
z = min{количество 0, количество 1} = min{6, 19} = 6.
2 Вычислим статистику
z∗
=
12 − 25 + 1
√
25
= −2.4.
3 Так как z∗ < −z0.975 = −1, 96, то гипотеза о том, что вероятность
успеха равна 0.5 отвергается.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 17 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 18 / 34
Гипотеза об однородности (разный объём выборки)
Проверяется гипотеза об однородности для двух выборок
возможно разного объема n и m.
Для проверки гипотезы выборки объединяются и в одну выборку
s1, ..., sn+m, после чего объединённая выборка ранжируется
si1 ≤ ... ≤ sin+m .
Подсчитываем сумму рангов (то есть индексов ik), относящихся к
первой выборке и ко второй выборке. Положим
W = {минимальная из двух сумм рангов}.
Гипотеза об однородности не отвергается, если значение
статистики z больше критического. Если n + m мало (не больше
10), то существует специльная таблица.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 19 / 34
Таблица критических значений статистики Вилкоксона
Таблица 5-процентных критических точек следующая
N
5 0
6 2
7 3
8 5
9 8
10 10
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 20 / 34
Для больших выборок
Если же n + m большое (больше 10), то статистика W имеет
приблизительно нормальное распределение с параметрами2
E(W ) =
n(n + m + 1)
2
, Var(W ) =
nm(n + m + 1)
12
.
Тогда
z∗
=
W − n(n+m+1)
2
nm(n+m+1)
12
имеет приблизительно стандартное нормальное распределение.
Гипотеза отвергается на уровне значимости α, если величина
z∗ < −z1−α
2
, где z1−α
2
есть 1 − α
2 -квантиль стандартного нормального
распределения.
2
Здесь n - это объём выборки с меньший суммой рангов.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 21 / 34
Пример
Возьмём две выборки
0.12, 0.52, 0.45 и 0.68, 0.85, 0.83, 0.07, 0.73, 0.03, 0.65.
Проверим гипотезу об однородности для α = 0.05.
1 Строим объединённую выборку, выделим первую выборку
x1 = 0.12, x2 = 0.52, x3 = 0.45, x4 = 0.68, x5 = 0.85,
x6 = 0.83, x7 = 0.07, x8 = 0.73, x9 = 0.03, x10 = 0.65.
2 Ранжируем объединённую выборку
x(1) = 0.03, x(2) = 0.07, x(3) = 0.12, x(4) = 0.45, x(5) = 0.52,
x(6) = 0.65, x(7) = 0.68, x(8) = 0.73, x(9) = 0.85, x(10) = 0.83.
3 Найдём сумму рангов, относящуюся к первой подвыборке,
получаем 12, а также ко второй подвыборке - 43. Таким образом,
W = 12.
4 Так как W > Wкритич = 10, то гипотеза об однородности не
отвергается.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 22 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 23 / 34
Корреляция
Для двух выборок одного объёма может быть вычислен
коэффициент корреляции, измеряющий силу линейной связи
между двумя случайными величинами.
Однако имеющаяся методика исследования его на значимость
работает лишь в случае двух нормальных выборок.
Приводимые ниже коэффициенты Спирмена и Кендалла могут
быть использованы и для исследования связи двух выборок, не
имеющих нормальных распределений.
Также мы предложим один из вариантов построения
непараметрической линейной регрессии.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 24 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 25 / 34
Коэффициент корреляции Спирмена
Пусть даны две выборки одного и того же объёма x1, ..., xn и y1, ..., yn,
ранжируем их и положим di := Rxi − Ryi .
Определим коэффициент ранговой корреляции Спирмена
формулой
rS := 1 −
6
n3 − n
n
i=1
d2
i .
Замечание
Коэффициент корреляции Спирмена принимает значения в отрезке
[−1, 1], значение 0 получается, если связь между выборками
отсутствует. Единица получится в случае совпадения рангов выборок.
Вообще говоря, после замены выборки на соответствующие ранги
можно просто пользоваться формулой для корреляции Пирсона.
Вышеиспользованная формула удобнее в расчётах, но она работает
только если нет совпадающих значений внутри выборок.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 26 / 34
Проверка значимости
Проверка данного коэффициента на значимость осуществляется
следующим образом.
Составляется дробь
t =
rS
√
n − 2
1 − r2
S
.
Если верна гипотеза о незначимости коэффициента Спирмена,
имеет распределению Стьюдента tn−2.
Соответственно, гипотеза о незначимости отвергается, если
|t| < tкритич,
где tкритич = tn−2(1 − α
2 ) есть 1 − α
2 - квантиль распределения
Стьюдента с (n − 2) степенями свободы.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 27 / 34
Пример
Рассмотрим выборки 0.09, 0.42, 0.85, 0.59, 0.10, 0.23, 0.32 и
0.8, 0.18, 0.25, 0.29, 0.89, 0.93, 0.39.
Проверим гипотезу о том, что коэффициент корреляции Спирмена
незначим (α = 0.05).
1 Ранжируем две выборки и выписываем ранги
Rx1 = 1, Rx2 = 5, Rx3 = 7, Rx4 = 6, Rx5 = 2, Rx6 = 3, Rx7 = 4 и
Ry1 = 5, Ry2 = 1, Ry3 = 2, Ry4 = 3, Ry5 = 6, Ry6 = 7, Ry7 = 4
2 Образуем ряд разностей рангов
d1 = −4, d2 = 4, d3 = 5, d4 = 3, d5 = −4, d6 = −4, d7 = 0
3 Вычисляем коэффициент Спирмена
rS = 1 −
6
73 − 7
(16 + 16 + 25 + 9 + 16 + 16 + 0) = −0.75
4 Вычисляем статистику критерия t = rS
√
n−2√
1−r2
S
= −2.53.
5 Поскольку |t| < tкритич = 2.57, гипотеза о незначимости не
отвергается.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 28 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 29 / 34
Коэффициент корреляции (Кендал)
Пусть даны выборки x1, ..., xn и y1, ..., yn одинаковых объёмов.
Пусть P – число пар (i, j), таких что xi < xj и yi < yj , или xi > xj
и yi > yj .
Пусть I – число пар (i, j), таких что xi > xj и yi < yj , или xi < xj и
yi > yj .
Образуем величину3
τ =
P − I
P + I
.
Для проверки гипотезы о равенстве коэффициента нулю
z =
τ
2(2n+5)
9n(n−1)
,
имеющая приблизительно нормальное распределение при
выполнении гипотезы о равенстве коэффициента Кендала нулю.
3
Можно привести и другие формулы для τ. Так как общее число пар индексов
P + I = n(n−1)
2
, то τ = 1 − 4I
n(n−1)
= 4P
n(n−1)
− 1.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 30 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 31 / 34
Метод Тейла
Один из робастных4 методов нахождения оценок линейной регрессии
устроен так. Вычисляем коэффициенты наклоны по парам точек
βij =
yj − yi
xj − xi
, 1 ≤ i < j ≤ n,
совпадающие значения x исключаем, поэтому общее число βij не
превышает числа сочетаний C2
n . Оценки коэффициентов линейной
модели y = β0 + β1x определяются так:
ˆβ1 = med
yj − yi
xj − xi
, 1 ≤ i < j ≤ n|xi = xj , ˆβ0 = med{yi − ˆβ1xi }.
Важно!
Оценка коэффициента наклона менее точна в условиях гауссовской
модели, но применима в более широких условиях.
4
В данном случае, подразумевается метод устойчивый к выбросам.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 32 / 34
Содержание
1 О непараметрических методах
2 Критерии однородности
Критерий знаков
Критерий знаков для проверки гипотезы о медиане
Критерий знаков для проверки гипотез о вероятности успеха
Критерий Вилкоксона
3 Исследование взаимосвязей между выборками
Коэффициент ранговой корреляции Спирмена
Коэффициент Кендала
Непараметрическая регрессия
4 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 33 / 34
Где и что почитать?
Тема. Непараметрические методы. ([Т-М], §3.4-3.6, 8.5; [И], главы
15-16).
Тюрин Ю. Н., Макаров А.А., Анализ данных на компьютере:
учебное пособие. - 4-е изд., перераб. - М.: ИД Форум, 2008. - 368
с., ил. - (Высшее образование).
Иванов О.В. Статистика. Учебный курс для социологов и
менеджеров. Часть 2. Доверительные интервалы. Проверка
гипотез. Методы и их применение. – М. 2005. – 220 с.
Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 34 / 34

More Related Content

What's hot

Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Лекция 2. Описательная статистика
Лекция 2. Описательная статистикаЛекция 2. Описательная статистика
Лекция 2. Описательная статистикаKurbatskiy Alexey
 
Lecture 5 discrete_distribution
Lecture 5 discrete_distributionLecture 5 discrete_distribution
Lecture 5 discrete_distributionKurbatskiy Alexey
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотезKurbatskiy Alexey
 
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАМЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАCranberry_Katia
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
Лекция 4. Комбинаторика
Лекция 4. КомбинаторикаЛекция 4. Комбинаторика
Лекция 4. КомбинаторикаVladimir Tcherniak
 
15
1515
15JIuc
 
матемтик анализ лекц№ 2
матемтик анализ лекц№ 2матемтик анализ лекц№ 2
матемтик анализ лекц№ 2narangerelodon
 
556 1 алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
556 1  алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с556 1  алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
556 1 алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271сpsvayy
 
Математические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийМатематические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийOlga Maksimenkova
 
Основы комбинаторики - I
Основы комбинаторики - IОсновы комбинаторики - I
Основы комбинаторики - IDEVTYPE
 

What's hot (20)

Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Лекция 2. Описательная статистика
Лекция 2. Описательная статистикаЛекция 2. Описательная статистика
Лекция 2. Описательная статистика
 
Lecture 4 bernoulli_poisson
Lecture 4 bernoulli_poissonLecture 4 bernoulli_poisson
Lecture 4 bernoulli_poisson
 
Lecture 5 discrete_distribution
Lecture 5 discrete_distributionLecture 5 discrete_distribution
Lecture 5 discrete_distribution
 
Lecture 2 algebra
Lecture 2 algebraLecture 2 algebra
Lecture 2 algebra
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотез
 
Lecture 1 intro
Lecture 1 introLecture 1 intro
Lecture 1 intro
 
6
66
6
 
Lecture 3 bayes
Lecture 3 bayesLecture 3 bayes
Lecture 3 bayes
 
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАМЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
 
585
585585
585
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
Лекция 4. Комбинаторика
Лекция 4. КомбинаторикаЛекция 4. Комбинаторика
Лекция 4. Комбинаторика
 
15
1515
15
 
матемтик анализ лекц№ 2
матемтик анализ лекц№ 2матемтик анализ лекц№ 2
матемтик анализ лекц№ 2
 
556 1 алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
556 1  алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с556 1  алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
556 1 алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
 
Soboland Sat
Soboland SatSoboland Sat
Soboland Sat
 
Математические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийМатематические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравнений
 
Ivm1257
Ivm1257Ivm1257
Ivm1257
 
Основы комбинаторики - I
Основы комбинаторики - IОсновы комбинаторики - I
Основы комбинаторики - I
 

Similar to Непараметрические методы

Проверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptxПроверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptxergashevsarvar07
 
Biometrical problems in population studies ppt 2004
Biometrical problems in population studies ppt 2004Biometrical problems in population studies ppt 2004
Biometrical problems in population studies ppt 2004Nikita Khromov-Borisov
 
Lecture 05 Вероятность и риск
Lecture 05 Вероятность и рискLecture 05 Вероятность и риск
Lecture 05 Вероятность и рискVladimir Tcherniak
 
Mathematical processing and analysis of medical and biological data.pdf
Mathematical processing and analysis of medical and biological data.pdfMathematical processing and analysis of medical and biological data.pdf
Mathematical processing and analysis of medical and biological data.pdfssuserc82995
 
20071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture1020071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture10Computer Science Club
 
моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1Andrei V, Zhuravlev
 
Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Andrei V, Zhuravlev
 
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...Иван Иванов
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данныхDEVTYPE
 
курсовая работа
курсовая работакурсовая работа
курсовая работаvictoria_4
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
лекция07
лекция07лекция07
лекция07cezium
 
Представление результатов психологических исследований
Представление результатов психологических исследованийПредставление результатов психологических исследований
Представление результатов психологических исследованийАндрей Четвериков
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияGleb Zakhodiakin
 
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.Vladimir Tcherniak
 

Similar to Непараметрические методы (15)

Проверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptxПроверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptx
 
Biometrical problems in population studies ppt 2004
Biometrical problems in population studies ppt 2004Biometrical problems in population studies ppt 2004
Biometrical problems in population studies ppt 2004
 
Lecture 05 Вероятность и риск
Lecture 05 Вероятность и рискLecture 05 Вероятность и риск
Lecture 05 Вероятность и риск
 
Mathematical processing and analysis of medical and biological data.pdf
Mathematical processing and analysis of medical and biological data.pdfMathematical processing and analysis of medical and biological data.pdf
Mathematical processing and analysis of medical and biological data.pdf
 
20071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture1020071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture10
 
моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1
 
Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5
 
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
курсовая работа
курсовая работакурсовая работа
курсовая работа
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
лекция07
лекция07лекция07
лекция07
 
Представление результатов психологических исследований
Представление результатов психологических исследованийПредставление результатов психологических исследований
Представление результатов психологических исследований
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
Lecture 06. Рекуррентные соотношения и числа Фибоначчи.
 

More from Kurbatskiy Alexey

Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемKurbatskiy Alexey
 
Непараметрические методы (семинары)
Непараметрические методы (семинары)Непараметрические методы (семинары)
Непараметрические методы (семинары)Kurbatskiy Alexey
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Kurbatskiy Alexey
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Kurbatskiy Alexey
 
Распределения, связанные с нормальным
Распределения, связанные с нормальнымРаспределения, связанные с нормальным
Распределения, связанные с нормальнымKurbatskiy Alexey
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оцениванияKurbatskiy Alexey
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценокKurbatskiy Alexey
 

More from Kurbatskiy Alexey (15)

Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
 
Lecture 9 chi_t_f
Lecture 9 chi_t_fLecture 9 chi_t_f
Lecture 9 chi_t_f
 
Project test2 mse_2016
Project test2 mse_2016Project test2 mse_2016
Project test2 mse_2016
 
проект кр1
проект кр1проект кр1
проект кр1
 
КР 2 с решением
КР 2 с решениемКР 2 с решением
КР 2 с решением
 
КР 1 с решением
КР 1 с решениемКР 1 с решением
КР 1 с решением
 
Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решением
 
Problem book probability
Problem book probabilityProblem book probability
Problem book probability
 
КР 3 с решением
КР 3 с решениемКР 3 с решением
КР 3 с решением
 
Непараметрические методы (семинары)
Непараметрические методы (семинары)Непараметрические методы (семинары)
Непараметрические методы (семинары)
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2
 
Распределения, связанные с нормальным
Распределения, связанные с нормальнымРаспределения, связанные с нормальным
Распределения, связанные с нормальным
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оценивания
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценок
 

Непараметрические методы

  • 1. Лекция 10. Непараметрические методы Курбацкий А. Н. МШЭ МГУ 18 апреля 2016 Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 1 / 34
  • 2. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 2 / 34
  • 3. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 3 / 34
  • 4. Идея В предыдущих лекциях рассматривались тесты для проверок гипотез о математических ожиданиях, дисперсиях и пр. Однако, при построении этих тестов предполагалось, что тестируемые генеральные совокупности имеют нормальное распределение. Важно! Желательно иметь возможность работать и с выборками, которые не имеют нормального распределения, и чтобы они были применимы для номинальных и порядковых данных. Разумеется, при отказе отказе от предположения о том, что выборка имеет нормальное распределения, должна снизиться мощность критерия. Это означает, что для отвержения нулевой гипотезы требуются значительные отклонения статистики критерия. Для обеспечения той же мощности приходится брать большую выборку. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 4 / 34
  • 5. Три типа критериев Мы рассмотрим непараметрические критерии следующих трёх основных типов. Во-первых – критерии однородности, проверяющие гипотезы о том, что две выборки взяты из одного и того же распределения. Во-вторых, мы обсудим непараметрические аналоги коэффициента корреляции и линейной регрессии. В-третьих, это критерии случайности, проверяющие гипотезы о том, что выборка взята из одного распределения, и критерии нормальности, проверяющие гипотезы о том, что выборка взята из нормального распределения1. 1 Это обширная тема будет обсуждаться на следующей лекции. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 5 / 34
  • 6. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 6 / 34
  • 7. Постановка задачи Критерии однородности проверяют гипотезу о том, что данные выборки представляют собой выборки из одного и того же распределения. Начнём с критерия знаков. Пусть даны выборки x1, ..., xn и y1, ..., yn одного объёма. Проверим гипотезу о том, что они представляют собой две выборки из одного и того же распределения. Для проверки образуем разности s1 = x1 − y1, ..., sn = xn − yn и каждой разности сопоставляем знак +, если она положительна, и −, если она отрицательна. Разности, равные нулю, просто отбрасываем. Идея теста состоит в том, что если выполнено предположение об однородности, то число минусов и плюсов должно быть примерно одинаково. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 7 / 34
  • 8. Критерий знаков Рассмотрим величину S = min{количество +, количество −}. В случае, когда n велико (скажем, n ≥ 25), статистика S имеет приблизительно нормальное распределение с математическим ожиданием и дисперсией E(S) = n − 1 2 , Var(S) = n 4 , таким образом, разумно в качестве статистики критерия взять величину z∗ = S − n−1 2 n 4 = 2S + 1 − n √ n . Замечание В случае, когда n мало, эта величина непосредственно используется как статистика критерия. Гипотеза об однородности отвергается, если S < Sкритич. (для критерия знаков есть специальные таблицы). Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 8 / 34
  • 9. Критерий знаков Так как при построении величины S брался минимум из числа плюсов и минусов и нулевая гипотеза отвергалась при малом значении z, то разумно сформулировать правило принятия решения так. Важно! Гипотеза об однородности отвергается, если величина z∗ < −z1−α 2 , где z1−α 2 есть 1 − α 2 -квантиль стандартного нормального распределения. Замечание Критерий знаков является непараметрическим аналогом t-теста. Но для сохранения той же мощности, придётся брать выборку примерно в полтора раза больше. Обратите внимание, что вместо n 2 математическое ожидание равно E(S) = n−1 2 . Это, так называемая, поправка на непрерывность, позволяющая значительно улучшить точность приближения дискретного распределения непрерывным. В данном случае, биномиальный закон нормальным. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 9 / 34
  • 10. Таблица для критерия знаков n α = 0.05 α = 0.1 9 1 1 10 1 1 11 1 2 12 2 2 13 2 3 14 2 3 15 3 3 16 3 4 17 4 4 18 4 5 19 4 5 20 5 5 25 7 7 Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 10 / 34
  • 11. Пример Имеются выборки 0.01, 0.78, 0.17, 0.5, 0.78, 0.38, 0.22, 0.24, 0.12, 0.14 0.91, 0.42, 0.93, 0.72, 0.62, 0.11, 0.99, 0.67, 0.42, 0.96. Проверим, что они взяты из одного и того же распределения. 1 Образуем выборку из разностей −0.89, 0.35, −0.75, −0.22, 0.15, 0.27, −0.77, −0.43, −0.3, −0.81 Таким образом, последовательность знаков будет такой − + − − + + − − −− 2 Вычисляем статистику z = min{3, 7} = 3. 3 Объём выборки n = 10 мал, то пользуемся специальной таблицей. Так как z > zкритич = 1, то нулевая гипотеза о том, что выборки взяты из одинаковых распределений, не отвергается. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 11 / 34
  • 12. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 12 / 34
  • 13. Проверка гипотезы о медиане Критерий знаков может быть использован для проверки гипотезы о значении медианы. Нулевая гипотеза состоит в том, что медиана распределения равна M. Сопоставим каждому элементу выборки + или − в зависимости от того, что имеет место xi > M или xi < M (если случилось так, что xi = M, то наблюдение отбрасывается). Далее составляется статистика S при n < 25 или статистика z∗ при n ≥ 25, после чего проверка гипотез ведётся также, как раньше. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 13 / 34
  • 14. Пример Дана выборка 0.90 0.94 0.63 0.37 0.32 0.56 0.99 0.44 0.06 0.07 Проверим гипотезу о том, что медиана соответствующего распределения равна 0.5. Уровень значимости α = 0.05. 1 Составим последовательность знаков + + + − − + + − − − 2 Вычисляем статистику S = min{5, 5} = 5. 3 Так как S > Sкритич = 1, то нулевая гипотеза не отвергается. Замечание Для того, чтобы гипотеза отвергалась, требуется значительная разница между числом плюсов и минусов. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 14 / 34
  • 15. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 15 / 34
  • 16. Гипотеза о доле Также критерий знаков может быть использован для проверки гипотезы о вероятности успеха в испытании Бернулли. Будет проверяться гипотеза о том, что вероятность успеха равна p. Тогда можно составить статистику z∗ = S − n 2 + p n 4 = 2S − n + 2p √ n , при n ≥ 25 можно считать, что она приблизительно имеет нормальное распределение. Как и раньше, гипотеза отвергается на уровне значимости α, если z∗ < −z1−α 2 , где z1−α 2 есть 1 − α 2 -квантиль стандартного нормального распределения. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 16 / 34
  • 17. Пример Рассмотрим последовательность из 25 испытаний, пусть результаты этих испытаний следующие (пишем 1 в случае успеха и 0 в случае неудачи) 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 Проверим гипотезу о том, что вероятность успеха равна 0.5. 1 Вычислим статистику z = min{количество 0, количество 1} = min{6, 19} = 6. 2 Вычислим статистику z∗ = 12 − 25 + 1 √ 25 = −2.4. 3 Так как z∗ < −z0.975 = −1, 96, то гипотеза о том, что вероятность успеха равна 0.5 отвергается. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 17 / 34
  • 18. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 18 / 34
  • 19. Гипотеза об однородности (разный объём выборки) Проверяется гипотеза об однородности для двух выборок возможно разного объема n и m. Для проверки гипотезы выборки объединяются и в одну выборку s1, ..., sn+m, после чего объединённая выборка ранжируется si1 ≤ ... ≤ sin+m . Подсчитываем сумму рангов (то есть индексов ik), относящихся к первой выборке и ко второй выборке. Положим W = {минимальная из двух сумм рангов}. Гипотеза об однородности не отвергается, если значение статистики z больше критического. Если n + m мало (не больше 10), то существует специльная таблица. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 19 / 34
  • 20. Таблица критических значений статистики Вилкоксона Таблица 5-процентных критических точек следующая N 5 0 6 2 7 3 8 5 9 8 10 10 Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 20 / 34
  • 21. Для больших выборок Если же n + m большое (больше 10), то статистика W имеет приблизительно нормальное распределение с параметрами2 E(W ) = n(n + m + 1) 2 , Var(W ) = nm(n + m + 1) 12 . Тогда z∗ = W − n(n+m+1) 2 nm(n+m+1) 12 имеет приблизительно стандартное нормальное распределение. Гипотеза отвергается на уровне значимости α, если величина z∗ < −z1−α 2 , где z1−α 2 есть 1 − α 2 -квантиль стандартного нормального распределения. 2 Здесь n - это объём выборки с меньший суммой рангов. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 21 / 34
  • 22. Пример Возьмём две выборки 0.12, 0.52, 0.45 и 0.68, 0.85, 0.83, 0.07, 0.73, 0.03, 0.65. Проверим гипотезу об однородности для α = 0.05. 1 Строим объединённую выборку, выделим первую выборку x1 = 0.12, x2 = 0.52, x3 = 0.45, x4 = 0.68, x5 = 0.85, x6 = 0.83, x7 = 0.07, x8 = 0.73, x9 = 0.03, x10 = 0.65. 2 Ранжируем объединённую выборку x(1) = 0.03, x(2) = 0.07, x(3) = 0.12, x(4) = 0.45, x(5) = 0.52, x(6) = 0.65, x(7) = 0.68, x(8) = 0.73, x(9) = 0.85, x(10) = 0.83. 3 Найдём сумму рангов, относящуюся к первой подвыборке, получаем 12, а также ко второй подвыборке - 43. Таким образом, W = 12. 4 Так как W > Wкритич = 10, то гипотеза об однородности не отвергается. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 22 / 34
  • 23. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 23 / 34
  • 24. Корреляция Для двух выборок одного объёма может быть вычислен коэффициент корреляции, измеряющий силу линейной связи между двумя случайными величинами. Однако имеющаяся методика исследования его на значимость работает лишь в случае двух нормальных выборок. Приводимые ниже коэффициенты Спирмена и Кендалла могут быть использованы и для исследования связи двух выборок, не имеющих нормальных распределений. Также мы предложим один из вариантов построения непараметрической линейной регрессии. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 24 / 34
  • 25. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 25 / 34
  • 26. Коэффициент корреляции Спирмена Пусть даны две выборки одного и того же объёма x1, ..., xn и y1, ..., yn, ранжируем их и положим di := Rxi − Ryi . Определим коэффициент ранговой корреляции Спирмена формулой rS := 1 − 6 n3 − n n i=1 d2 i . Замечание Коэффициент корреляции Спирмена принимает значения в отрезке [−1, 1], значение 0 получается, если связь между выборками отсутствует. Единица получится в случае совпадения рангов выборок. Вообще говоря, после замены выборки на соответствующие ранги можно просто пользоваться формулой для корреляции Пирсона. Вышеиспользованная формула удобнее в расчётах, но она работает только если нет совпадающих значений внутри выборок. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 26 / 34
  • 27. Проверка значимости Проверка данного коэффициента на значимость осуществляется следующим образом. Составляется дробь t = rS √ n − 2 1 − r2 S . Если верна гипотеза о незначимости коэффициента Спирмена, имеет распределению Стьюдента tn−2. Соответственно, гипотеза о незначимости отвергается, если |t| < tкритич, где tкритич = tn−2(1 − α 2 ) есть 1 − α 2 - квантиль распределения Стьюдента с (n − 2) степенями свободы. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 27 / 34
  • 28. Пример Рассмотрим выборки 0.09, 0.42, 0.85, 0.59, 0.10, 0.23, 0.32 и 0.8, 0.18, 0.25, 0.29, 0.89, 0.93, 0.39. Проверим гипотезу о том, что коэффициент корреляции Спирмена незначим (α = 0.05). 1 Ранжируем две выборки и выписываем ранги Rx1 = 1, Rx2 = 5, Rx3 = 7, Rx4 = 6, Rx5 = 2, Rx6 = 3, Rx7 = 4 и Ry1 = 5, Ry2 = 1, Ry3 = 2, Ry4 = 3, Ry5 = 6, Ry6 = 7, Ry7 = 4 2 Образуем ряд разностей рангов d1 = −4, d2 = 4, d3 = 5, d4 = 3, d5 = −4, d6 = −4, d7 = 0 3 Вычисляем коэффициент Спирмена rS = 1 − 6 73 − 7 (16 + 16 + 25 + 9 + 16 + 16 + 0) = −0.75 4 Вычисляем статистику критерия t = rS √ n−2√ 1−r2 S = −2.53. 5 Поскольку |t| < tкритич = 2.57, гипотеза о незначимости не отвергается. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 28 / 34
  • 29. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 29 / 34
  • 30. Коэффициент корреляции (Кендал) Пусть даны выборки x1, ..., xn и y1, ..., yn одинаковых объёмов. Пусть P – число пар (i, j), таких что xi < xj и yi < yj , или xi > xj и yi > yj . Пусть I – число пар (i, j), таких что xi > xj и yi < yj , или xi < xj и yi > yj . Образуем величину3 τ = P − I P + I . Для проверки гипотезы о равенстве коэффициента нулю z = τ 2(2n+5) 9n(n−1) , имеющая приблизительно нормальное распределение при выполнении гипотезы о равенстве коэффициента Кендала нулю. 3 Можно привести и другие формулы для τ. Так как общее число пар индексов P + I = n(n−1) 2 , то τ = 1 − 4I n(n−1) = 4P n(n−1) − 1. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 30 / 34
  • 31. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 31 / 34
  • 32. Метод Тейла Один из робастных4 методов нахождения оценок линейной регрессии устроен так. Вычисляем коэффициенты наклоны по парам точек βij = yj − yi xj − xi , 1 ≤ i < j ≤ n, совпадающие значения x исключаем, поэтому общее число βij не превышает числа сочетаний C2 n . Оценки коэффициентов линейной модели y = β0 + β1x определяются так: ˆβ1 = med yj − yi xj − xi , 1 ≤ i < j ≤ n|xi = xj , ˆβ0 = med{yi − ˆβ1xi }. Важно! Оценка коэффициента наклона менее точна в условиях гауссовской модели, но применима в более широких условиях. 4 В данном случае, подразумевается метод устойчивый к выбросам. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 32 / 34
  • 33. Содержание 1 О непараметрических методах 2 Критерии однородности Критерий знаков Критерий знаков для проверки гипотезы о медиане Критерий знаков для проверки гипотез о вероятности успеха Критерий Вилкоксона 3 Исследование взаимосвязей между выборками Коэффициент ранговой корреляции Спирмена Коэффициент Кендала Непараметрическая регрессия 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 33 / 34
  • 34. Где и что почитать? Тема. Непараметрические методы. ([Т-М], §3.4-3.6, 8.5; [И], главы 15-16). Тюрин Ю. Н., Макаров А.А., Анализ данных на компьютере: учебное пособие. - 4-е изд., перераб. - М.: ИД Форум, 2008. - 368 с., ил. - (Высшее образование). Иванов О.В. Статистика. Учебный курс для социологов и менеджеров. Часть 2. Доверительные интервалы. Проверка гипотез. Методы и их применение. – М. 2005. – 220 с. Курбацкий А. Н. (МШЭ МГУ) Лекция 10. Непараметрические методы 18 апреля 2016 34 / 34