Описательная статистика
Грауэр Л.В.
Описательная статистика
Цель
обработка
систематизация
графическое представление
расчет числовых статистических характеристик
эмпирических данных
Зачем нужна описательная статистика?
Выявить ошибки в данных
Увидеть структуру данных
Найти нарушения в статистических предположениях
Сгенерировать гипотезы
Порядковые статистики. Вариационный ряд
ξ, X[n] = (X1, . . . , Xn)
Порядковые статистики:
X(1) = min {X1, . . . , Xn} — первая порядковая статистика,
X(2) = min {X1, . . . , Xn} X(1) — вторая порядковая статистика,
X(3) = min {X1, . . . , Xn}  X(1), X(2) — третья порядковая
статистика,
. . .
X(n) = max {X1, . . . , Xn} — n-ая порядковая статистика.
Вариационный ряд: X(1) X(2) . . . X(n).
Примеры
Рост баскетболистов
X[10]=(205, 184, 207, 198, 195, 187, 201, 177, 191, 194)
Количество попаданий в мишень из 5 выстрелов
X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)
Статистический ряд
(X(1) X(2) . . . X(n)) ⇒ (Z(1) < Z(2) < . . . < Z(k))
xi Z(1) Z(2) . . . Z(k)
ni n1 n2 . . . nk
ni /n n1/n n2/n . . . nk/n
i
j=1 nj /n n1/n 2
j=1 nj /n . . . 1
Пример
X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)
Полигон частот
X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)
Группированный статистический ряд. Гистограмма
Интервал (a, b), где a ≤ X(1) и X(n) ≤ b разобьем
a0 = a < a1 < a2 < . . . < ar = b,
(ai−1, ai ], i = 1, . . . , r.
ni — количество элементов выборки, попавших в (ai−1, ai ].
n1 + n2 + . . . + nr = n,
∆i = ai − ai−1,
hi =
ni
∆i n
.
Группированный статистический ряд
xi [a0, a1] (a1, a2] . . . (ar−1, ar ]
ni n1 n2 . . . nr
ni /n n1/n n2/n . . . nr /n
Гистограмма
f ∗
n (x) =



0, если x a0;
h1, если a0 < x a1;
. . .
hr , если ar−1 < x ar ;
0, если x > ar .
Пример
X[n] :
38 60 41 51 33 42
45 21 53 60 68 52
47 46 49 49 14 57
54 59 67 47 28 48
58 32 42 58 61 30
xi [14, 23] (23, 32] (32,41] (41, 50] (50,59] (59,68]
ni
ni
n
Как выбрать K?
X[1000] ∝ N(5, 1)
r = 100 r=4
r = [1 + 3.2 lg n] r = 1.72n1/3
Выборочные числовые характеристики
Выборочное среднее
¯X = a∗
1 =
1
n
n
i=1
Xi
Выборочный начальный момент r-го порядка
a∗
r =
1
n
n
i=1
Xr
i
Выборочная дисперсия
D∗
= D∗
X[n] =
1
n
k
i=1
Xi − ¯X
2
Выборочный центральный момент r-го порядка
µ∗
r =
1
n
n
i=1
Xi − ¯X
r
Выборочная квантиль xp порядка p —
([np] + 1) элемент X(1) ≤ X(2) ≤ . . . ≤ X(n).
Квартили Q1, Q2, Q3 — квантили порядков 0.25, 0.5, 0.75
Выборочная медиана
x∗
med =



X(k+1), n = 2k + 1
X(k) + X(k+1)
2
, n = 2k
Пример
X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)
Выборочные характеристиками положения
выборочное среднее
выборочная медиана
выборочная мода
Выборочные меры рассеяния
размах R = Xmax − Xmin
средний межквартильный размах
персентильный размах P90 − P10,
выборочная дисперсия
исправленная дисперсия ˜s2
= nD∗
X[n]/(n − 1)
среднее квадратическое отклонение s =
√
s2
Коэффициент вариации v = s/ ¯X
Оценка формы распределения
коэффициент асимметрии Sk1 = µ∗
3/s3
коэффициент эксцесса K = µ∗
4/s4 − 3
Квантильный коэффициент асимметрии
Sk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1)
Ящики с усами
Выборочные характеристики многомерных выборок
(ξ, η)T
X1
Y1
, . . . ,
Xn
Yn
Выборочный коэффициент корреляции
rξ,η =
1
n
n
i=1 Xi Yi − ¯X ¯Y
˜sX ˜sY
Диаграммы рассеивания

1.3 Описательная статистика