Основные задачи математической статистики. Примеры задач
Выборка.Выборочное пространство. Примеры
Простой случайный выбор. Реальные виды выборов
Функция распределения выборки
Эмпирическая вероятностная мера
Теорема Гливенко-Кантелли
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Математические основы методов решений систем логических уравненийOlga Maksimenkova
Презентация с вебинара, организованного в рамках проекта "Предуниверсарий" НИУ ВШЭ. Рассмотрены основы алгебры логики (ДНФ, КНФ, СДНФ, СКНФ), рекуррентные функции, начала теории матриц, базовые понятия теории графов.
1. Лекция 4. Методы оценивания
Курбацкий А. Н.
МШЭ МГУ
20 февраля 2016
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 1 / 20
2. Содержание
1 Методы оценивания
Метод моментов
Метод максимального правдоподобия
2 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 2 / 20
3. Содержание
1 Методы оценивания
Метод моментов
Метод максимального правдоподобия
2 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 3 / 20
4. Классификация методов статистики
Параметрические: обладают максимальной эффективностью в
рамках определенной модели F(x, θ), θ ∈ Θ (F известна).
Чувствительны к отклонениям! (например, к выбросам).
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 4 / 20
5. Классификация методов статистики
Параметрические: обладают максимальной эффективностью в
рамках определенной модели F(x, θ), θ ∈ Θ (F известна).
Чувствительны к отклонениям! (например, к выбросам).
Робастные: имеют высокую эффективность (близки к
параметрическим), но устойчивы к небольших отклонениям.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 4 / 20
6. Классификация методов статистики
Параметрические: обладают максимальной эффективностью в
рамках определенной модели F(x, θ), θ ∈ Θ (F известна).
Чувствительны к отклонениям! (например, к выбросам).
Робастные: имеют высокую эффективность (близки к
параметрическим), но устойчивы к небольших отклонениям.
Непараметрические: применимы к широкому классу
распределений (например, ко всем непрерывным).
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 4 / 20
7. Содержание
1 Методы оценивания
Метод моментов
Метод максимального правдоподобия
2 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 5 / 20
8. Моменты
Определение
k-ым моментом случайной величины X является математическое
ожидание случайной величины, возведенное в k-ую степень. Таким
образом, E(Xk) = µk – k-ый момент случайной величины X.
k-ый момент можно оценить состоятельно, используя выборочный
аналог (с объемом выборки, равным n):
Xk =
1
n
xk
i
это и есть k-ый выборочный момент случайной величины X.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 6 / 20
9. Суть метода моментов
В силу того, что выборочные моменты являются состоятельными
оценками популяционных и
√
n(Xk − µk)
d
−→ N(0; µ2k − µ2
k)
представляется разумным искать оценки параметров из системы
µk(θ) = Xk, k = 1, . . . , m
Важно!
Процедура оценивания методом моментов состоит в приравнивании m
популяционных моментов к m выборочным моментам для оценивания
m неизвестных параметров модели θ1, θ2, . . ., θm.
Систему, правда, не всегда удаётся легко решить. И моменты можно
брать разные, но мы договоримся брать моменты по порядку.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 7 / 20
10. Пример
Дана выборка из равномерного распределения на отрезке [a; 4]: 0, 3, 2,
1.5, 1. Методом моментов найдите оценку параметра a.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 8 / 20
11. Пример
Дана выборка из равномерного распределения на отрезке [a; 4]: 0, 3, 2,
1.5, 1. Методом моментов найдите оценку параметра a.
Решение
Так как у нас один параметр, то рассмотрим момент первого порядка,
то есть математическое ожидание EX. Из курса теории вероятностей
известно, что EX = a+4
2 , откуда мы и получаем уравнение на
неизвестный параметр. Вместо теоретического момента EX подставим
эмпирический момент - выборочное среднее ¯x и получаем, что
a+4
2 = ¯x = 1
5(0 + 3 + 2 + 1.5 + 1) = 1.5.
Откуда находим a = −1.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 8 / 20
12. Пример
Пусть X – случайная величина со средним значением µ, и
выражением дисперсии из уравнения: D(X) = σ2 = E(X2) − µ2.
Найдём для них оценки методом моментов.
Решение
Для оценивания методом моментов двух популяционных параметров µ
и σ2, мы должны приравнять два популяционных момента к двум
выборочным моментам.
ˆµ = ¯x;
ˆσ2 = ¯x2 − ¯x2 = 1
n x2
i − ¯x2 = 1
n (xi − ¯x)2
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 9 / 20
13. Свойства метода моментов
Если все моменты существуют (конечны) и отображение, заданное
системой, является биекцией (взаимно однозначно), то метод
моментов обладает замечательными свойствами:
состоятельность;
асимптотическая нормальность (если µ−1 гладкая).
Обычно асимптотическая дисперсия оценки велика.
В общем, оценки методом моментов в больших выборках сходятся к
истинным значениям параметров, но их эффективность не
гарантируется.
Замечание
Метод был предложен английским статистиком Карлом Пирсоном в
1894 году.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 10 / 20
14. Содержание
1 Методы оценивания
Метод моментов
Метод максимального правдоподобия
2 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 11 / 20
15. Функция правдоподобия
Пусть плотность распределения генеральной совокупности p(x, θ) в
точке x зависит от параметра θ и у нас имеется выборка x1, x2, . . . , xn.
Рассмотрим совместную плотность выборки, которая равна
произведению плотностей в силу независимости наблюдений:
L(θ) = p(x1, θ) · . . . · p(xn, θ).
Замечание
Функция L называется функцией правдоподобия (likelihood function).
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 12 / 20
16. Суть метода максимального правдоподобия
Важно!
Метод максимального правдоподобия состоит в том, чтобы при
конкретных значениях выборки x1, . . . , xn найти такое значение θ, при
котором функция L(θ) принимает максимальное значение.
Идея метода заключается в том, что мы максимизируем вероятности
получения тех наблюдений, что нам даны. Ведь раз они есть, значит
они наиболее вероятны.
Замечание
Надо иметь ввиду, что оценка параметра зависит от выборки, хотя при
записи функции правдоподобия мы этого явно не указали.
Так как при разных значениях x1, . . . , xn могут получаться разные
значения оценки ˆθ, то она является случайной величиной (а не просто
числом).
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 13 / 20
17. Логарифм функции правдоподобия
Как правило, при нахождении максимума функции правдоподобия
L рассматривают не её саму, а её логарифм ln L.
Связано это с тем, что логарифмируя функцию правдоподобия,
произведение превращается в сумму и становится проще находить
производную.
Максимумы L и ln L достигаются при одном и том же значении
параметра θ.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 14 / 20
18. Пример
Пример
Дана выборка из пуассоновского распределения с параметром λ: 1, 4,
1, 1, 0, 5.
а) Выпишите функцию правдоподобия и ее логарифм.
б) Вычислите оценку максимального правдоподобия.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 15 / 20
19. Решение
а) Распределение Пуассона задаётся формулой P(X = k) = λk e−λ
k! .
Выпишем функцию правдоподобия для выборки 1, 4, 1, 1, 0, 5:
L(λ) = (P(X = 1))3
P(X = 4)P(X = 0)P(X = 5) =
=
λe−λ
1!
3
λ4e−λ
4!
λ0e−λ
0!
λ5e−λ
5!
=
λ12e−6λ
4!5!
. (1)
Её натуральный логарифм:
ln L = ln
λ12e−6λ
4!5!
= ln L = 12 ln λ − 6λ − ln(4!5!).
б) Найдём максимум функции правдоподобия1:
(ln L) =
12
λ
− 6 = 0 ⇒ λ = 2.
1
Убедимся, что это действительно максимум, проверив достаточное условие:
(ln L) = − 12
λ2 < 0.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 16 / 20
20. Условия регулярности
Приведём в конце условия, при которых ММП-оценки точно обладают
очень хорошими свойствами.
1 Область Dn = {x : p(x; θ) > 0} не зависит от θ;
2
+∞
−∞
p(x; θ)dx = 1 можно дважды дифференцировать под знаком
интегала, а E(ˆθn) =
Dn
ˆθnp(x; θ)dx можно один раз
дифференцировать под знаком интеграла.
3 Информация Фишера I(θ) = E ∂ ln f (ξ,θ)
∂θ
2
конечна и
положительна.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 17 / 20
21. Ключевой результат
Теорема
Если для выборки объёма n выполнены условия регулярности, то
решение ˆθn единственно;
ˆθn – состоятельная оценка параметра θ;
ˆθn – асимптотически нормальна с математическим ожиданием θ и
дисперсией 1
nI(θ) ;
ММП-оценка асимптотически эффективна.
Замечание
Метод был предложен, а, вернее, популяризирован английским
статистиком Ричардом Фишером в 1912 году.
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 18 / 20
22. Содержание
1 Методы оценивания
Метод моментов
Метод максимального правдоподобия
2 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 19 / 20
23. Где и что почитать?
Тема. Методы оценивания. Метод моментов. Метод максимального
правдоподобия. ([Т,М], глава 4; [Ф,Л], глава 12).
Фадеева Л. Н., Лебедев А. В., Теория вероятностей и
математическая статистика: учебное пособие. - 2-е изд., перераб. и
доп. - М.: Эксмо, 2010. - 496 с. – (Новое экономическое
образование).
Тюрин Ю. Н., Макаров А.А., Анализ данных на компьютере:
учебное пособие. - 4-е изд., перераб. - М.: ИД Форум, 2008. - 368
с., ил. - (Высшее образование).
Курбацкий А. Н. (МШЭ МГУ) Лекция 4. Методы оценивания 20 февраля 2016 20 / 20