Machine Learning. Курс лекций

МАШИННОЕ ОБУЧЕНИЕ
(Machine Learning)

Н.Ю. Золотых

2009, сентябрь–декабрь

Глава 1
Постановки и примеры задач

Agenda

• Что такое машинное обучение?
• Постановки задач

– Обучение по прецедентам
– Обучение без учителя

• Примеры практических задач
• О курсе

1.1. Что такое машинное обучение?

Machine learning — «самообучение машин».
Будем говорить, что компьютерная программа, предназаначенная для решения
какой-либо задачи, обучается, если со временем качество решения улучшается.

• Например, программа распознавания рукописных символов, после
предъявления ей серии таких символов с правильными ответами, начинает
распознавать точнее.
• Программа игры в шахматы после серии проведенных игр начинает играть
лучше.
• Распознавание спама после обучения на примерах происходит точнее.

1.2. Способы (типы) обучения

У людей обучение происходит в результате ознакомления с правилами, теориями,
инструкциями и т. п. и/или на основе опыта (собственного или чужого).
По аналогичному принципу можно выделить различные способы (типы) обучения
и в искусственных системах:

• Дедуктивное, или аналитическое, обучение.
Имеются знания, сформулированные экспертом и как-то формализованные.
Программа выводит из этих правил конкретные факты и новые правила.
• Индуктивное обучение.
На основе эмпирических данных программа строит общее правило.
Эмпирические данные могут быть получены самой программой в
предыдущие сеансы ее работы или просто предъявлены ей.
• Комбинированное обучение, содержащее элементы как дедуктивного, так и
аналитического обучения.

В курсе рассматривается только индуктивное обучение.

1.3. Классификация задач индуктивного обучения

• Обучение с учителем, или обучение по прецедентам (supervised learning).
• Обучение без учителя (unsupervised learning).
• Активное обучение (active learning).
• Обучение с подкреплением (reinforcment learning).
• ...

В курсе рассматривается обучение с учителем и обучение без учителя.

1.4. Обучение по прецедентам

Множество X — объекты (samples)
Множество Y — ответы (responds)
Неизвестная функция f ∗ : X → Y
Значения f ∗ известны только на конечном множестве объектов x1, x2, . . . , xN :

f ∗(xi) = yi (i = 1, 2, . . . , N ).

Пара (xi, yi) ∈ X × Y — прецедент.
Вся имеющаяся совокупность прецедентов

{(x1, y1), (x2 , y2), . . . , (xN , yN )}

— обучающая выборка, или обучающая последовательность.
Задача обучения по прецедентам: по имеющейся обучающей выборке
восстановить f ∗

Что значит «восстановить» f ∗?
→ найти f : X → Y , удовлетворяющую свойствам:

• f эффективно вычислима, т. е. должен быть указан эффективный алгоритм ее
вычисления
• f (xi) = f ∗(xi) или f (xi) ≈ f ∗(xi) (i = 1, 2, . . . , N ).
• f должна обладать обобщающей способностью: ее значения должны
совпадать (точно или приближенно) со значениями f ∗ на объектах, не
вошедших в обучающую выборку.
• f (и алгоритм ее вычисляющий) может удовлетворять дополнительным
требованиям, например, монотонности, дифференцируемости, гладкости и
т. п.

В конкретных постановках задачи эти требования формулируются конкретнее.
Функцию f называют также алгоритмом или моделью.
Процесс нахождения f называют построением алгоритма, подгонкой (fitting)
модели и др.

Признаковые описания

Алгоритм, вычисляющий f , работает не с самими объектами из X , а с их
признаковыми описаниями.
Признак, или атрибут, объекта — некоторое отображение χ : X → Dχ.

Типы признаков

• Если Dχ конечно, то χ — номинальный признак, или фактор.
Можно считать, например, что, Dχ = {1, 2, . . . , s}.
Если |Dχ| = 2 и можно считать, например, что, Dχ = {0, 1}, то признак
бинарный.
• Если Dχ конечно и упорядочено, то χ — порядковый признак
Например, Dχ = {холодно, прохладно, тепло, жарко}
• Если Dχ ∈ R, то χ — количественный признак
• ...

Если (χ1, χ2, . . . , χp) — набор признаков, то вектор χ1(x), χ2(x), . . . , χp(x) есть
признаковое описание объекта x.
Признаковые описания объектов из обучающей выборки известны.
Мы будем отождествлять объект x с его признаковым описанием:
x = (x1, x2, . . . , xp) = χ1(x), χ2(x), . . . , χp(x)

Таким образом,
X = Dχ1 × Dχ2 × . . . × Dχp .
Аналогично для выходов y ∈ Y . Объекты из Y отождествляются с их
признаковыми описаниями:
y = (y1, y2, . . . , yq ) = η1(y), η2 (y), . . . , ηq (y)

Далее всюду предполагается, что q = 1, т. е. y — скаляр.
x называется входом,
y — выходом
Компоненты xj вектора x так же называют входами или предикатными
(объясняющими) переменными.

Типы задач обучения

В зависимости от множества Y выделяют разные типы задачи обучения.

• Y конечно, например, Y = {1, 2, . . . , K}, — задача классификации (или
задача распознавания образов):
X разбивается на K классов

Xk = {x ∈ X : f (x) = k} (k = 1, 2, . . . , K).

По x требуется предсказать, какому классу он принадлежит.
• Y = R — задача восстановления регрессии.
Требуется найти функцию f из определенного класса, которая
аппроксимирует f ∗.
• ...

1.5. Обучение без учителя

Обучение по прецедентам — это обучение с учителем
Такое обучение можно рассматривать как игру двух лиц: ученика, который должен
восстановить функцию f , и учителя, который для объектов из обучающей
выборки указывает ученику соответствующий им выход.
Иногда можно считать, что объекты из обучающей выборки предъявляются
средой, а иногда — их выбирает сам учитель, в некоторых случаях их выбирает
ученик.
Рассматривается также обучение без учителя.
В этом случае нет учителя и нет обучающей выборки.
Ученик, имея только список объектов x1, x2, . . . , xN , должен определить значения
неизвестной функции f (x) для каждого из этих объектов.
Это достигается за счет анализа описаний объектов.
Так, например, можно предположить, что для «близких» объектов (т.е. для
объектов с «близкими» описаниями) выходы также будут близки или даже
совпадать.

В задачах обучения без учителя заранее специфицированы какие-то свойства
функции f .
Например, может быть известно, что функция f принимает конечное число
различных значений. Получаем задачу кластерного анализа: требуется разбить
объекты на группы (кластеры), так, чтобы в одном кластере оказались близкие
друг к другу объекты, а в разных кластерах объекты были существенно различные.

1.6. Примеры практических задач

Распознавание рукописных символов (цифр)
Изображения цифр от 0 до 9 закодированы известным образом. Требуется
определить, какая цифра нарисована.
Например, код (признаковое описание) — битовая матрица размера 32 × 32.
1 — пиксел черный, 0 — пиксел белый.
Изображение перед кодированием масштабируется, чтобы все изображения имели
примерно одинаковый размер.
Элементы матрицы запишем по строкам получим вектор x длины 322 = 1024 —
признаковое описание объекта.
X = {0, 1}1024.
Множество всех возможных кодов разбивается на 10 классов:

Y = {0, 1, 2, . . . , 9}

Получили задачу классификации: по x ∈ X требуется определить класс k ∈ Y .

Входы x1, x2, . . . , xp — бинарные признаки.
Обучение проходит на реальных прецедентах (xi, ki) (i = 1, 2, . . . , N ).
Обучающая выборка в примере ÓÔØ Ø
ØØÔ »»ÛÛÛº ×ºÙ º Ù» ÑÐ ÖÒ»ÅÄÊ ÔÓ× ØÓÖÝº ØÑÐ содержит 1934 прецедента.

Некоторые объекты из обучающей выборки

Проблема построения признакового описания.
В задаче распознавания символов можно использовать признаковое описание на
основе анализа контура изображения.
В примере Ð ØØ Ö¹Ö Ó Ò Ø ÓÒ
ØØÔ »»ÛÛÛº ×ºÙ º Ù» ÑÐ ÖÒ»ÅÄÊ ÔÓ× ØÓÖÝº ØÑÐ распознавания печатных
заглавных букв (26 классов) для кодирования изображений используется другой
подход.

Входами являются (входы отмасштабированы и округлены, так, чтобы они
принимали целые значения в диапазоне от 0 до 15; база содержит 20000
прецедентов):
1. Ü¹ ÓÜ — координата x левого нижнего угла обрамляющего прямоугольника,
2. Ý¹ ÓÜ — координата y левого нижнего угла обрамляющего прямоугольника,
3. Û Ø — ширина прямоугольника,
4. — высота прямоугольника,
5. ÓÒÔ Ü — общее число подсвеченных пикселей
6. Ü¹ Ö — среднее значение координаты x для подсвеченных пикселей
7. Ý¹ Ö — среднее значение координаты y для подсвеченных пикселей
8. Ü¾ Ö — стандартное отклонение для координаты x подсвеченных пикселей
9. Ý¾ Ö — стандартное отклонение для координаты y подсвеченных пикселей
10. ÜÝ Ö — коэффициент корреляции x и y подсвеченных пикселей
11. Ü¾Ý Ö — среднее значение x2y
12. ÜÝ¾ Ö — среднее значение xy 2
13. Ü¹ — среднее значение числа отрезков при просмотре слева направо
14. Ü ÚÝ — коэффициент корреляции между средним значением числа отрезков при просмотре слева направо и y
15. Ý¹ — среднее значение числа отрезков при просмотре снизу вверх
16. Ý ÚÜ — коэффициент корреляции между средним значением числа отрезков при просмотре снизу вверх и x

Медицинская диагностика
По набору определенных характеристик пациента (симптомов), таких как
температура тела, артериальное давление, содержание гемоглобина в крови и т. п.,
требуется определить, какое у больного заболевание (и болен ли он вообще).
Объектами являются пациенты, их признаковым описанием — набор
характеристик, а выходом — номер класса.
Обучение проходит на достаточном объеме прецедентов.
Таким образом, получаем задачу классификации.
Могут встречаться признаки разных типов:

• бинарные (пол, наличие головной боли),
• номинальные (боль может быть тупой, режущей, колющей и т. п.),
• порядковые (состояние больного может быть удовлетворительным, средней
тяжести, тяжелым, крайне тяжелым),
• количественные (температура тела, пульс, давление).

Пусть, например, имеется информация о 768 пациентках (см. фрейм данных Ô Ñ
из R библиотки Ö Û Ý Julian J. Faraway).
История болезни каждой пациентки содержит данные о 8 различных
характеристиках, а также информацию о том, больна ли пациетка сахарным
диабетом или нет.
Все признаки количественные.
Имея эту информацию, требуется по набору таких характеристик научиться
определять, больна ли пациентка (не из обучающей выборки) или нет.
Имеем 768 точек в 8-мерном пространстве.

О расположении точек можно судить по 8 бокс-диаграммам
Diabetes Triceps Pregnant

0.0 1.0 2.0 0 40 80 0 5 10 15
0

0

0
1

1

1
Age Insulin Glucose

20 40 60 80 0 400 800 0 50 150
0

0

0
1

1

1

BMI Diastolic

0 20 40 60 0 40 80 120
0

0
1

1

Проекции точек на двумерную координатную плоскость переменных Ñ
(масса/рост2), ÐÙ Ó× (содержание глюкозы).

glucose

50 100 150 200
20
30
40
bmi

50
60

В задачах медицинской диагностики может ставиться другая цель:
определить оптимальный курс лечения (это может быть как задача
классификации, так и задача восстановления регрессии),
спрогнозировать время протекания болезни (задача восстановления регрессии) и
т. п.

Прогнозирование цены
Предположим, что имеются данные о жилых загородных домах в некоторой
местности.
Для каждого дома известна его цена, состояние, жилая площадь, количество
этажей, количество комнат, время постройки, удаленность до основных
магистралей, наличие инфраструктуры, экологическая обстановка в районе и т. п.
Требуется научиться предсказывать цену по остальной информации.
Объектами являются дома, входами — их характеристики, а выходом — цена дома.
Получаем задачу восстановления регрессии.

Boston Housing Data из коллекции StatLib (Carnegie Mellon University)
Информация агрегирована: територия поделена на участки и дома, стоящие на
одном участке, собраны в группы. Таким образом, объектами являются сами эти
группы. Их общее количество — 506.

Признаки
1. ÊÁÅ — уровень преступности на душу населения,
2. Æ — процент земли, застроенной жилыми домами (только для участков площадью свыше
25000 кв. футов),
3. ÁÆ ÍË — процент деловой застройки,
4. À Ë — 1, если участок граничит с рекой; 0 в противном случае (бинарный признак),
5. ÆÇ — концентрация оксида азота, деленная на 107,
6. ÊÅ — среднее число комнат (по всем домам рассматриваемого участка),
7. — процент домов, построенных до 1940 г. и занимаемых владельцами,
8. ÁË — взвешенное расстояние до 5 деловых центров Бостона,
9. Ê — индекс удаленности до радиальных магистралей,
10. Ì — величина налога в $10000,
11. ÈÌÊ ÌÁÇ — количество учащихся, приходящихся на одного учителя (по городу),
12. = 1000( − 0.63)2, где — доля афро-американцев,
13. ÄËÌ Ì — процент жителей с низким социальным статусом.

Признак À Ë — бинарный, остальные — количественные. Выходом является переменная Å Î,
равная медианному значению цены строения (по всем домам участка) в $1000. Ее нужно научиться
предсказывать.

Диаграммы рассеяния для каждой пары переменных Å Î, ÁÆ ÍË, ÆÇ , ÊÅ, ,
ÈÌÊ ÌÁÇ, . Значение переменной Å Î нужно научиться предсказывать по
значениям остальных переменных. Изображены только по 100 слечайных точек.
0 15 4 6 8 14 20 5 20

40
MEDV

10
15
INDUS
0

0.7
NOX

0.4
8
6

RM
4

80
AGE

20
20

PTRATIO
14

0 200
B
20

LSTAT
5

10 40 0.4 0.7 20 80 0 200

Анализ данных, полученных с биочипов
Биочип, или микроэррэй, (biochip, microarray) — это миниатюрный прибор,
измеряющий уровень экспрессии генов в имеющемся материале.
Экспрессия — это процесс перезаписи информации с гена на РНК, а затем на
белок.
Количество и даже свойства получаемого белка зависят не только от гена, но
также и от различных внешних факторов (например, от введенного лекарства).
Таким образом, уровень экспрессии — это мера количества генерируемого белка.
На биочип кроме исследуемого материала помещается также «контрольный»
генетический материал.
Положительные значения (красный цвет) — увеличение уровня экспрессии по
сравнению с контрольным.
Отрицательные значения (зеленый цвет) — уменьшение.

Условное изображение биочипа. Каждая точка на рисунке соответствует
определенному гену. Всего анализируется 132 × 72 = 9504 гена. Brown, V.M.,
Ossadtchi, A., Khan, A.H., Yee, S., Lacan, G., Melega, W.P., Cherry, S.R., Leahy, R.M.,
and Smith, D.J.; Multiplex three dimensional brain gene expression mapping in a
mouse model of Parkinson’s disease; Genome Research 12(6): 868-884 (2002).

Пусть было проведено несколько экспериментов, в которых на биочип вместе с
контрольным материалом размещались разные другие генетические материалы,
например, полученные после введения разных лекарств.
Информацию, полученную в результате проведения такой серии экспериментов
можно представить в виде числовой матрицы, в которой строки соответсвуют
разным генам, а столбцы — разным экспериментам (разным клеткам).
Поставим следующие задачи:

(а) Найти гены, показавшие высокую экспрессию, в заданных экспериментах.
(б) Разбить гены на группы в зависимости от влияния на них экспериментов.
Гены, реагирующие «почти одинаковым» образом в «большом» числе
эспериментов, должны попасть в одну группу. Гены, реагирующие
по-разному, должны находиться в разных группах.
(в) Разбить эксперименты на группы в зависимости от их влияния на гены.
Эксперименты, в которых одинаковые гены реагировали «сходным» образом
должны оказаться в одной группе. Эксперименты, в которых гены
реагировали «различно», должны находиться в разных группах.

Задачи (б) и (в) — это задачи кластерного анализа.

Данные для 60 экспериментов с биочипом. «Genomics Bioinformatics Group»
ØØÔ »» × ÓÚ ÖºÒ ºÒ º ÓÚ» Ø × Ø×Æ ØÙÖ ¾¼¼¼º ×Ô Строки соответсвуют
генам, столбцы — экспериментам. Приведены только первые 100 строк (из общего
числа 1375). Строки, содержащие отсутствующие значения, исключены.

ME.LOXIMVI
ME.MALME.3M
ME.SK.MEL.2
ME.SK.MEL.5
ME.SK.MEL.28
LC.NCI.H23
ME.M14
ME.UACC.62
LC.NCI.H522
LC.A549.ATCC
LC.EKVX
LC.NCI.H322M
LC.NCI.H460
LC.HOP.62
LC.HOP.92
CNS.SNB.19
CNS.SNB.75
CNS.U251
CNS.SF.268
CNS.SF.295
CNS.SF.539
CO.HT29
CO.HCC.2998
CO.HCT.116
CO.SW.620
CO.HCT.15
CO.KM12
OV.OVCAR.3
OV.OVCAR.4
OV.OVCAR.8
OV.IGROV1
OV.SK.OV.3
LE.CCRF.CEM
LE.K.562
LE.MOLT.4
LE.SR
RE.UO.31
RE.SN12C
RE.A498
RE.CAKI.1
RE.RXF.393
RE.786.0
RE.ACHN
RE.TK.10
ME.UACC.257
LC.NCI.H226
CO.COLO205
OV.OVCAR.5
LE.HL.60
LE.RPMI.8226
BR.MCF7
UN.ADR.RES
PR.PC.3
PR.DU.145
BR.MDA.MB.231.ATCC
BR.HS578T
BR.MDA.MB.435
BR.MDA.N
BR.BT.549
BR.T.47D
248589
248257
245939
245868
245450
244736
242678
241935
241037
240566
239001
233795
232896
222341
221263
220376
211995
211515
211086
209731
208950
203527
200696
197549
189963
175269
166966
162077
159512
158337
158260
152241
146311
145965
145292
144758
143985
136798
135118
130532
130531
130482
130476
128329
126471
125308
124918
122347
116819
114116
112383
108840
108837
86102
79617
79319
76539
74275
74070
73185
72214
72199
68068
67939
61539
52519
52218
52128
51904
51104
50914
50250
50243
49729
46818
46694
46173
45720
44449
43555
41232
38915
37627
37330
37153
37060
37054
36380
35271
31905
31861
29194
26811
26677
26599
25831
25718
23933
22264
21822

Лингвистика
Список Сводеша (Swadesh) — список из 207 слов языка, заимствовование которых
из других языков (на поздних этапах) мало вероятно (местоимения, числительные
1–5, глаголы, обозначающие простые действия и т. п.)

№ Русский Английский Немецкий Итальянский Французский Чешский
1 я I ich io je j´
a
2 ты you du tu tu ty
3 он he er lui il on
4 мы we wir noi nous my
5 вы you ihr voi vous vy
6 они they sie loro ils oni
7 этот this dieses questo ceci tento
8 тот that jenes quello cela tamten
9 здесь here hier qui ici zde
10 там there dort l´
a l´
a tam
11 кто who wer chi qui kdo
12 что what was che quoi co
13 где where wo dove o`
u kde
14 когда when wann quando quand kdy
15 как how wie come comment jak
16 не not nicht non ne. . . pas ne
.................................................................................
205 если if wenn se si jestlize
206 потому что because weil perch´
e parce que protoze
207 имя name Name nome nom jm´ no
e

На основе анализа списков Сводеша для разных языков можно установить степень
их родства и выделить группы родственных языков — это задача кластерного
анализа.
Более того, на основе анализа списка Сводеша для двух родственных языков
можно приблизительно установить время их появляения из единого пра-языка.

Матрица сходства между некоторыми языками, построенная на основе списков
Сводеша.

English
German
Dutch
Swedish
Danish
Italian
French
Spanish
Portuguese
Latin
Esperanto
Slovene
Czech
Polish
Slovio
Lithuanian
Latvian
Hungarian
Finnish
Estonian
Euskara
Quenya
Sindarin
English
German
Dutch
Swedish
Danish
Italian
French
Spanish
Portuguese
Latin
Esperanto
Slovene
Czech
Polish
Slovio
Lithuanian
Latvian
Hungarian
Finnish
Estonian
Euskara
Quenya
Sindarin

списков Сводеша.
Дерево иерархической кластеризации для 23 языков, построенное на основе
English
German
Dutch
Swedish
Danish
Italian
French
Spanish
Portuguese
Latin
Esperanto
Slovene
Slovio
Czech
Polish
Lithuanian
Latvian
Hungarian
Finnish
Estonian
Quenya
Sindarin
Euskara

Программа курса

• Различные алгоритмы и подходы к решению задач машинного обучения:

– Линейная регрессия
– Метод ближайших соседей
– Метод опорных векторов
– Нейронные сети
– Деревья решений
– Бустинг
– Графические вероятностные модели
– Обучение без учителя, кластеризация

• Элементы теории (Вапника–Червоненкиса) о предсказательной способности
алгоритмов обучения

Лабораторные работы

Лабораторные работы — в среде для статистических вычислений R
ÛÛÛºÖ¹ÔÖÓ ØºÓÖ
Предварительный список тем:

• Знакомство с R
• Проверка вероятностных гипотез
• Регрессия
• Метод опорных векторов
• Метод деревьев решений
• Алгоритмы кластеризации
• Оценка и анализ ошибки предсказания. Бутстрэп, метод перекрестного
контроля
• Бустинг

Будут конкурсные задания!

Литература

[1] Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Springer,
2001.
[2] Ripley B.D. Pattern recognition and neural networks. Cambridge University Press,
1996.
[3] Bishop C.M. Pattern recognition and machine learning. Springer, 2006.
[4] Duda R. O., Hart P. E., Stork D. G. Pattern classification. New York: JohnWiley
and Sons, 2001.
[5] Mitchell T. Machine learning. McGraw Hill,1997.
[6] Воронцов К.В. Математические методы обучения по прецедентам. Курс
лекций. Москва, ВЦ РАН, 2005. ØØÔ »»ÛÛÛº ×ºÖÙ»ÚÓÖÓÒ»Ø Ò º ØÑÐ

[7] Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск:
Изд-во Ин-та математики, 1999.
[8] Николенко С. Машинное обучение. Курс лекций. СПб.: ПОМИ РАН, 2006.
ØØÔ »»ÐÓ ºÔ Ñ ºÖ ×ºÖÙ» × Ö Ý»

[9] Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы
моделирования и первичная обработка данных. М.: Финансы и статистика,
1983.
[10] Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика:
исследование зависимостей. М.: Финансы и статистика, 1985.
[11] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная
статистика: классификация и снижение размерности. М.: Финансы и
статистика, 1989.
[12] Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука,
1974.
[13] Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.:
Наука, 1979.
[14] Vapnik V.N. The nature of statistical learning theory. New York: Springer, 1995.
[15] Vapnik V.N. Statistical learning theory. New York: John Wiley, 1998.

wiki-портал: ØØÔ »»ÛÛÛºÑ Ò Ð ÖÒ Ò ºÖÙ

Сайт курса: ØØÔ »»ÛÛÛºÙ ºÒÒÓÚºÖÙ» ÞÒÝ»ÑÐ
(конспекты лекций, лабораторные работы, описание системы R, ссылки)
Курс разработан при поддержке Intel.
Кураторы от Интел: Виктор Ерухимов и Игорь Чикалов.

ЛЕКЦИЯ 2

План

• Вероятностная постановка задачи
• Восстановление функции распределения
• Принцип минимизации эмпирического риска
• Регрессионная функция
• Байесов классификатор
• Метод стохастической минимизации

1.7. Вероятностная постановка задачи

Будем рассматривать пары (x, y) как реализации (p + 1)-мерной случайной
величины (X, Y ), заданной на вероятностном пространстве

X × Y , F, Pr .

X ∈ Rp, Y ∈ R.
Интегральный закон распределения P (x, y) = P (x |y)P (y) не известен, однако
известна выборка
{(x1 , y1), (x2, y2), . . . , (xN , yN )} ,
где (xi, yi) являются реализациями случайной величины (X, Y ).
Требуется найти функцию f : X → Y , которая по x предсказывает y.

Пусть дана функция потерь (штраф) L(y |y) = L(f (x)| y).
x — некоторый вход, y — соответствующий выход
y = f (x) — предсказанное значение
Квадратичная функция потерь (часто в задаче восстановления регрессии):
L(y |y) = (y − y)2 .

В задаче классификации часто используется функция

0, если f (x) = y,
L(y |y) =
1, если f (x) = y.

В общем случае в задаче классификации на K классов функция потерь полностью
описывается K × K матрицей L = ( ky ), где ky = L(k |y).
Пусть, например, в задаче медицинской диагностики Y = {0, 1}, где
y = 0 — пациент здоров, y = 1 — пациент болен.
L(1|1) = L(0|0) = 0
L(1|0) = 1 — болезнь определена у здорового пациента
L(0|1) = 10 — болезнь не определена у больного пациента

Анлогично: автомаическое определение почтового спама

Мат. ожидание функции потерь

R(f ) = E L f (x)| y = L f (x)| y dP (x, y)
X×Y

называется cредним риском, средней ошибкой или ожидаемой ошибкой
предсказания.
Разумный подход: в качестве f взять функцию из заданного класса F ,
минимизирующую средний риск R(f ).
НО: закон P (x, y) не известен и поэтому мы не можем точно вычислить R(f ).
Два подхода:

1) Восстановить P (x, y) по обучающей выборке, а затем минимизировать R(F )
2) «Прямой подход»

1.8. Методы минимизации среднего риска

1.8.1. Восстановление функции распределения вероятности

Будем минимизировать средний риск

R(f ) = L f (x)| y dP (x, y) (∗)
X×Y

1) по имеющейся выборке (x1, y1 ), . . . , (xN , yN ) решается задача
восстановления функции распределения P (x, y).
2) восстановленная функция P (x, y) подставляется в (*) вместо P (x, y) и
решается задача минимизации.

В качестве P (x, y) можно взять выборочную функцию распределения.
Согласно теореме Гливенко с ростом N эмпирическая функция распределения
равномерно приближается к истинной.

Замечание 1.1 Известно, что задача восстановления функции распределения
является некорректно поставленной, поэтому гарантировать успех в описанном
подходе можно, только если об этой функции известно достаточно много и
выборка большая.
Более того, задача восстановления функции распределения является центральной
задачей в математической статистике и нецелесообразно сводить
рассматриваемую частную задачу (минимизации среднего риска) к более общей.

1.8.2. Принцип минимизации эмпирического риска

«Прямой» подход
Элементы обучающей выборки {(x1, y1), . . . , (xN , yN )} распределены случайно и
независимо, каждый согласно закону распределения P (X, Y ), поэтому
1 N
R(f ) ≈ R(f ) = R(f, x1, y1, . . . , xN , yN ) =
N
∑L f (xi)|yi ,
i=1

R(f ) — эмпирический риск.
Так как xi, yi выбираются случайно, то R(f ) — случайная величина (статистика).
Нетрудно видеть, что
σ2
E R(f ) = E L f (X)|Y = R(f ), D R(f ) = ,
N

где σ 2 — дисперсия случайной величины L(f (X)| Y ). Заметим, что σ 2 зависит от f .
Насколько эмпирический риск может отклоняться от среднего риска?

Утверждение 1.2 Для любого δ с вероятностью больше 1 − δ
σ σ
R(f ) − √ ≤ R(f ) ≤ R(f ) + √ .
Nδ Nδ
Д ОКАЗАТЕЛЬСТВО . Согласно неравенству Чебышева

D R(f )
Pr |R(f ) − E R(f )| > ε ≤ 2
.
ε
Обозначим правую часть этого неравенства через δ.
Учтем, что
σ2
E R(f ) = E L f (X)|Y = R(f ), D R(f ) = .
N
Получаем требуемое.
Следствие 1.3 Для любой f ∈ F
lim Pr |R(f ) − R(f )| > ε = 0,
N →∞

т. е. R(f ) сходится по вероятности к R(f ).

С помощью схемы Бернулли можно получить более сильные оценки, но пока
этого достаточно.

Принцип (или метод) минимизации эмпирического риска:
в заданном классе F необходимо найти функцию f , доставляющую минимум
эмпирическому риску R(f ), и предложить f в качестве решающего правила f .
Таким образом, задачу минимизации среднего риска R(f ) мы заменили задачей
минимизации эмпирического риска R(f ).
Важно, чтобы при этом функция, минимизирующая R(f ), доставляла среднему
риску R(f ) значение, близкое к минимальному.
Для этого не достаточно обычной сходимости по вероятности из следствия 1.3, а
нужна равномерная сходимость:

lim Pr sup |R(f ) − R(f )| > ε = 0.
N →∞ f ∈F

Теория Вапника–Червоненкиса дает для этого необходимые и достаточные
условия

Всегда ли метод миимизации эмпирического риска приводит к успеху?
Не всегда.
Рассмотрим задачу классификации.
1
Y = {0, 1}, p(Y = 0) = p(Y = 1) = 2 .
Пусть решающее правило f на элементах обучающей выборки дает верное
значение выхода, а для всех остальных — случайный ответ.
1
Имеем R(f ) = 0, R(f ) = 2
и понятно, что метод не обладает никакой обобщающей способностью (Вапник,
Червоненкис).
Как это согласуется с утверждением 1.2?

Пусть F = {f : f (x, α), α ∈ [0, 1]} — класс решающих правил
R(α) — средний риск, R(α) — эмпирический риск на функции f (x, α)

R(α) R(α)

∗
R(α)
R(α )

α
α∗ α
R(α) далеко от минимального значения R(α∗ ).

lim Pr |R(f ) − R(f )| > ε = 0.
N →∞

Равномерная сходимость

R(α)
R(α)

R(α)
R(α∗ )

α
α α∗

lim Pr sup |R(f ) − R(f )| > ε = 0.
N →∞ f ∈F

Замечание 1.4 Некоторые хорошо известные методы машинного обучения
являются частными случаями метода минимизации эмпирического риска.
Например, в случае квадратичной функции потерь эмпирический риск равен
1 N
∑
2
R(f ) = yi − f (xi) .
N i=1

В этом случае метод минимизации эмпирического риска называется методом
наименьших квадратов.
В задаче восстановления плотности вероятности для логарифмической функции
потерь эмпирический риск равен
1 N
R(p) = −
N
∑ ln p(xi)
i=1

В этом случае метод минимизации эмпирического риска называется методом
максимального правдоподобия (Фишер).

Рассмотрим задачу восстановления регрессии с квадратичной функцией потерь:
2 2
R(f ) = y − f (x) dP (y |x) dP (x) = E Y − f (x) |x dP (x).
X Y X

Очевидно, минимизировать R(f ) можно поточечно:
f ∗(x) = argmin E (Y − c)2 | x , (1)
c

откуда
f ∗(x) = E (Y |x). (2)
Это так называемая регрессионная функция.
Итак, в случае квадратичной функции потерь наилучшим предсказанием y в
ответ на вход x является условное среднее.

Упражнение 1.5 Доказать, что из (1) следует (2), при этом R(f ∗ ) = E D (Y | X).

Упражнение 1.6 Доказать, что если в качестве функции потерь выбрана
L(y | y) = |y − y|, то минимум среднему риску доставляет условная медиана
f (x) = median(Y |x).

Возникает задача аппроксимации условного среднего E (Y |x) по имеющимся
эмпирическим данным.

1) Заменим f ∗ (x) выборочным средним
1
f (x) = ∑ yi,
|I(x)| i∈I(x)
где I(x) = {i : xi = x} ,

Как правило, такое решение к успеху не приводит, так как обычно x
встречается в обучающей выборке не более одного раза.
2) В методе k ближайших соседей вместо выборочного среднего берут
1
f (x) = ∑ yi,
k xi∈Nk (x)

где через Nk (x) обозначено множество из k точек обучающей выборки,
ближайших (по евклидову расстоянию) к x.
Частным случаем является метод (одного) ближайшего соседа, в котором
f (x) = yi, где xi — ближайшая к x точка из обучающей выборки.

Метод k ближайших соседей для задачи восстановления регрессии

1.0 1.5 2.0 2.5 3.0 3.5 4.0

1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8

k=1 k=2
1.0 1.5 2.0 2.5 3.0 3.5 4.0

1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8

k=5 k = 14

Итак, метод ближайших соседей похож на метод восстановления функции
распределения вероятности, только теперь аппроксимируется не плотность
вероятности, а условное среднее.

1.8.4. Байесов классификатор

Рассмотрим задачу классификации. Y = {1, 2, . . . , K}.
Минимизируем средний риск
K
R(f ) = ∑L f (x)| y · Pr (y | x) dP (x). (∗∗)
y=1
X

Пусть функция потерь определяется формулой
0, если y = y,
L(y |y) =
1, если y = y.

Тогда подинтегральная функция в (**) есть вероятность ошибки (при заданном x)
и поэтому
R(f ) = 1 − Pr Y = f (x)| x dP (x),
X

откуда находим f ∗ (x) = argmin R(f ):
f ∗(x) = argmin 1 − Pr (y | x) ,
y∈Y

или, что эквивалентно,
f ∗ (x) = argmax Pr (y |x). (+)
y∈Y

Функция f ∗ (x), найденная по этим формулам, называется байесовым
классификатором или байесовым решающим правилом.
Средний риск байесова классификатора называется байесовой ошибкой.
Байесов классификатор играет в задаче классификации роль, схожую с той,
которую играет регрессионная функция в задаче восстановления регрессии.
Pr (y | x) называется апостериорной вероятностью появления объекта из класса y,
и правило (+) называется принципом максимума апостериорной вероятности.
Если классы равновероятны, т. е. Pr (y) = 1/K, то
p(x |y) Pr (y) p(x |y)
Pr (y | x) = =
p(x) Kp(x)
f (x) = argmax p(x |y). (++)
y

Плотность p(x |y) часто называется правдоподобием (likelihood), поэтому правило
(++) называется методом максимального правдоподобия (maximum-likelihood
method).

Таким образом, байесов классификатор — это оптимальный классификатор.
Предполагается, что условные вероятности Pr (y | x) известны.
Как это можно использовать на практике?
Будем аппроксимировать Pr (y | x)

1) Метод ближайших соседей (для задачи классификации)
2) Восстановление условной плотности вероятности

Метод ближайших соседей для задачи классификации

Будем, как и в задаче восстановления регрессии, для аппроксимации Pr (y |x)
использовать k ближайших (по евклидову расстоянию) объектов из обучающей
выборки. Получаем метод k ближайших соседей для задачи классификации.
Пусть Nk (x) — множество из k ближайших к x (по евклидову расстоянию) точек
из обучающей выборки,
Ik (x, y) — множество тех точек xi из Nk (x), для которых yi = y.
Согласно методу k ближайших соседей в качестве f (x) берем результат
голосования по всем точка из Ik (x, y):

f (x) = argmax |Ik (x, y)|,
y

Частным случаем является метод (одного) ближайшего соседа, в котором
f (x) = yi, где xi — ближайший к x объект из обучающей выборки.
В этом случае Ωy представляют собой области Вороного

Диаграмма Вороного для набора из 50 точек. Штриховыми линиями отмечены
неограниченные участки границы

Восстановление функции распределения

Другой способ аппроксимировать Pr (y | x) — воспользоваться формулой Байеса.
Если X — непрерывная случайная величина и p(x) = 0, то
p(x |y) · Pr (y) p(x |y) Pr (y)
Pr (y | x) = = K
.
p(x)
∑ p(x |k) · Pr (k)
k=1

Таким образом, задача сведена к задаче восстановлению по обучающей выборке
условной плотности вероятности p(x |y) и вероятности Pr (y).

1.8.5. Метод стохастической минимизации

[Robins, Monroe, 1951, Айзерман, Браверман, Розоноэр, 1965, Amari, 1967,
Цыпкин, 1971, 1973].
Пусть класс F решающих функций параметризован вектором α:
F = {f (x) = f (x, α) : α ∈ Rq } .

Требуется найти α∗, минимизирующее функционал

R(α) = L f (x, α)| y dP (x, y).
X×Y

Метод основан на итерациях
α(k+1) = α(k) − γk · ∇αL f (x(k), α(k))|y (k) (k = 1, 2, . . . , N ).

При некоторых необременительных ограничениях на γk и ∇α L f (x, α)| y процесс
сходится к α∗, минимизирующему R(α).
Для гарантированной корректной работы выборка должна быть очень большой.
Далее этот метод в курсе не рассматривается.

Глава 2
Задача восстановления регрессии

Agenda

• Регрессионная функция
– Метод наименьших квадратов
– Метод максимального правдоподобия
• Линейная регрессия
• Оценка коэффициентов по выборке
• Переобучение
• Сокращение числа параметров и «усадка» коэффициентов
– Выбор подмножества параметров
– Гребневая регрессия
– Лассо
– Метод главных компонент
– Частичные наименьшие квадраты

Регрессия

Фрэнсис Гальтона (1822–1911)
«Регрессия к середине в наследовании роста» (1885 г.)
Зависимость роста взрослого ребенка от роста родителей в исследовании
Ф. Гальтона

74
72
70
Child height

68
66
64

data
x=y
62

regression
means

64 66 68 70 72 74

Parents height

928 наблюдений ch = 0.65par + 24 = 68.2 + 0.65 × (par − 68.2)

5
Residuals

0
−5

64 66 68 70 72 74

Parents height

x = средняя оценка по мат. анализу и алгебре в 1-м семестре
y = средняя оценка по мат. анализу, алгебре и программированию во 2-м семестре

5.0
4.5
2nd semester

4.0
3.5
3.0
2.5

3.0 3.5 4.0 4.5 5.0 5.5

1st semester

79 студентов

5.0
4.5
2nd semester

4.0
3.5
3.0

data
x=y
2.5

regression
means

3.0 3.5 4.0 4.5 5.0 5.5

1st semester

sem2 = 0.93 + 0.77 × sem1 ≈ 3.86 + 0.77 × (sem1 − 3.82)
3.82 — средняя оценка по всем студентам в 1-м семестре
3.86 — средняя оценка по всем студентам во 2-м семестре

Зависимость между массой тела и массой мозга животного

5e+03
African elephant
Asian elephant

Human
Giraffe

5e+02
Donkey Horse
Chimpanzee Cow
Gorilla
Rhesus monkey Sheep Pig
Jaguar Brachiosaurus
Potar monkey Grey wolf
Goat

5e+01
Triceratops

brain
Kangaroo Dipliodocus

Cat

Rabbit
Mountain beaver
5e+00

Guinea pig

Mole
Rat

Golden hamster
5e−01

Mouse

1e−01 1e+01 1e+03 1e+05

body

lg brain = β0 + β1 lg body
β0 = 0.94, β1 = 0.75
brain = 8.6 × (body)3/4

Обучающая выборка
(x1, y1), (x2, y2), . . . , (xN , yN )

xi ∈ X , yi ∈ Y (i = 1, 2, . . . , N )

f ∗ (xi) = yi (i = 1, 2, . . . , N )
Нужно «восстановить» f ∗
В задаче восстановления регрессии

Y =R

Часто используется модель с аддитивной случайной ошибкой:

y = f ∗(x) + ε,

где ε — случайная величина (ошибка), не зависящая от x, и E ε = 0.
f (x) = E (Y |X = x) и зависимость условного распределения P (y | x) от X
проявляется только через условное среднее f (x).

Предположим, что f ∗ (x) принадлежит некоторому классу.
Например, является линейной функцией:
p
f (x) = β0 + ∑ xj βj (1)
j=1

или функцией вида (более общий случай)
q
f (x) = ∑ βj hj (x), (2)
j=1

где βj — неизвестные параметры, а hj (x) — заданные функции.
(1) и (2) — линейная задача наименьших квадратов
Но βj могут входить нелинейным образом (нелинейная задача наименьших
квадратов)
Например,
y = β1eλ1 x + β2eλ2x.

Метод наименьших квадратов — один из методов нахождения неизвестных
параметров β
Ищем набор параметров β, доставляющих минимум сумме квадратов невязок,
или остаточной сумме квадратов (residual sum of squares)
N 2
RSS(β) = ∑ yi − f (xi, β) .
i=1

Метод наименьших квадратов — не единственный способ подбора неизвестных
коэффициентов регрессионной функции.

Принцип макcимального правдоподобия — более общий метод
Y — с. в. с плотностью вероятности p(y, θ), где θ — вектор параметров.
N копий непрерывной случайной величины Y : Y1, Y2, . . . , YN
(N независимых одинаково распределенных с.в.)
N реализаций этих величин: y1, y2, . . . , yN
Плотность вероятности с.в. (Y1 , Y2, . . . , YN ):

L(θ) = p(y1, y2, . . . , yN , θ) = p(y1, θ) · p(y2, θ) · . . . · p(yN , θ)

L(θ) — функция правдоподобия
Логарифмическая функция правдоподобия:
N
(θ) = ln L(θ) = ∑ ln p(yi, θ).
i=1

(Если Y — дискретная случайная величина, то вместо p(yi, θ) нужно рассмотреть
вероятность Pr {Y = yi})
Принцип максимального правдоподобия предполагает, что наиболее разумные
значения неизвестных параметров θ доставляют максимум функции L(θ) (и (θ)).

Рассмотрим модель
y = f ∗(x, β) + ε,
где

ε имеет нормальное распределение N (0, σ 2)
⇔ условная вероятность p(y |x) имеет нормальное распределение:
2
1 y − f (y, β)
− ·
1 2 σ2
p(y | x, β) = √ ·e
2πσ
Тогда
N
N 1 N
(β) = ∑ ln p(yi |x, β) = − ln 2π − N ln σ − 2 ∑ yi − f (xi, β)
2

i=1 2 2σ i=1

В ней только последний член содержит вектор параметров β
С точностью до множителя этот член равен RSS(β)
Итак, при сделанных предположениях метод наименьших квадратов эквивалентен
принципу максимального правдоподобия

2.1. Линейная регрессия

Линейная регрессионная модель:
p
f (x) = β0 + ∑ xj βj
j=1

Случайные величины Xj могут представлять собой:

• независимые переменные;
• функции от независимых переменных (степенные, логарифмические и др.);
• закодированные качественные переменные;
• функции от нескольких независимых переменных, например, X3 = X1 · X2.

В методе наименьших квадратов в качестве β = (β0, β1, . . . , βp) выбираются
параметры, доставляющие минимум остаточной сумме квадратов
2
N N p
RSS(β) = ∑ yi − f (xi) = ∑ yi − β0 − ∑ xij βj
2
.
i=1 i=1 j=1

С точки зрения теории математической статистики этот метод разумен, если
элементы обучающей выборки выбираются случайно и независимо из
генеральной совокупности.
Метод остается в силе, даже если xi выбираются не случайным образом, но yi
условно независимы при заданных xi.

y

y = β0 + β1 x1 + β2 x2

x2
x1

1.0
0.5
y

0.0

0.0 0.2 0.4 0.6 0.8 1.0

x

1.0
0.8
0.6
y

0.4
0.2
0.0

−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

x

data
y~x

1.0
x~y
prin. comp.

0.5
y

0.0

0.0 0.2 0.4 0.6 0.8 1.0

x

Как найти минимум функции RSS(β)?
Пусть    
1 x11 x12 . . . x1p y1
   
 1 x x ... x   y2 
 21 22 2p   
X= , y= . 
 ..................   . 
   
1 xN 1 xN 2 . . . xN p yN

Тогда
2
RSS(β) = y − Xβ = (y − Xβ) (y − Xβ).
Можно рассмотреть систему уравнений (относительно β)
Xβ = y

β называется псевдорешением этой системы (оно минимизирует норму невязки).
RSS(β) — квадратичная функция от p + 1 неизвестных (параметров) β0, β1, . . . , βp.
Дифференцируя, находим:
∂ RSS ∂ 2RSS
= −2X (y − Xβ), = 2X X.
∂β ∂β ∂β

Обозначим x0, x1, . . . , xp столбцы матрицы X.
Если x0, x1, . . . , xp линейно независимы, то матрица X X невырождена и
положительно определена, поэтому минимум функции RSS(β) достигается, когда
первая производная по β обращается в ноль:
X (y − Xβ) = 0 ⇔ X Xβ = X y.

Это нормальная система уравнений
Единственным решением является вектор
β = (X X)−1X y

Итак, псевдорешением системы Xβ = y является решение системы X Xβ = X y.
Матрица X+ = (X X)−1 X называется псевдообратной (Мура–Пенроуза) к X.
Входным значениям x1, x2, . . . , xN будет соответствовать вектор выходных
переменных
y = (y1 , y2, . . . , yp) = Xβ = X(X X)−1X y.
Пусть H = X(X X)−1X , тогда получаем y = Hy
y есть ортогональная проекция вектора y на подпространство, натянутое на
векторы x0, x1, . . . , xp

H называется матрицей проектирования

Если столбцы матрицы X линейно зависимы, то β, на котором достигается
минимум функции RSS(β), не единственен, однако, по-прежнему, y является
ортогональной проекцией вектора y на линейную оболочку векторов x0, x1, . . . , xp .

2.1.1. Проверка значимости и доверительные интервалы для коэффициен-
тов (регрессионный анализ)

p
Yi = β0 + ∑ βj xij + Ei (i = 1, 2, . . . , N ),
j=1

где βj — некоторые коэффициенты (j = 0, 1, . . . , p).
Пусть xij заданы (не случайны), а Ei — случайные величины, для которых
E Ei = 0, Var Ei = σ 2, Cov(Ei, Ej ) = 0 (i = j).

Тогда Yi — случайные переменные, причем
p
E Yi = β0 + ∑ βj xij , (1)
j=1

Var Yi = σ 2, Cov(Yi, Yj ) = 0 (i = j).
Запишем (1) в виде
E y = Xβ.

Рассмотрим некоторые полезные свойства коэффициентов β, полученных методом
наименьших квадратов.
Так как β = (X X)−1X y, то

E β = (X X)−1 X E y = (X X)−1X Xβ = β,

Cov β = (X X)−1X σ 2X(X X)−1 = (X X)−1 σ 2.
Свойство E β = β означает, что β является несмещенной оценкой β.
Разности p
ei = yi − yi = yi − ∑ βj xij
j=1
называются остатками.
Нетрудно доказать, что
N
∑ ei = 0. (2)
i=1

Из (2) следует, что
n
y = β0 + ∑ βj xj ,
j=1
где
N N
1 1
y=
N ∑ yi, x=
N ∑ xi .
i=1 i=1

Также легко получить, что
N N
∑ yi = ∑ yi.
i=1 i=1

Несмещенной оценкой дисперсии σ 2 является остаточная дисперсия
N
1
2
σ = ∑(yi − yi)2.
N − p − 1 i=1

Для доказательства несмещенности оценки достаточно заметить, что RSS равна
y (I − H)y, откуда E RSS = σ 2(N − p − 1).
Величина N − p − 1 называется количеством степеней свободы.
Значение σ называют остаточной стандартной ошибкой.

Наряду с RSS рассмотрим связанные с ней величины:
полную сумму квадратов (точнее: полную сумму скорректированных на среднее
квадратов)
N
TSS = ∑(yi − y)2
i=1

и сумму квадратов, обусловленную регрессией (точнее: сумму скорректированных
на среднее квадратов, обусловленную регрессией)
n
SSR = ∑(yi − y)2.
i=1

Можно показать, что
TSS = RSS + SSR .

Упражнение 2.1 Доказать, что TSS = RSS + SSR. Это можно доказать
непосредственное, а можно воспользоваться тем, что y − y ортогонально y − y,
где y — вектор, составленный из y.

Коэффициент детерминации. Коэффициент детерминации, или коэффициент
регрессии Пирсона
2 SSR RSS
r = =1− .
TSS TSS
RSS — мера разброса Yi вокруг f (xi),
TSS — мера разброса всех yi вокруг их общего среднего y, то
r2 характеризует долю общего разброса относительно среднего, объясняемую
регрессией.
0 ≤ r2 ≤ 1.
Если r2 близок к 1, то RSS намного больше TSS.
Иногда коэффициент r2 дает слишком оптимистические результаты. В этом случае
используется подправленные коэффициент

2 2 1 − r2
ra =r − .
N −p−1

Рассмотрение коэффициента детерминации имеет смысл только при условии, что
в модель включен сободный член β0.

Сделаем еще некоторые предположения.
Пусть ошибки Ei распределены по нормальному закону:

Ei ∼ N (0, σ) (i = 1, 2, . . . , N ).

В этом случае из некоррелированности случайных величин Ei следует их
независисмость.
Теперь нетрудно показать, что

β ∼ N β, (X X)−1 σ 2 и (N − p − 1) σ 2 ∼ σ 2χ2 −p−1.
N

Эти свойства можно использовать при построении статистических тестов и
доверительных интервалов для βj .

Проверка значимости одного коэффициента. Гипотеза βj = 0 (j
фиксировано):
использование переменной Xj не улучшает предсказание по сравнению с
предсказанием, полученным на основе только остальных p − 1 переменных.
Для проверки этой гипотезы (против гипотезы βj = 0) рассмотрим стандартный
коэффициент
βj
tj = , (3)
se βj
где
√
se βj = σ vj
— стандартная ошибка коэффициента βj , а vj — j-й диагональный элемент
матрицы (X X)−1.
В предположении, что βj = 0, коэффициент tj имеет t-распределение Стьюдента
tN −p−1.
Если |tj | велико, то гипотезу βj = 0 следует отбросить.
Если гипотеза βj = 0 отбрасывается, то говорят, что коэффициент βj
статистически значим.

Можно проверить гипотезу βj = βj (относительно односторонней или
двусторонней альтернативы), где βj — некоторое заданное значение.
Статистика критерия имеет в этом случае вид

βj − βj
tj = .
se βj

Коэффициент tj имеет распределение tN −p−1.
Проверка гипотезы зависит от вида альтернативной гипотезы и происходит
обычным образом.

Проверка значимости группы коэффициентов. Гипотеза о равенстве нулю
группы коэффициентов (против гипотезы, что по крайней мере один из
коэффициентов не равен нулю): переменные этой группы не улучшают
предсказание по отношению к предсказанию, полученному без этих переменных.
Будем использовать статистику
(RSS2 − RSS1)/(p1 − p2)
F = ,
RSS1 /(N − p1 − 1)
где RSS1 — остаточная сумма квадратов «б´ льшей» модели с p1 + 1 параметрами, а
о
RSS2 — остаточная сумма квадратов «вложенной» модели c p2 + 1 параметрами,
(«вложенная» модель получается из «б´ льшей» модели, обнулением p1 − p2
о
параметров).
В предположении, что ε в (??) имеет нормальное распределение, статистика F
имеет F (p1 − p2, N − p1 − 1) распределение Фишера.
Если отбрасывается один коэффициент, то F совпадает с zj из (3).

Проверка значимости модели. Проверка значимости всех коэффициентов
β1, . . . , βp (кроме β0) означает сравнение исходной модели, включающей p + 1
коэффициентов, с моделью y = β0 .
Очевидно, что решением задачи наименьших квадратов для второй модели будет
N
1
β0 = y =
N ∑ yi.
i=1

В частности, остаточная сумма квадратов (называемая в даном случае полной
суммой квадратов относительно среднего) равна
2
N N
1
TSS = ∑ yi − ∑ yi
i=1 N i=1

и соответствующая F -статистика есть
(TSS − RSS)/p
F = ,
RSS /(N − p − 1)

где RSS = RSS(β) — остаточная сумма квадратов для исходной модели.

Эта статистика должна иметь распределение Fp, N −p−1.
Легко показать, что
TSS = RSS + SSR,
где
n
SSR = ∑(yi − y)2
i=1
— так называемая сумма квадратов, обусловленная регрессией.
Если гипотеза о том, что все коэффициенты (кроме, быть может, β0) равны нулю,
отбрасывается, то говорят, что модель статистически значима.
Значимость модели не означает, что она адекватна.

Доверительные интервалы. Для βj доверительным интервалом является
√ √
βj − z (1−α)σ vj , βj + z (1−α)σ vj ,

где z (1−α) есть (1 − α)-процентиль для нормального распределения:

z (1−0.1) = 1.645,
z (1−0.05) = 1.96,
z (1−0.01) = 2.58, и т. д.
√
(vj есть j-й диагональный элемент в (X X)−1 , а se βj = σ vj есть стандартная
ошибка для βj ).
Таким образом, интервал β ± 2 · se β соответствует мере доверия примерно в 95%.

Пример. Рассмотрим задачу определения длины тормозного пути автомобиля от
начальной скорости. На рис. представлена диаграмма рассеяния для данных1,
содержащих информацию о 50 эксприментах, в каждом из которых наблюдалась
начальная скорость автомобиля (speed) и длина его тормозного пути (dist). В
качестве модели рассмотрим

dist = β0 + β1 × speed.

1
Ezekiel M. Methods of Correlation Analysis. Wiley. 1930

120
100
80
dist

60
40
20
0

5 10 15 20 25

speed

Зависимость длины тормозного пути от начальной скорости в 50 экспериментах.
Найдены значения β0 = 42.980, β1 = 145.552.

Machine Learning. Курс лекций

Machine Learning. Курс лекций

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Similar to Machine Learning. Курс лекций

Similar to Machine Learning. Курс лекций (20)

Machine Learning. Курс лекций