SlideShare a Scribd company logo
МАШИННОЕ ОБУЧЕНИЕ
  (Machine Learning)


       Н.Ю. Золотых

   2009, сентябрь–декабрь
Глава 1
Постановки и примеры задач
Agenda

 • Что такое машинное обучение?
 • Постановки задач

     – Обучение по прецедентам
     – Обучение без учителя

 • Примеры практических задач
 • О курсе
1.1. Что такое машинное обучение?

Machine learning — «самообучение машин».
Будем говорить, что компьютерная программа, предназаначенная для решения
какой-либо задачи, обучается, если со временем качество решения улучшается.

  • Например, программа распознавания рукописных символов, после
    предъявления ей серии таких символов с правильными ответами, начинает
    распознавать точнее.
  • Программа игры в шахматы после серии проведенных игр начинает играть
    лучше.
  • Распознавание спама после обучения на примерах происходит точнее.
1.2. Способы (типы) обучения

У людей обучение происходит в результате ознакомления с правилами, теориями,
инструкциями и т. п. и/или на основе опыта (собственного или чужого).
По аналогичному принципу можно выделить различные способы (типы) обучения
и в искусственных системах:

  • Дедуктивное, или аналитическое, обучение.
    Имеются знания, сформулированные экспертом и как-то формализованные.
    Программа выводит из этих правил конкретные факты и новые правила.
  • Индуктивное обучение.
    На основе эмпирических данных программа строит общее правило.
    Эмпирические данные могут быть получены самой программой в
    предыдущие сеансы ее работы или просто предъявлены ей.
  • Комбинированное обучение, содержащее элементы как дедуктивного, так и
    аналитического обучения.

В курсе рассматривается только индуктивное обучение.
1.3. Классификация задач индуктивного обучения

  • Обучение с учителем, или обучение по прецедентам (supervised learning).
  • Обучение без учителя (unsupervised learning).
  • Активное обучение (active learning).
  • Обучение с подкреплением (reinforcment learning).
  • ...

В курсе рассматривается обучение с учителем и обучение без учителя.
1.4. Обучение по прецедентам

Множество X — объекты (samples)
Множество Y — ответы (responds)
Неизвестная функция f ∗ : X → Y
Значения f ∗ известны только на конечном множестве объектов x1, x2, . . . , xN :

                           f ∗(xi) = yi      (i = 1, 2, . . . , N ).

Пара (xi, yi) ∈ X × Y — прецедент.
Вся имеющаяся совокупность прецедентов

                          {(x1, y1), (x2 , y2), . . . , (xN , yN )}

— обучающая выборка, или обучающая последовательность.
Задача обучения по прецедентам: по имеющейся обучающей выборке
восстановить f ∗
Что значит «восстановить» f ∗?
→ найти f : X → Y , удовлетворяющую свойствам:

  • f эффективно вычислима, т. е. должен быть указан эффективный алгоритм ее
    вычисления
  • f (xi) = f ∗(xi) или f (xi) ≈ f ∗(xi)   (i = 1, 2, . . . , N ).
  • f должна обладать обобщающей способностью: ее значения должны
    совпадать (точно или приближенно) со значениями f ∗ на объектах, не
    вошедших в обучающую выборку.
  • f (и алгоритм ее вычисляющий) может удовлетворять дополнительным
    требованиям, например, монотонности, дифференцируемости, гладкости и
    т. п.

В конкретных постановках задачи эти требования формулируются конкретнее.
Функцию f называют также алгоритмом или моделью.
Процесс нахождения f называют построением алгоритма, подгонкой (fitting)
модели и др.
Признаковые описания

Алгоритм, вычисляющий f , работает не с самими объектами из X , а с их
признаковыми описаниями.
Признак, или атрибут, объекта — некоторое отображение χ : X → Dχ.

Типы признаков

  • Если Dχ конечно, то χ — номинальный признак, или фактор.
    Можно считать, например, что, Dχ = {1, 2, . . . , s}.
    Если |Dχ| = 2 и можно считать, например, что, Dχ = {0, 1}, то признак
    бинарный.
  • Если Dχ конечно и упорядочено, то χ — порядковый признак
    Например, Dχ = {холодно, прохладно, тепло, жарко}
  • Если Dχ ∈ R, то χ — количественный признак
  • ...
Если (χ1, χ2, . . . , χp) — набор признаков, то вектор χ1(x), χ2(x), . . . , χp(x) есть
признаковое описание объекта x.
Признаковые описания объектов из обучающей выборки известны.
Мы будем отождествлять объект x с его признаковым описанием:
                    x = (x1, x2, . . . , xp) = χ1(x), χ2(x), . . . , χp(x)

Таким образом,
                               X = Dχ1 × Dχ2 × . . . × Dχp .
Аналогично для выходов y ∈ Y . Объекты из Y отождествляются с их
признаковыми описаниями:
                     y = (y1, y2, . . . , yq ) = η1(y), η2 (y), . . . , ηq (y)

Далее всюду предполагается, что q = 1, т. е. y — скаляр.
x называется входом,
y — выходом
Компоненты xj вектора x так же называют входами или предикатными
(объясняющими) переменными.
Типы задач обучения

В зависимости от множества Y выделяют разные типы задачи обучения.

  • Y конечно, например, Y = {1, 2, . . . , K}, — задача классификации (или
    задача распознавания образов):
    X разбивается на K классов

                   Xk = {x ∈ X : f (x) = k}      (k = 1, 2, . . . , K).

    По x требуется предсказать, какому классу он принадлежит.
  • Y = R — задача восстановления регрессии.
    Требуется найти функцию f из определенного класса, которая
    аппроксимирует f ∗.
  • ...
1.5. Обучение без учителя

Обучение по прецедентам — это обучение с учителем
Такое обучение можно рассматривать как игру двух лиц: ученика, который должен
восстановить функцию f , и учителя, который для объектов из обучающей
выборки указывает ученику соответствующий им выход.
Иногда можно считать, что объекты из обучающей выборки предъявляются
средой, а иногда — их выбирает сам учитель, в некоторых случаях их выбирает
ученик.
Рассматривается также обучение без учителя.
В этом случае нет учителя и нет обучающей выборки.
Ученик, имея только список объектов x1, x2, . . . , xN , должен определить значения
неизвестной функции f (x) для каждого из этих объектов.
Это достигается за счет анализа описаний объектов.
Так, например, можно предположить, что для «близких» объектов (т.е. для
объектов с «близкими» описаниями) выходы также будут близки или даже
совпадать.
В задачах обучения без учителя заранее специфицированы какие-то свойства
функции f .
Например, может быть известно, что функция f принимает конечное число
различных значений. Получаем задачу кластерного анализа: требуется разбить
объекты на группы (кластеры), так, чтобы в одном кластере оказались близкие
друг к другу объекты, а в разных кластерах объекты были существенно различные.
1.6. Примеры практических задач

Распознавание рукописных символов (цифр)
Изображения цифр от 0 до 9 закодированы известным образом. Требуется
определить, какая цифра нарисована.
Например, код (признаковое описание) — битовая матрица размера 32 × 32.
1 — пиксел черный, 0 — пиксел белый.
Изображение перед кодированием масштабируется, чтобы все изображения имели
примерно одинаковый размер.
Элементы матрицы запишем по строкам получим вектор x длины 322 = 1024 —
признаковое описание объекта.
X = {0, 1}1024.
Множество всех возможных кодов разбивается на 10 классов:

                             Y = {0, 1, 2, . . . , 9}

Получили задачу классификации: по x ∈ X требуется определить класс k ∈ Y .
Входы x1, x2, . . . , xp — бинарные признаки.
Обучение проходит на реальных прецедентах (xi, ki) (i = 1, 2, . . . , N ).
Обучающая выборка в примере ÓÔØ           Ø
 ØØÔ »»ÛÛÛº ׺٠º Ù» ÑÐ ÖÒ»ÅÄÊ ÔÓ× ØÓÖݺ ØÑÐ содержит 1934 прецедента.
Некоторые объекты из обучающей выборки
Проблема построения признакового описания.
В задаче распознавания символов можно использовать признаковое описание на
основе анализа контура изображения.
В примере Ð ØØ Ö¹Ö Ó Ò Ø ÓÒ
 ØØÔ »»ÛÛÛº ׺٠º Ù» ÑÐ ÖÒ»ÅÄÊ ÔÓ× ØÓÖݺ ØÑÐ распознавания печатных
заглавных букв (26 классов) для кодирования изображений используется другой
подход.
Входами являются (входы отмасштабированы и округлены, так, чтобы они
принимали целые значения в диапазоне от 0 до 15; база содержит 20000
прецедентов):
   1. ܹ ÓÜ — координата x левого нижнего угла обрамляющего прямоугольника,
   2. ݹ ÓÜ — координата y левого нижнего угла обрамляющего прямоугольника,
   3. Û    Ø — ширина прямоугольника,
   4.       — высота прямоугольника,
   5. ÓÒÔ Ü — общее число подсвеченных пикселей
   6. ܹ    Ö — среднее значение координаты x для подсвеченных пикселей
   7. ݹ    Ö — среднее значение координаты y для подсвеченных пикселей
   8. ܾ    Ö — стандартное отклонение для координаты x подсвеченных пикселей
   9. ݾ    Ö — стандартное отклонение для координаты y подсвеченных пикселей
  10. ÜÝ    Ö — коэффициент корреляции x и y подсвеченных пикселей
  11. Ü¾Ý Ö — среднее значение x2y
  12. Üݾ Ö — среднее значение xy 2
  13. ܹ     — среднее значение числа отрезков при просмотре слева направо
  14. Ü    ÚÝ — коэффициент корреляции между средним значением числа отрезков при просмотре слева направо и y
  15. ݹ     — среднее значение числа отрезков при просмотре снизу вверх
  16. Ý    ÚÜ — коэффициент корреляции между средним значением числа отрезков при просмотре снизу вверх и x
Медицинская диагностика
По набору определенных характеристик пациента (симптомов), таких как
температура тела, артериальное давление, содержание гемоглобина в крови и т. п.,
требуется определить, какое у больного заболевание (и болен ли он вообще).
Объектами являются пациенты, их признаковым описанием — набор
характеристик, а выходом — номер класса.
Обучение проходит на достаточном объеме прецедентов.
Таким образом, получаем задачу классификации.
Могут встречаться признаки разных типов:

   • бинарные (пол, наличие головной боли),
   • номинальные (боль может быть тупой, режущей, колющей и т. п.),
   • порядковые (состояние больного может быть удовлетворительным, средней
     тяжести, тяжелым, крайне тяжелым),
   • количественные (температура тела, пульс, давление).
Пусть, например, имеется информация о 768 пациентках (см. фрейм данных Ô Ñ
из R библиотки Ö Û Ý Julian J. Faraway).
История болезни каждой пациентки содержит данные о 8 различных
характеристиках, а также информацию о том, больна ли пациетка сахарным
диабетом или нет.
Все признаки количественные.
Имея эту информацию, требуется по набору таких характеристик научиться
определять, больна ли пациентка (не из обучающей выборки) или нет.
Имеем 768 точек в 8-мерном пространстве.
О расположении точек можно судить по 8 бокс-диаграммам
          Diabetes                  Triceps                   Pregnant

    0.0   1.0        2.0        0    40        80         0    5    10     15
0




                            0




                                                      0
1




                            1




                                                      1
            Age                      Insulin                   Glucose

    20    40    60     80       0    400        800       0   50      150
0




                            0




                                                      0
1




                            1




                                                      1




                                         BMI                   Diastolic

                                0   20    40    60        0    40    80     120
                            0




                                                      0
                            1




                                                      1
Проекции точек на двумерную координатную плоскость переменных Ñ
(масса/рост2), ÐÙ Ó× (содержание глюкозы).
glucose

           50   100             150   200
      20
      30
      40
bmi

      50
      60
В задачах медицинской диагностики может ставиться другая цель:
определить оптимальный курс лечения (это может быть как задача
классификации, так и задача восстановления регрессии),
спрогнозировать время протекания болезни (задача восстановления регрессии) и
т. п.
Прогнозирование цены
Предположим, что имеются данные о жилых загородных домах в некоторой
местности.
Для каждого дома известна его цена, состояние, жилая площадь, количество
этажей, количество комнат, время постройки, удаленность до основных
магистралей, наличие инфраструктуры, экологическая обстановка в районе и т. п.
Требуется научиться предсказывать цену по остальной информации.
Объектами являются дома, входами — их характеристики, а выходом — цена дома.
Получаем задачу восстановления регрессии.
Boston Housing Data из коллекции StatLib (Carnegie Mellon University)
Информация агрегирована: територия поделена на участки и дома, стоящие на
одном участке, собраны в группы. Таким образом, объектами являются сами эти
группы. Их общее количество — 506.
Признаки
  1.    ÊÁÅ — уровень преступности на душу населения,
  2.    Æ — процент земли, застроенной жилыми домами (только для участков площадью свыше
       25000 кв. футов),
  3. ÁÆ ÍË — процент деловой застройки,
  4.    À Ë — 1, если участок граничит с рекой; 0 в противном случае (бинарный признак),
  5. ÆÇ — концентрация оксида азота, деленная на 107,
  6. ÊÅ — среднее число комнат (по всем домам рассматриваемого участка),
  7.       — процент домов, построенных до 1940 г. и занимаемых владельцами,
  8.    ÁË — взвешенное расстояние до 5 деловых центров Бостона,
  9. Ê     — индекс удаленности до радиальных магистралей,
 10. Ì     — величина налога в $10000,
 11. ÈÌÊ ÌÁÇ — количество учащихся, приходящихся на одного учителя (по городу),
 12.     = 1000(   − 0.63)2, где   — доля афро-американцев,
 13. ÄËÌ Ì — процент жителей с низким социальным статусом.
Признак À Ë — бинарный, остальные — количественные. Выходом является переменная Å Î,
равная медианному значению цены строения (по всем домам участка) в $1000. Ее нужно научиться
предсказывать.
Диаграммы рассеяния для каждой пары переменных Å Î, ÁÆ ÍË, ÆÇ , ÊÅ,   ,
ÈÌÊ ÌÁÇ, . Значение переменной Å Î нужно научиться предсказывать по
значениям остальных переменных. Изображены только по 100 слечайных точек.
                                0    15                  4   6    8             14   20           5   20




                                                                                                           40
                       MEDV




                                                                                                           10
                 15
                                    INDUS
                 0




                                                                                                           0.7
                                                  NOX




                                                                                                           0.4
                 8
                 6




                                                             RM
                 4




                                                                                                           80
                                                                       AGE




                                                                                                           20
                 20




                                                                                PTRATIO
                 14




                                                                                                           0 200
                                                                                             B
                 20




                                                                                                  LSTAT
                 5




                      10   40               0.4    0.7                20   80             0 200
Анализ данных, полученных с биочипов
Биочип, или микроэррэй, (biochip, microarray) — это миниатюрный прибор,
измеряющий уровень экспрессии генов в имеющемся материале.
Экспрессия — это процесс перезаписи информации с гена на РНК, а затем на
белок.
Количество и даже свойства получаемого белка зависят не только от гена, но
также и от различных внешних факторов (например, от введенного лекарства).
Таким образом, уровень экспрессии — это мера количества генерируемого белка.
На биочип кроме исследуемого материала помещается также «контрольный»
генетический материал.
Положительные значения (красный цвет) — увеличение уровня экспрессии по
сравнению с контрольным.
Отрицательные значения (зеленый цвет) — уменьшение.
Условное изображение биочипа. Каждая точка на рисунке соответствует
определенному гену. Всего анализируется 132 × 72 = 9504 гена. Brown, V.M.,
Ossadtchi, A., Khan, A.H., Yee, S., Lacan, G., Melega, W.P., Cherry, S.R., Leahy, R.M.,
and Smith, D.J.; Multiplex three dimensional brain gene expression mapping in a
mouse model of Parkinson’s disease; Genome Research 12(6): 868-884 (2002).
Пусть было проведено несколько экспериментов, в которых на биочип вместе с
контрольным материалом размещались разные другие генетические материалы,
например, полученные после введения разных лекарств.
Информацию, полученную в результате проведения такой серии экспериментов
можно представить в виде числовой матрицы, в которой строки соответсвуют
разным генам, а столбцы — разным экспериментам (разным клеткам).
Поставим следующие задачи:

 (а) Найти гены, показавшие высокую экспрессию, в заданных экспериментах.
 (б) Разбить гены на группы в зависимости от влияния на них экспериментов.
     Гены, реагирующие «почти одинаковым» образом в «большом» числе
     эспериментов, должны попасть в одну группу. Гены, реагирующие
     по-разному, должны находиться в разных группах.
 (в) Разбить эксперименты на группы в зависимости от их влияния на гены.
     Эксперименты, в которых одинаковые гены реагировали «сходным» образом
     должны оказаться в одной группе. Эксперименты, в которых гены
     реагировали «различно», должны находиться в разных группах.

Задачи (б) и (в) — это задачи кластерного анализа.
Данные для 60 экспериментов с биочипом. «Genomics Bioinformatics Group»
 ØØÔ »» × ÓÚ ÖºÒ ºÒ º ÓÚ» Ø × Ø×Æ ØÙÖ ¾¼¼¼º ×Ô Строки соответсвуют
генам, столбцы — экспериментам. Приведены только первые 100 строк (из общего
числа 1375). Строки, содержащие отсутствующие значения, исключены.
ME.LOXIMVI
      ME.MALME.3M
       ME.SK.MEL.2
       ME.SK.MEL.5
      ME.SK.MEL.28
          LC.NCI.H23
              ME.M14
        ME.UACC.62
        LC.NCI.H522
      LC.A549.ATCC
            LC.EKVX
      LC.NCI.H322M
        LC.NCI.H460
          LC.HOP.62
          LC.HOP.92
        CNS.SNB.19
        CNS.SNB.75
           CNS.U251
         CNS.SF.268
         CNS.SF.295
         CNS.SF.539
            CO.HT29
       CO.HCC.2998
         CO.HCT.116
          CO.SW.620
          CO.HCT.15
            CO.KM12
        OV.OVCAR.3
        OV.OVCAR.4
        OV.OVCAR.8
         OV.IGROV1
         OV.SK.OV.3
      LE.CCRF.CEM
             LE.K.562
          LE.MOLT.4
               LE.SR
            RE.UO.31
           RE.SN12C
             RE.A498
           RE.CAKI.1
         RE.RXF.393
             RE.786.0
            RE.ACHN
            RE.TK.10
       ME.UACC.257
        LC.NCI.H226
       CO.COLO205
        OV.OVCAR.5
             LE.HL.60
       LE.RPMI.8226
            BR.MCF7
        UN.ADR.RES
              PR.PC.3
           PR.DU.145
BR.MDA.MB.231.ATCC
          BR.HS578T
     BR.MDA.MB.435
           BR.MDA.N
           BR.BT.549
            BR.T.47D
                        248589
                        248257
                        245939
                        245868
                        245450
                        244736
                        242678
                        241935
                        241037
                        240566
                        239001
                        233795
                        232896
                        222341
                        221263
                        220376
                        211995
                        211515
                        211086
                        209731
                        208950
                        203527
                        200696
                        197549
                        189963
                        175269
                        166966
                        162077
                        159512
                        158337
                        158260
                        152241
                        146311
                        145965
                        145292
                        144758
                        143985
                        136798
                        135118
                        130532
                        130531
                        130482
                        130476
                        128329
                        126471
                        125308
                        124918
                        122347
                        116819
                        114116
                        112383
                        108840
                        108837
                        86102
                        79617
                        79319
                        76539
                        74275
                        74070
                        73185
                        72214
                        72199
                        68068
                        67939
                        61539
                        52519
                        52218
                        52128
                        51904
                        51104
                        50914
                        50250
                        50243
                        49729
                        46818
                        46694
                        46173
                        45720
                        44449
                        43555
                        41232
                        38915
                        37627
                        37330
                        37153
                        37060
                        37054
                        36380
                        35271
                        31905
                        31861
                        29194
                        26811
                        26677
                        26599
                        25831
                        25718
                        23933
                        22264
                        21822
Лингвистика
Список Сводеша (Swadesh) — список из 207 слов языка, заимствовование которых
из других языков (на поздних этапах) мало вероятно (местоимения, числительные
1–5, глаголы, обозначающие простые действия и т. п.)
№    Русский     Английский Немецкий Итальянский Французский Чешский
1    я           I             ich         io            je             j´
                                                                         a
2    ты          you           du          tu            tu             ty
3    он          he            er          lui           il             on
4    мы          we            wir         noi           nous           my
5    вы          you           ihr         voi           vous           vy
6    они         they          sie         loro          ils            oni
7    этот        this          dieses      questo        ceci           tento
8    тот         that          jenes       quello        cela           tamten
9    здесь       here          hier        qui           ici            zde
10   там         there         dort        l´
                                            a            l´
                                                          a             tam
11   кто         who           wer         chi           qui            kdo
12   что         what          was         che           quoi           co
13   где         where         wo          dove          o`
                                                          u             kde
14   когда       when          wann        quando        quand          kdy
15   как         how           wie         come          comment        jak
16   не          not           nicht       non           ne. . . pas    ne
.................................................................................
205 если         if            wenn        se            si             jestlize
206 потому что because         weil        perch´
                                                e        parce que      protoze
207 имя          name          Name        nome          nom            jm´ no
                                                                          e
На основе анализа списков Сводеша для разных языков можно установить степень
их родства и выделить группы родственных языков — это задача кластерного
анализа.
Более того, на основе анализа списка Сводеша для двух родственных языков
можно приблизительно установить время их появляения из единого пра-языка.
Матрица сходства между некоторыми языками, построенная на основе списков
Сводеша.
English
                German
                Dutch
                Swedish
                Danish
                Italian
                French
                Spanish
                Portuguese
                Latin
                Esperanto
                Slovene
                Czech
                Polish
                Slovio
                Lithuanian
                Latvian
                Hungarian
                Finnish
                Estonian
                Euskara
                Quenya
                Sindarin
     English
    German
      Dutch
   Swedish
     Danish
      Italian
     French
    Spanish
Portuguese
        Latin
 Esperanto
    Slovene
      Czech
      Polish
      Slovio
 Lithuanian
     Latvian
 Hungarian
     Finnish
   Estonian
    Euskara
    Quenya
    Sindarin
списков Сводеша.
                                                Дерево иерархической кластеризации для 23 языков, построенное на основе
                    English
          German
           Dutch
Swedish
 Danish
         Italian
        French
   Spanish
Portuguese
                Latin
               Esperanto
   Slovene
     Slovio
       Czech
             Polish
          Lithuanian
              Latvian
                              Hungarian
     Finnish
    Estonian
                   Quenya
                   Sindarin
                                      Euskara
Программа курса

 • Различные алгоритмы и подходы к решению задач машинного обучения:

     – Линейная регрессия
     – Метод ближайших соседей
     – Метод опорных векторов
     – Нейронные сети
     – Деревья решений
     – Бустинг
     – Графические вероятностные модели
     – Обучение без учителя, кластеризация

 • Элементы теории (Вапника–Червоненкиса) о предсказательной способности
   алгоритмов обучения
Лабораторные работы

Лабораторные работы — в среде для статистических вычислений R
ÛÛÛºÖ¹ÔÖÓ ØºÓÖ
Предварительный список тем:

  • Знакомство с R
  • Проверка вероятностных гипотез
  • Регрессия
  • Метод опорных векторов
  • Метод деревьев решений
  • Алгоритмы кластеризации
  • Оценка и анализ ошибки предсказания. Бутстрэп, метод перекрестного
    контроля
  • Бустинг

Будут конкурсные задания!
Литература

[1] Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Springer,
    2001.
[2] Ripley B.D. Pattern recognition and neural networks. Cambridge University Press,
    1996.
[3] Bishop C.M. Pattern recognition and machine learning. Springer, 2006.
[4] Duda R. O., Hart P. E., Stork D. G. Pattern classification. New York: JohnWiley
    and Sons, 2001.
[5] Mitchell T. Machine learning. McGraw Hill,1997.
[6] Воронцов К.В. Математические методы обучения по прецедентам. Курс
    лекций. Москва, ВЦ РАН, 2005. ØØÔ »»ÛÛÛº ׺ÖÙ»ÚÓÖÓÒ»Ø         Ò º ØÑÐ
[7] Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск:
    Изд-во Ин-та математики, 1999.
[8] Николенко С. Машинное обучение. Курс лекций. СПб.: ПОМИ РАН, 2006.
     ØØÔ »»ÐÓ ºÔ Ñ ºÖ ׺ÖÙ» × Ö Ý»
[9] Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы
     моделирования и первичная обработка данных. М.: Финансы и статистика,
     1983.
[10] Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика:
     исследование зависимостей. М.: Финансы и статистика, 1985.
[11] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная
     статистика: классификация и снижение размерности. М.: Финансы и
     статистика, 1989.
[12] Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука,
     1974.
[13] Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.:
     Наука, 1979.
[14] Vapnik V.N. The nature of statistical learning theory. New York: Springer, 1995.
[15] Vapnik V.N. Statistical learning theory. New York: John Wiley, 1998.

wiki-портал: ØØÔ »»ÛÛÛºÑ         Ò Ð ÖÒ Ò ºÖÙ
Сайт курса: ØØÔ »»ÛÛÛºÙ ºÒÒÓÚºÖÙ» ÞÒÝ»ÑÐ
(конспекты лекций, лабораторные работы, описание системы R, ссылки)
Курс разработан при поддержке Intel.
Кураторы от Интел: Виктор Ерухимов и Игорь Чикалов.
ЛЕКЦИЯ 2

План

  • Вероятностная постановка задачи
  • Восстановление функции распределения
  • Принцип минимизации эмпирического риска
  • Регрессионная функция
  • Байесов классификатор
  • Метод стохастической минимизации
1.7. Вероятностная постановка задачи

Будем рассматривать пары (x, y) как реализации (p + 1)-мерной случайной
величины (X, Y ), заданной на вероятностном пространстве

                                 X × Y , F, Pr .

X ∈ Rp, Y ∈ R.
Интегральный закон распределения P (x, y) = P (x |y)P (y) не известен, однако
известна выборка
                       {(x1 , y1), (x2, y2), . . . , (xN , yN )} ,
где (xi, yi) являются реализациями случайной величины (X, Y ).
Требуется найти функцию f : X → Y , которая по x предсказывает y.
Пусть дана функция потерь (штраф) L(y |y) = L(f (x)| y).
x — некоторый вход, y — соответствующий выход
y = f (x) — предсказанное значение
Квадратичная функция потерь (часто в задаче восстановления регрессии):
                              L(y |y) = (y − y)2 .

В задаче классификации часто используется функция

                                     0, если f (x) = y,
                         L(y |y) =
                                     1, если f (x) = y.

В общем случае в задаче классификации на K классов функция потерь полностью
описывается K × K матрицей L = ( ky ), где ky = L(k |y).
Пусть, например, в задаче медицинской диагностики Y = {0, 1}, где
y = 0 — пациент здоров, y = 1 — пациент болен.
L(1|1) = L(0|0) = 0
L(1|0) = 1 — болезнь определена у здорового пациента
L(0|1) = 10 — болезнь не определена у больного пациента
Анлогично: автомаическое определение почтового спама
Мат. ожидание функции потерь

                  R(f ) = E L f (x)| y =         L f (x)| y dP (x, y)
                                           X×Y

называется cредним риском, средней ошибкой или ожидаемой ошибкой
предсказания.
Разумный подход: в качестве f взять функцию из заданного класса F ,
минимизирующую средний риск R(f ).
НО: закон P (x, y) не известен и поэтому мы не можем точно вычислить R(f ).
Два подхода:

  1) Восстановить P (x, y) по обучающей выборке, а затем минимизировать R(F )
  2) «Прямой подход»
1.8. Методы минимизации среднего риска

1.8.1. Восстановление функции распределения вероятности

Будем минимизировать средний риск

                           R(f ) =         L f (x)| y dP (x, y)               (∗)
                                     X×Y


  1) по имеющейся выборке (x1, y1 ), . . . , (xN , yN ) решается задача
     восстановления функции распределения P (x, y).
  2) восстановленная функция P (x, y) подставляется в (*) вместо P (x, y) и
     решается задача минимизации.

В качестве P (x, y) можно взять выборочную функцию распределения.
Согласно теореме Гливенко с ростом N эмпирическая функция распределения
равномерно приближается к истинной.
Замечание 1.1 Известно, что задача восстановления функции распределения
является некорректно поставленной, поэтому гарантировать успех в описанном
подходе можно, только если об этой функции известно достаточно много и
выборка большая.
Более того, задача восстановления функции распределения является центральной
задачей в математической статистике и нецелесообразно сводить
рассматриваемую частную задачу (минимизации среднего риска) к более общей.
1.8.2. Принцип минимизации эмпирического риска

«Прямой» подход
Элементы обучающей выборки {(x1, y1), . . . , (xN , yN )} распределены случайно и
независимо, каждый согласно закону распределения P (X, Y ), поэтому
                                                             1   N
            R(f ) ≈ R(f ) = R(f, x1, y1, . . . , xN , yN ) =
                                                             N
                                                                 ∑L    f (xi)|yi ,
                                                                 i=1


R(f ) — эмпирический риск.
Так как xi, yi выбираются случайно, то R(f ) — случайная величина (статистика).
Нетрудно видеть, что
                                                                   σ2
                  E R(f ) = E L f (X)|Y = R(f ),          D R(f ) = ,
                                                                   N

где σ 2 — дисперсия случайной величины L(f (X)| Y ). Заметим, что σ 2 зависит от f .
Насколько эмпирический риск может отклоняться от среднего риска?
Утверждение 1.2 Для любого δ с вероятностью больше 1 − δ
                                σ                     σ
                       R(f ) − √   ≤ R(f ) ≤ R(f ) + √ .
                                Nδ                    Nδ
Д ОКАЗАТЕЛЬСТВО . Согласно неравенству Чебышева

                                                  D R(f )
                       Pr |R(f ) − E R(f )| > ε ≤     2
                                                          .
                                                    ε
Обозначим правую часть этого неравенства через δ.
Учтем, что
                                                             σ2
                 E R(f ) = E L f (X)|Y = R(f ),     D R(f ) = .
                                                             N
Получаем требуемое.
Следствие 1.3 Для любой f ∈ F
                         lim Pr |R(f ) − R(f )| > ε = 0,
                         N →∞

т. е. R(f ) сходится по вероятности к R(f ).
С помощью схемы Бернулли можно получить более сильные оценки, но пока
этого достаточно.
Принцип (или метод) минимизации эмпирического риска:
в заданном классе F необходимо найти функцию f , доставляющую минимум
эмпирическому риску R(f ), и предложить f в качестве решающего правила f .
Таким образом, задачу минимизации среднего риска R(f ) мы заменили задачей
минимизации эмпирического риска R(f ).
Важно, чтобы при этом функция, минимизирующая R(f ), доставляла среднему
риску R(f ) значение, близкое к минимальному.
Для этого не достаточно обычной сходимости по вероятности из следствия 1.3, а
нужна равномерная сходимость:

                      lim Pr   sup |R(f ) − R(f )| > ε   = 0.
                     N →∞      f ∈F


Теория Вапника–Червоненкиса дает для этого необходимые и достаточные
условия
Всегда ли метод миимизации эмпирического риска приводит к успеху?
Не всегда.
Рассмотрим задачу классификации.
                                  1
Y = {0, 1}, p(Y = 0) = p(Y = 1) = 2 .
Пусть решающее правило f на элементах обучающей выборки дает верное
значение выхода, а для всех остальных — случайный ответ.
                         1
Имеем R(f ) = 0, R(f ) = 2
и понятно, что метод не обладает никакой обобщающей способностью (Вапник,
Червоненкис).
Как это согласуется с утверждением 1.2?
Пусть F = {f : f (x, α), α ∈ [0, 1]} — класс решающих правил
R(α) — средний риск, R(α) — эмпирический риск на функции f (x, α)




 R(α)                                                               R(α)




    ∗
                                                 R(α)
 R(α )



                                                                     α
                       α∗                    α
R(α) далеко от минимального значения R(α∗ ).

                        lim Pr |R(f ) − R(f )| > ε = 0.
                        N →∞
Равномерная сходимость




                                                               R(α)
                                                               R(α)


R(α)
R(α∗ )



                                                                α
                 α       α∗


                     lim Pr   sup |R(f ) − R(f )| > ε   = 0.
                     N →∞     f ∈F
Замечание 1.4 Некоторые хорошо известные методы машинного обучения
являются частными случаями метода минимизации эмпирического риска.
Например, в случае квадратичной функции потерь эмпирический риск равен
                                  1   N
                                      ∑
                                                         2
                          R(f ) =           yi − f (xi) .
                                  N   i=1

В этом случае метод минимизации эмпирического риска называется методом
наименьших квадратов.
В задаче восстановления плотности вероятности для логарифмической функции
потерь эмпирический риск равен
                                     1      N
                            R(p) = −
                                     N
                                            ∑ ln p(xi)
                                            i=1

В этом случае метод минимизации эмпирического риска называется методом
максимального правдоподобия (Фишер).
1.8.3. Регрессионная функция


        R(f ) =         L f (x)| y dP (x, y) =         L f (x)| y dP (y | x) dP (x),
                  X×Y                            X Y

т. е.
                           R(f ) =       E L f (x)| Y |x dP (x)
                                     X
Рассмотрим задачу восстановления регрессии с квадратичной функцией потерь:
                                   2                                     2
         R(f ) =         y − f (x) dP (y |x) dP (x) =       E   Y − f (x) |x dP (x).
                   X Y                                  X

Очевидно, минимизировать R(f ) можно поточечно:
                               f ∗(x) = argmin E (Y − c)2 | x ,                        (1)
                                          c

откуда
                                       f ∗(x) = E (Y |x).                              (2)
Это так называемая регрессионная функция.
Итак, в случае квадратичной функции потерь наилучшим предсказанием y в
ответ на вход x является условное среднее.

Упражнение 1.5 Доказать, что из (1) следует (2), при этом R(f ∗ ) = E D (Y | X).

Упражнение 1.6 Доказать, что если в качестве функции потерь выбрана
L(y | y) = |y − y|, то минимум среднему риску доставляет условная медиана
f (x) = median(Y |x).
Возникает задача аппроксимации условного среднего E (Y |x) по имеющимся
эмпирическим данным.

  1) Заменим f ∗ (x) выборочным средним
                             1
                   f (x) =         ∑ yi,
                           |I(x)| i∈I(x)
                                             где   I(x) = {i : xi = x} ,


    Как правило, такое решение к успеху не приводит, так как обычно x
    встречается в обучающей выборке не более одного раза.
  2) В методе k ближайших соседей вместо выборочного среднего берут
                                            1
                                  f (x) =        ∑ yi,
                                            k xi∈Nk (x)

    где через Nk (x) обозначено множество из k точек обучающей выборки,
    ближайших (по евклидову расстоянию) к x.
    Частным случаем является метод (одного) ближайшего соседа, в котором
    f (x) = yi, где xi — ближайшая к x точка из обучающей выборки.
Метод k ближайших соседей для задачи восстановления регрессии




               1.0 1.5 2.0 2.5 3.0 3.5 4.0




                                                                       1.0 1.5 2.0 2.5 3.0 3.5 4.0
                                             0.2   0.4     0.6   0.8                                 0.2   0.4     0.6   0.8

                                                         k=1                                                     k=2
               1.0 1.5 2.0 2.5 3.0 3.5 4.0




                                                                       1.0 1.5 2.0 2.5 3.0 3.5 4.0




                                             0.2   0.4     0.6   0.8                                 0.2   0.4     0.6   0.8

                                                         k=5                                                 k = 14
Итак, метод ближайших соседей похож на метод восстановления функции
распределения вероятности, только теперь аппроксимируется не плотность
вероятности, а условное среднее.
1.8.4. Байесов классификатор

Рассмотрим задачу классификации. Y = {1, 2, . . . , K}.
Минимизируем средний риск
                                       K
                     R(f ) =           ∑L     f (x)| y · Pr (y | x) dP (x).   (∗∗)
                                       y=1
                               X

Пусть функция потерь определяется формулой
                                                   0, если y = y,
                                L(y |y) =
                                                   1, если y = y.

Тогда подинтегральная функция в (**) есть вероятность ошибки (при заданном x)
и поэтому
                       R(f ) =          1 − Pr Y = f (x)| x     dP (x),
                                   X

откуда находим f ∗ (x) = argmin R(f ):
                               f ∗(x) = argmin 1 − Pr (y | x) ,
                                             y∈Y
или, что эквивалентно,
                             f ∗ (x) = argmax Pr (y |x).                     (+)
                                           y∈Y

Функция f ∗ (x), найденная по этим формулам, называется байесовым
классификатором или байесовым решающим правилом.
Средний риск байесова классификатора называется байесовой ошибкой.
Байесов классификатор играет в задаче классификации роль, схожую с той,
которую играет регрессионная функция в задаче восстановления регрессии.
Pr (y | x) называется апостериорной вероятностью появления объекта из класса y,
и правило (+) называется принципом максимума апостериорной вероятности.
Если классы равновероятны, т. е. Pr (y) = 1/K, то
                                        p(x |y) Pr (y) p(x |y)
                         Pr (y | x) =                 =
                                             p(x)       Kp(x)
                               f (x) = argmax p(x |y).                      (++)
                                            y

Плотность p(x |y) часто называется правдоподобием (likelihood), поэтому правило
(++) называется методом максимального правдоподобия (maximum-likelihood
method).
Таким образом, байесов классификатор — это оптимальный классификатор.
Предполагается, что условные вероятности Pr (y | x) известны.
Как это можно использовать на практике?
Будем аппроксимировать Pr (y | x)

  1) Метод ближайших соседей (для задачи классификации)
  2) Восстановление условной плотности вероятности
Метод ближайших соседей для задачи классификации

Будем, как и в задаче восстановления регрессии, для аппроксимации Pr (y |x)
использовать k ближайших (по евклидову расстоянию) объектов из обучающей
выборки. Получаем метод k ближайших соседей для задачи классификации.
Пусть Nk (x) — множество из k ближайших к x (по евклидову расстоянию) точек
из обучающей выборки,
Ik (x, y) — множество тех точек xi из Nk (x), для которых yi = y.
Согласно методу k ближайших соседей в качестве f (x) берем результат
голосования по всем точка из Ik (x, y):

                           f (x) = argmax |Ik (x, y)|,
                                      y

Частным случаем является метод (одного) ближайшего соседа, в котором
f (x) = yi, где xi — ближайший к x объект из обучающей выборки.
В этом случае Ωy представляют собой области Вороного
Диаграмма Вороного для набора из 50 точек. Штриховыми линиями отмечены
неограниченные участки границы
Восстановление функции распределения

Другой способ аппроксимировать Pr (y | x) — воспользоваться формулой Байеса.
Если X — непрерывная случайная величина и p(x) = 0, то
                                p(x |y) · Pr (y)         p(x |y) Pr (y)
                   Pr (y | x) =                  =   K
                                                                          .
                                     p(x)
                                                     ∑ p(x |k) · Pr (k)
                                                     k=1

Таким образом, задача сведена к задаче восстановлению по обучающей выборке
условной плотности вероятности p(x |y) и вероятности Pr (y).
1.8.5. Метод стохастической минимизации

[Robins, Monroe, 1951, Айзерман, Браверман, Розоноэр, 1965, Amari, 1967,
Цыпкин, 1971, 1973].
Пусть класс F решающих функций параметризован вектором α:
                           F = {f (x) = f (x, α) : α ∈ Rq } .

Требуется найти α∗, минимизирующее функционал

                         R(α) =         L f (x, α)| y dP (x, y).
                                  X×Y

Метод основан на итерациях
          α(k+1) = α(k) − γk · ∇αL f (x(k), α(k))|y (k)     (k = 1, 2, . . . , N ).

При некоторых необременительных ограничениях на γk и ∇α L f (x, α)| y процесс
сходится к α∗, минимизирующему R(α).
Для гарантированной корректной работы выборка должна быть очень большой.
Далее этот метод в курсе не рассматривается.
ЛЕКЦИИ 3, 4
Глава 2
Задача восстановления регрессии
Agenda

 • Регрессионная функция
     – Метод наименьших квадратов
     – Метод максимального правдоподобия
 • Линейная регрессия
 • Оценка коэффициентов по выборке
 • Переобучение
 • Сокращение числа параметров и «усадка» коэффициентов
     – Выбор подмножества параметров
     – Гребневая регрессия
     – Лассо
     – Метод главных компонент
     – Частичные наименьшие квадраты
Регрессия

Фрэнсис Гальтона (1822–1911)
«Регрессия к середине в наследовании роста» (1885 г.)
Зависимость роста взрослого ребенка от роста родителей в исследовании
Ф. Гальтона
74
                             72
                             70
              Child height

                             68
                             66
                             64




                                                               data
                                                               x=y
                             62




                                                               regression
                                                               means


                                  64   66      68        70   72      74

                                            Parents height


928 наблюдений ch = 0.65par + 24 = 68.2 + 0.65 × (par − 68.2)
5
Residuals

            0
            −5




                 64   66      68        70   72   74

                           Parents height
x = средняя оценка по мат. анализу и алгебре в 1-м семестре
y = средняя оценка по мат. анализу, алгебре и программированию во 2-м семестре




                                5.0
                                4.5
                 2nd semester

                                4.0
                                3.5
                                3.0
                                2.5




                                      3.0   3.5   4.0     4.5    5.0   5.5

                                                  1st semester


79 студентов
5.0
                                4.5
                 2nd semester

                                4.0
                                3.5
                                3.0

                                                                       data
                                                                       x=y
                                2.5




                                                                       regression
                                                                       means


                                      3.0   3.5   4.0     4.5    5.0      5.5

                                                  1st semester



sem2 = 0.93 + 0.77 × sem1 ≈ 3.86 + 0.77 × (sem1 − 3.82)
3.82 — средняя оценка по всем студентам в 1-м семестре
3.86 — средняя оценка по всем студентам во 2-м семестре
Зависимость между массой тела и массой мозга животного




                              5e+03
                                                                                                      African elephant
                                                                                  Asian elephant



                                                                                Human
                                                                                     Giraffe




                              5e+02
                                                                                Donkey     Horse
                                                               Chimpanzee                    Cow
                                                                                 Gorilla
                                                Rhesus monkey        Sheep             Pig
                                                                                  Jaguar           Brachiosaurus
                                                     Potar monkey            Grey wolf
                                                                      Goat




                              5e+01
                                                                                                        Triceratops

                      brain
                                                                             Kangaroo                    Dipliodocus

                                                               Cat

                                                             Rabbit
                                                          Mountain beaver
                              5e+00

                                                         Guinea pig

                                              Mole
                                                  Rat

                                              Golden hamster
                              5e−01




                                      Mouse



                                       1e−01                   1e+01                       1e+03              1e+05

                                                                       body



lg brain = β0 + β1 lg body
β0 = 0.94, β1 = 0.75
brain = 8.6 × (body)3/4
Обучающая выборка
                         (x1, y1), (x2, y2), . . . , (xN , yN )


                    xi ∈ X ,      yi ∈ Y          (i = 1, 2, . . . , N )


                        f ∗ (xi) = yi      (i = 1, 2, . . . , N )
Нужно «восстановить» f ∗
В задаче восстановления регрессии

                                        Y =R
Часто используется модель с аддитивной случайной ошибкой:

                                   y = f ∗(x) + ε,

где ε — случайная величина (ошибка), не зависящая от x, и E ε = 0.
f (x) = E (Y |X = x) и зависимость условного распределения P (y | x) от X
проявляется только через условное среднее f (x).
Предположим, что f ∗ (x) принадлежит некоторому классу.
Например, является линейной функцией:
                                             p
                              f (x) = β0 + ∑ xj βj                     (1)
                                            j=1

или функцией вида (более общий случай)
                                       q
                               f (x) = ∑ βj hj (x),                    (2)
                                      j=1

где βj — неизвестные параметры, а hj (x) — заданные функции.
(1) и (2) — линейная задача наименьших квадратов
Но βj могут входить нелинейным образом (нелинейная задача наименьших
квадратов)
Например,
                                y = β1eλ1 x + β2eλ2x.
Метод наименьших квадратов — один из методов нахождения неизвестных
параметров β
Ищем набор параметров β, доставляющих минимум сумме квадратов невязок,
или остаточной сумме квадратов (residual sum of squares)
                                 N               2
                        RSS(β) = ∑ yi − f (xi, β) .
                                 i=1

Метод наименьших квадратов — не единственный способ подбора неизвестных
коэффициентов регрессионной функции.
Принцип макcимального правдоподобия — более общий метод
Y — с. в. с плотностью вероятности p(y, θ), где θ — вектор параметров.
N копий непрерывной случайной величины Y : Y1, Y2, . . . , YN
(N независимых одинаково распределенных с.в.)
N реализаций этих величин: y1, y2, . . . , yN
Плотность вероятности с.в. (Y1 , Y2, . . . , YN ):

             L(θ) = p(y1, y2, . . . , yN , θ) = p(y1, θ) · p(y2, θ) · . . . · p(yN , θ)

L(θ) — функция правдоподобия
Логарифмическая функция правдоподобия:
                                                    N
                                 (θ) = ln L(θ) = ∑ ln p(yi, θ).
                                                    i=1

(Если Y — дискретная случайная величина, то вместо p(yi, θ) нужно рассмотреть
вероятность Pr {Y = yi})
Принцип максимального правдоподобия предполагает, что наиболее разумные
значения неизвестных параметров θ доставляют максимум функции L(θ) (и (θ)).
Рассмотрим модель
                                  y = f ∗(x, β) + ε,
где

      ε имеет нормальное распределение N (0, σ 2)
 ⇔ условная вероятность p(y |x) имеет нормальное распределение:
                                                                     2
                                                    1 y − f (y, β)
                                                   − ·
                                           1        2      σ2
                         p(y | x, β) = √         ·e
                                           2πσ
Тогда
                N
                                    N                 1 N
          (β) = ∑ ln p(yi |x, β) = − ln 2π − N ln σ − 2 ∑ yi − f (xi, β)
                                                                           2

                i=1                 2                2σ i=1

В ней только последний член содержит вектор параметров β
С точностью до множителя этот член равен RSS(β)
Итак, при сделанных предположениях метод наименьших квадратов эквивалентен
принципу максимального правдоподобия
2.1. Линейная регрессия

Линейная регрессионная модель:
                                                  p
                                f (x) = β0 + ∑ xj βj
                                               j=1

Случайные величины Xj могут представлять собой:

   • независимые переменные;
   • функции от независимых переменных (степенные, логарифмические и др.);
   • закодированные качественные переменные;
   • функции от нескольких независимых переменных, например, X3 = X1 · X2.

В методе наименьших квадратов в качестве β = (β0, β1, . . . , βp) выбираются
параметры, доставляющие минимум остаточной сумме квадратов
                                                                     2
                         N                    N             p
               RSS(β) = ∑ yi − f (xi)       = ∑ yi − β0 − ∑ xij βj
                                        2
                                                                         .
                        i=1                  i=1           j=1
С точки зрения теории математической статистики этот метод разумен, если
элементы обучающей выборки выбираются случайно и независимо из
генеральной совокупности.
Метод остается в силе, даже если xi выбираются не случайным образом, но yi
условно независимы при заданных xi.
y




         y = β0 + β1 x1 + β2 x2




                 x2
    x1
1.0
    0.5
y

    0.0




          0.0   0.2   0.4       0.6   0.8   1.0

                            x
1.0
    0.5
y

    0.0




          0.0   0.2   0.4       0.6   0.8   1.0

                            x
1.0
    0.8
    0.6
y

    0.4
    0.2
    0.0




          −0.2   0.0   0.2   0.4       0.6   0.8   1.0   1.2

                                   x
data
                y~x




    1.0
                x~y
                prin. comp.


    0.5
y

    0.0




          0.0      0.2        0.4       0.6   0.8   1.0

                                    x
Как найти минимум функции RSS(β)?
Пусть                                                           
                      1 x11 x12 . . . x1p                     y1
                                                                
                    1 x x ... x                            y2   
                        21   22         2p                      
                X=                          ,       y=      .   
                    ..................                      .   
                                                                
                      1 xN 1 xN 2 . . . xN p                  yN

Тогда
                                        2
                    RSS(β) = y − Xβ         = (y − Xβ) (y − Xβ).
Можно рассмотреть систему уравнений (относительно β)
                                      Xβ = y

β называется псевдорешением этой системы (оно минимизирует норму невязки).
RSS(β) — квадратичная функция от p + 1 неизвестных (параметров) β0, β1, . . . , βp.
Дифференцируя, находим:
                  ∂ RSS                           ∂ 2RSS
                        = −2X (y − Xβ),                  = 2X X.
                    ∂β                            ∂β ∂β
Обозначим x0, x1, . . . , xp столбцы матрицы X.
Если x0, x1, . . . , xp линейно независимы, то матрица X X невырождена и
положительно определена, поэтому минимум функции RSS(β) достигается, когда
первая производная по β обращается в ноль:
                  X (y − Xβ) = 0      ⇔       X Xβ = X y.

Это нормальная система уравнений
Единственным решением является вектор
                              β = (X X)−1X y

Итак, псевдорешением системы Xβ = y является решение системы X Xβ = X y.
Матрица X+ = (X X)−1 X называется псевдообратной (Мура–Пенроуза) к X.
Входным значениям x1, x2, . . . , xN будет соответствовать вектор выходных
переменных
                  y = (y1 , y2, . . . , yp) = Xβ = X(X X)−1X y.
Пусть H = X(X X)−1X , тогда получаем y = Hy
y есть ортогональная проекция вектора y на подпространство, натянутое на
векторы x0, x1, . . . , xp
H называется матрицей проектирования
y




    x2



y
         x1
Если столбцы матрицы X линейно зависимы, то β, на котором достигается
минимум функции RSS(β), не единственен, однако, по-прежнему, y является
ортогональной проекцией вектора y на линейную оболочку векторов x0, x1, . . . , xp .
2.1.1. Проверка значимости и доверительные интервалы для коэффициен-
       тов (регрессионный анализ)

                                p
                     Yi = β0 + ∑ βj xij + Ei           (i = 1, 2, . . . , N ),
                               j=1

где βj — некоторые коэффициенты (j = 0, 1, . . . , p).
Пусть xij заданы (не случайны), а Ei — случайные величины, для которых
             E Ei = 0,       Var Ei = σ 2,           Cov(Ei, Ej ) = 0        (i = j).

Тогда Yi — случайные переменные, причем
                                                 p
                                    E Yi = β0 + ∑ βj xij ,                              (1)
                                                j=1


                      Var Yi = σ 2,        Cov(Yi, Yj ) = 0       (i = j).
Запишем (1) в виде
                                         E y = Xβ.
Рассмотрим некоторые полезные свойства коэффициентов β, полученных методом
наименьших квадратов.
Так как β = (X X)−1X y, то

                  E β = (X X)−1 X E y = (X X)−1X Xβ = β,


                Cov β = (X X)−1X σ 2X(X X)−1 = (X X)−1 σ 2.
Свойство E β = β означает, что β является несмещенной оценкой β.
Разности                                      p
                           ei = yi − yi = yi − ∑ βj xij
                                                j=1
называются остатками.
Нетрудно доказать, что
                                    N
                                    ∑ ei = 0.                          (2)
                                    i=1
Из (2) следует, что
                                             n
                                   y = β0 + ∑ βj xj ,
                                            j=1
где
                                   N                    N
                               1                    1
                            y=
                               N   ∑ yi,         x=
                                                    N   ∑ xi .
                                   i=1                  i=1

Также легко получить, что
                                       N     N
                                     ∑ yi = ∑ yi.
                                     i=1     i=1
Несмещенной оценкой дисперсии σ 2 является остаточная дисперсия
                                        N
                                1
                           2
                         σ =           ∑(yi − yi)2.
                             N − p − 1 i=1

Для доказательства несмещенности оценки достаточно заметить, что RSS равна
y (I − H)y, откуда E RSS = σ 2(N − p − 1).
Величина N − p − 1 называется количеством степеней свободы.
Значение σ называют остаточной стандартной ошибкой.
Наряду с RSS рассмотрим связанные с ней величины:
полную сумму квадратов (точнее: полную сумму скорректированных на среднее
квадратов)
                                     N
                               TSS = ∑(yi − y)2
                                     i=1

и сумму квадратов, обусловленную регрессией (точнее: сумму скорректированных
на среднее квадратов, обусловленную регрессией)
                                     n
                              SSR = ∑(yi − y)2.
                                     i=1

Можно показать, что
                              TSS = RSS + SSR .

Упражнение 2.1 Доказать, что TSS = RSS + SSR. Это можно доказать
непосредственное, а можно воспользоваться тем, что y − y ортогонально y − y,
где y — вектор, составленный из y.
Коэффициент детерминации. Коэффициент детерминации, или коэффициент
регрессии Пирсона
                         2  SSR     RSS
                        r =     =1−     .
                            TSS     TSS
RSS — мера разброса Yi вокруг f (xi),
TSS — мера разброса всех yi вокруг их общего среднего y, то
r2 характеризует долю общего разброса относительно среднего, объясняемую
регрессией.
0 ≤ r2 ≤ 1.
Если r2 близок к 1, то RSS намного больше TSS.
Иногда коэффициент r2 дает слишком оптимистические результаты. В этом случае
используется подправленные коэффициент

                             2     2   1 − r2
                            ra   =r −         .
                                      N −p−1

Рассмотрение коэффициента детерминации имеет смысл только при условии, что
в модель включен сободный член β0.
Сделаем еще некоторые предположения.
Пусть ошибки Ei распределены по нормальному закону:

                      Ei ∼ N (0, σ)      (i = 1, 2, . . . , N ).

В этом случае из некоррелированности случайных величин Ei следует их
независисмость.
Теперь нетрудно показать, что

            β ∼ N β, (X X)−1 σ 2      и (N − p − 1) σ 2 ∼ σ 2χ2 −p−1.
                                                              N

Эти свойства можно использовать при построении статистических тестов и
доверительных интервалов для βj .
Проверка значимости одного коэффициента. Гипотеза βj = 0 (j
фиксировано):
использование переменной Xj не улучшает предсказание по сравнению с
предсказанием, полученным на основе только остальных p − 1 переменных.
Для проверки этой гипотезы (против гипотезы βj = 0) рассмотрим стандартный
коэффициент
                                        βj
                                  tj =       ,                           (3)
                                       se βj
где
                                          √
                                 se βj = σ vj
— стандартная ошибка коэффициента βj , а vj — j-й диагональный элемент
матрицы (X X)−1.
В предположении, что βj = 0, коэффициент tj имеет t-распределение Стьюдента
tN −p−1.
Если |tj | велико, то гипотезу βj = 0 следует отбросить.
Если гипотеза βj = 0 отбрасывается, то говорят, что коэффициент βj
статистически значим.
Можно проверить гипотезу βj = βj (относительно односторонней или
двусторонней альтернативы), где βj — некоторое заданное значение.
Статистика критерия имеет в этом случае вид

                                      βj − βj
                                 tj =         .
                                       se βj

Коэффициент tj имеет распределение tN −p−1.
Проверка гипотезы зависит от вида альтернативной гипотезы и происходит
обычным образом.
Проверка значимости группы коэффициентов. Гипотеза о равенстве нулю
группы коэффициентов (против гипотезы, что по крайней мере один из
коэффициентов не равен нулю): переменные этой группы не улучшают
предсказание по отношению к предсказанию, полученному без этих переменных.
Будем использовать статистику
                               (RSS2 − RSS1)/(p1 − p2)
                         F =                           ,
                                 RSS1 /(N − p1 − 1)
где RSS1 — остаточная сумма квадратов «б´ льшей» модели с p1 + 1 параметрами, а
                                          о
RSS2 — остаточная сумма квадратов «вложенной» модели c p2 + 1 параметрами,
(«вложенная» модель получается из «б´ льшей» модели, обнулением p1 − p2
                                      о
параметров).
В предположении, что ε в (??) имеет нормальное распределение, статистика F
имеет F (p1 − p2, N − p1 − 1) распределение Фишера.
Если отбрасывается один коэффициент, то F совпадает с zj из (3).
Проверка значимости модели. Проверка значимости всех коэффициентов
β1, . . . , βp (кроме β0) означает сравнение исходной модели, включающей p + 1
коэффициентов, с моделью y = β0 .
Очевидно, что решением задачи наименьших квадратов для второй модели будет
                                             N
                                         1
                                β0 = y =
                                         N   ∑ yi.
                                             i=1

В частности, остаточная сумма квадратов (называемая в даном случае полной
суммой квадратов относительно среднего) равна
                                                          2
                                   N               N
                                              1
                           TSS = ∑       yi −      ∑ yi
                                   i=1        N    i=1


и соответствующая F -статистика есть
                                    (TSS − RSS)/p
                             F =                    ,
                                   RSS /(N − p − 1)

где RSS = RSS(β) — остаточная сумма квадратов для исходной модели.
Эта статистика должна иметь распределение Fp, N −p−1.
Легко показать, что
                              TSS = RSS + SSR,
где
                                       n
                               SSR = ∑(yi − y)2
                                      i=1
— так называемая сумма квадратов, обусловленная регрессией.
Если гипотеза о том, что все коэффициенты (кроме, быть может, β0) равны нулю,
отбрасывается, то говорят, что модель статистически значима.
Значимость модели не означает, что она адекватна.
Доверительные интервалы. Для βj доверительным интервалом является
                                     √                  √
                        βj − z (1−α)σ vj , βj + z (1−α)σ vj ,

где z (1−α) есть (1 − α)-процентиль для нормального распределения:

                             z (1−0.1) = 1.645,
                             z (1−0.05) = 1.96,
                             z (1−0.01) = 2.58,   и т. д.
                                                         √
(vj есть j-й диагональный элемент в (X X)−1 , а se βj = σ vj есть стандартная
ошибка для βj ).
Таким образом, интервал β ± 2 · se β соответствует мере доверия примерно в 95%.
Пример. Рассмотрим задачу определения длины тормозного пути автомобиля от
начальной скорости. На рис. представлена диаграмма рассеяния для данных1,
содержащих информацию о 50 эксприментах, в каждом из которых наблюдалась
начальная скорость автомобиля (speed) и длина его тормозного пути (dist). В
качестве модели рассмотрим




                                              dist = β0 + β1 × speed.




  1
      Ezekiel M. Methods of Correlation Analysis. Wiley. 1930
120
                          100
                          80
                   dist

                          60
                          40
                          20
                          0




                                5   10     15    20    25

                                         speed



Зависимость длины тормозного пути от начальной скорости в 50 экспериментах.
Найдены значения β0 = 42.980, β1 = 145.552.
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Machine Learning. Курс лекций

More Related Content

What's hot

Метод проекции градиента для решения стационарной системы Стокса как задачи ...
Метод проекции градиента для решения стационарной системы Стокса  как задачи ...Метод проекции градиента для решения стационарной системы Стокса  как задачи ...
Метод проекции градиента для решения стационарной системы Стокса как задачи ...
iST1
 
20100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture0320100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture03
Computer Science Club
 
показательная функция. решение показательных уравнений
показательная функция. решение показательных уравненийпоказательная функция. решение показательных уравнений
показательная функция. решение показательных уравнений
ermolaeva_mv
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)
Pavel Egorov
 
уравнения четвертой степени
уравнения четвертой степениуравнения четвертой степени
уравнения четвертой степени
rasparin
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторов
Anton Konushin
 
20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06
Computer Science Club
 
CV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionCV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time vision
Anton Konushin
 

What's hot (19)

К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
 
Структурное обучение и S-SVM
Структурное обучение и S-SVMСтруктурное обучение и S-SVM
Структурное обучение и S-SVM
 
Метод проекции градиента для решения стационарной системы Стокса как задачи ...
Метод проекции градиента для решения стационарной системы Стокса  как задачи ...Метод проекции градиента для решения стационарной системы Стокса  как задачи ...
Метод проекции градиента для решения стационарной системы Стокса как задачи ...
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"
 
20100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture0320100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture03
 
показательная функция. решение показательных уравнений
показательная функция. решение показательных уравненийпоказательная функция. решение показательных уравнений
показательная функция. решение показательных уравнений
 
Конспект урока математики «Тригонометрические функции и их свойства»
Конспект урока математики  «Тригонометрические функции и их свойства»Конспект урока математики  «Тригонометрические функции и их свойства»
Конспект урока математики «Тригонометрические функции и их свойства»
 
К.В. Воронцов "Методы частичного обучения"
К.В. Воронцов "Методы частичного обучения"К.В. Воронцов "Методы частичного обучения"
К.В. Воронцов "Методы частичного обучения"
 
Soboland Sat
Soboland SatSoboland Sat
Soboland Sat
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)
 
уравнения четвертой степени
уравнения четвертой степениуравнения четвертой степени
уравнения четвертой степени
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторов
 
20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
CV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionCV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time vision
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 

Similar to Machine Learning. Курс лекций

CV2011 Lecture 7. Recognition
CV2011 Lecture 7. RecognitionCV2011 Lecture 7. Recognition
CV2011 Lecture 7. Recognition
Anton Konushin
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2
Sergey Khlebnikov
 
Prezentaciya2
Prezentaciya2Prezentaciya2
Prezentaciya2
CDO3
 
Prezentaciya2
Prezentaciya2Prezentaciya2
Prezentaciya2
CDO3
 

Similar to Machine Learning. Курс лекций (20)

CV2011 Lecture 7. Recognition
CV2011 Lecture 7. RecognitionCV2011 Lecture 7. Recognition
CV2011 Lecture 7. Recognition
 
Основы комбинаторики - I
Основы комбинаторики - IОсновы комбинаторики - I
Основы комбинаторики - I
 
002умнов
002умнов002умнов
002умнов
 
002умнов
002умнов002умнов
002умнов
 
Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2
 
презентация к уроку 1
презентация к уроку 1презентация к уроку 1
презентация к уроку 1
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
556 1 алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
556 1  алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с556 1  алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
556 1 алгебра. 10кл.-кузнецова, муравьева и др_минск, 2013 -271с
 
554 1 алгебра. 9кл.-кузнецова, муравьева и др_минск, 2014 -287с
554 1  алгебра. 9кл.-кузнецова, муравьева и др_минск, 2014 -287с554 1  алгебра. 9кл.-кузнецова, муравьева и др_минск, 2014 -287с
554 1 алгебра. 9кл.-кузнецова, муравьева и др_минск, 2014 -287с
 
Kuznecova 9klass
Kuznecova 9klassKuznecova 9klass
Kuznecova 9klass
 
117
117117
117
 
Prezentaciya2
Prezentaciya2Prezentaciya2
Prezentaciya2
 
Prezentaciya2
Prezentaciya2Prezentaciya2
Prezentaciya2
 
Matematika 10-klass-merzljak-2018-ros
Matematika 10-klass-merzljak-2018-rosMatematika 10-klass-merzljak-2018-ros
Matematika 10-klass-merzljak-2018-ros
 
M
MM
M
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014
 
лин уравнения с параметрами
лин уравнения с параметрамилин уравнения с параметрами
лин уравнения с параметрами
 

Machine Learning. Курс лекций

  • 1. МАШИННОЕ ОБУЧЕНИЕ (Machine Learning) Н.Ю. Золотых 2009, сентябрь–декабрь
  • 2.
  • 3. Глава 1 Постановки и примеры задач
  • 4. Agenda • Что такое машинное обучение? • Постановки задач – Обучение по прецедентам – Обучение без учителя • Примеры практических задач • О курсе
  • 5. 1.1. Что такое машинное обучение? Machine learning — «самообучение машин». Будем говорить, что компьютерная программа, предназаначенная для решения какой-либо задачи, обучается, если со временем качество решения улучшается. • Например, программа распознавания рукописных символов, после предъявления ей серии таких символов с правильными ответами, начинает распознавать точнее. • Программа игры в шахматы после серии проведенных игр начинает играть лучше. • Распознавание спама после обучения на примерах происходит точнее.
  • 6. 1.2. Способы (типы) обучения У людей обучение происходит в результате ознакомления с правилами, теориями, инструкциями и т. п. и/или на основе опыта (собственного или чужого). По аналогичному принципу можно выделить различные способы (типы) обучения и в искусственных системах: • Дедуктивное, или аналитическое, обучение. Имеются знания, сформулированные экспертом и как-то формализованные. Программа выводит из этих правил конкретные факты и новые правила. • Индуктивное обучение. На основе эмпирических данных программа строит общее правило. Эмпирические данные могут быть получены самой программой в предыдущие сеансы ее работы или просто предъявлены ей. • Комбинированное обучение, содержащее элементы как дедуктивного, так и аналитического обучения. В курсе рассматривается только индуктивное обучение.
  • 7. 1.3. Классификация задач индуктивного обучения • Обучение с учителем, или обучение по прецедентам (supervised learning). • Обучение без учителя (unsupervised learning). • Активное обучение (active learning). • Обучение с подкреплением (reinforcment learning). • ... В курсе рассматривается обучение с учителем и обучение без учителя.
  • 8. 1.4. Обучение по прецедентам Множество X — объекты (samples) Множество Y — ответы (responds) Неизвестная функция f ∗ : X → Y Значения f ∗ известны только на конечном множестве объектов x1, x2, . . . , xN : f ∗(xi) = yi (i = 1, 2, . . . , N ). Пара (xi, yi) ∈ X × Y — прецедент. Вся имеющаяся совокупность прецедентов {(x1, y1), (x2 , y2), . . . , (xN , yN )} — обучающая выборка, или обучающая последовательность. Задача обучения по прецедентам: по имеющейся обучающей выборке восстановить f ∗
  • 9. Что значит «восстановить» f ∗? → найти f : X → Y , удовлетворяющую свойствам: • f эффективно вычислима, т. е. должен быть указан эффективный алгоритм ее вычисления • f (xi) = f ∗(xi) или f (xi) ≈ f ∗(xi) (i = 1, 2, . . . , N ). • f должна обладать обобщающей способностью: ее значения должны совпадать (точно или приближенно) со значениями f ∗ на объектах, не вошедших в обучающую выборку. • f (и алгоритм ее вычисляющий) может удовлетворять дополнительным требованиям, например, монотонности, дифференцируемости, гладкости и т. п. В конкретных постановках задачи эти требования формулируются конкретнее. Функцию f называют также алгоритмом или моделью. Процесс нахождения f называют построением алгоритма, подгонкой (fitting) модели и др.
  • 10. Признаковые описания Алгоритм, вычисляющий f , работает не с самими объектами из X , а с их признаковыми описаниями. Признак, или атрибут, объекта — некоторое отображение χ : X → Dχ. Типы признаков • Если Dχ конечно, то χ — номинальный признак, или фактор. Можно считать, например, что, Dχ = {1, 2, . . . , s}. Если |Dχ| = 2 и можно считать, например, что, Dχ = {0, 1}, то признак бинарный. • Если Dχ конечно и упорядочено, то χ — порядковый признак Например, Dχ = {холодно, прохладно, тепло, жарко} • Если Dχ ∈ R, то χ — количественный признак • ...
  • 11. Если (χ1, χ2, . . . , χp) — набор признаков, то вектор χ1(x), χ2(x), . . . , χp(x) есть признаковое описание объекта x. Признаковые описания объектов из обучающей выборки известны. Мы будем отождествлять объект x с его признаковым описанием: x = (x1, x2, . . . , xp) = χ1(x), χ2(x), . . . , χp(x) Таким образом, X = Dχ1 × Dχ2 × . . . × Dχp . Аналогично для выходов y ∈ Y . Объекты из Y отождествляются с их признаковыми описаниями: y = (y1, y2, . . . , yq ) = η1(y), η2 (y), . . . , ηq (y) Далее всюду предполагается, что q = 1, т. е. y — скаляр. x называется входом, y — выходом Компоненты xj вектора x так же называют входами или предикатными (объясняющими) переменными.
  • 12. Типы задач обучения В зависимости от множества Y выделяют разные типы задачи обучения. • Y конечно, например, Y = {1, 2, . . . , K}, — задача классификации (или задача распознавания образов): X разбивается на K классов Xk = {x ∈ X : f (x) = k} (k = 1, 2, . . . , K). По x требуется предсказать, какому классу он принадлежит. • Y = R — задача восстановления регрессии. Требуется найти функцию f из определенного класса, которая аппроксимирует f ∗. • ...
  • 13. 1.5. Обучение без учителя Обучение по прецедентам — это обучение с учителем Такое обучение можно рассматривать как игру двух лиц: ученика, который должен восстановить функцию f , и учителя, который для объектов из обучающей выборки указывает ученику соответствующий им выход. Иногда можно считать, что объекты из обучающей выборки предъявляются средой, а иногда — их выбирает сам учитель, в некоторых случаях их выбирает ученик. Рассматривается также обучение без учителя. В этом случае нет учителя и нет обучающей выборки. Ученик, имея только список объектов x1, x2, . . . , xN , должен определить значения неизвестной функции f (x) для каждого из этих объектов. Это достигается за счет анализа описаний объектов. Так, например, можно предположить, что для «близких» объектов (т.е. для объектов с «близкими» описаниями) выходы также будут близки или даже совпадать.
  • 14. В задачах обучения без учителя заранее специфицированы какие-то свойства функции f . Например, может быть известно, что функция f принимает конечное число различных значений. Получаем задачу кластерного анализа: требуется разбить объекты на группы (кластеры), так, чтобы в одном кластере оказались близкие друг к другу объекты, а в разных кластерах объекты были существенно различные.
  • 15. 1.6. Примеры практических задач Распознавание рукописных символов (цифр) Изображения цифр от 0 до 9 закодированы известным образом. Требуется определить, какая цифра нарисована. Например, код (признаковое описание) — битовая матрица размера 32 × 32. 1 — пиксел черный, 0 — пиксел белый. Изображение перед кодированием масштабируется, чтобы все изображения имели примерно одинаковый размер. Элементы матрицы запишем по строкам получим вектор x длины 322 = 1024 — признаковое описание объекта. X = {0, 1}1024. Множество всех возможных кодов разбивается на 10 классов: Y = {0, 1, 2, . . . , 9} Получили задачу классификации: по x ∈ X требуется определить класс k ∈ Y .
  • 16. Входы x1, x2, . . . , xp — бинарные признаки. Обучение проходит на реальных прецедентах (xi, ki) (i = 1, 2, . . . , N ). Обучающая выборка в примере ÓÔØ Ø ØØÔ »»ÛÛÛº ׺٠º Ù» ÑÐ ÖÒ»ÅÄÊ ÔÓ× ØÓÖݺ ØÑÐ содержит 1934 прецедента.
  • 17. Некоторые объекты из обучающей выборки
  • 18. Проблема построения признакового описания. В задаче распознавания символов можно использовать признаковое описание на основе анализа контура изображения. В примере Ð ØØ Ö¹Ö Ó Ò Ø ÓÒ ØØÔ »»ÛÛÛº ׺٠º Ù» ÑÐ ÖÒ»ÅÄÊ ÔÓ× ØÓÖݺ ØÑÐ распознавания печатных заглавных букв (26 классов) для кодирования изображений используется другой подход.
  • 19. Входами являются (входы отмасштабированы и округлены, так, чтобы они принимали целые значения в диапазоне от 0 до 15; база содержит 20000 прецедентов): 1. ܹ ÓÜ — координата x левого нижнего угла обрамляющего прямоугольника, 2. ݹ ÓÜ — координата y левого нижнего угла обрамляющего прямоугольника, 3. Û Ø — ширина прямоугольника, 4. — высота прямоугольника, 5. ÓÒÔ Ü — общее число подсвеченных пикселей 6. ܹ Ö — среднее значение координаты x для подсвеченных пикселей 7. ݹ Ö — среднее значение координаты y для подсвеченных пикселей 8. ܾ Ö — стандартное отклонение для координаты x подсвеченных пикселей 9. ݾ Ö — стандартное отклонение для координаты y подсвеченных пикселей 10. ÜÝ Ö — коэффициент корреляции x и y подсвеченных пикселей 11. Ü¾Ý Ö — среднее значение x2y 12. Üݾ Ö — среднее значение xy 2 13. ܹ — среднее значение числа отрезков при просмотре слева направо 14. Ü ÚÝ — коэффициент корреляции между средним значением числа отрезков при просмотре слева направо и y 15. ݹ — среднее значение числа отрезков при просмотре снизу вверх 16. Ý ÚÜ — коэффициент корреляции между средним значением числа отрезков при просмотре снизу вверх и x
  • 20. Медицинская диагностика По набору определенных характеристик пациента (симптомов), таких как температура тела, артериальное давление, содержание гемоглобина в крови и т. п., требуется определить, какое у больного заболевание (и болен ли он вообще). Объектами являются пациенты, их признаковым описанием — набор характеристик, а выходом — номер класса. Обучение проходит на достаточном объеме прецедентов. Таким образом, получаем задачу классификации. Могут встречаться признаки разных типов: • бинарные (пол, наличие головной боли), • номинальные (боль может быть тупой, режущей, колющей и т. п.), • порядковые (состояние больного может быть удовлетворительным, средней тяжести, тяжелым, крайне тяжелым), • количественные (температура тела, пульс, давление).
  • 21. Пусть, например, имеется информация о 768 пациентках (см. фрейм данных Ô Ñ из R библиотки Ö Û Ý Julian J. Faraway). История болезни каждой пациентки содержит данные о 8 различных характеристиках, а также информацию о том, больна ли пациетка сахарным диабетом или нет. Все признаки количественные. Имея эту информацию, требуется по набору таких характеристик научиться определять, больна ли пациентка (не из обучающей выборки) или нет. Имеем 768 точек в 8-мерном пространстве.
  • 22. О расположении точек можно судить по 8 бокс-диаграммам Diabetes Triceps Pregnant 0.0 1.0 2.0 0 40 80 0 5 10 15 0 0 0 1 1 1 Age Insulin Glucose 20 40 60 80 0 400 800 0 50 150 0 0 0 1 1 1 BMI Diastolic 0 20 40 60 0 40 80 120 0 0 1 1
  • 23. Проекции точек на двумерную координатную плоскость переменных Ñ (масса/рост2), ÐÙ Ó× (содержание глюкозы).
  • 24. glucose 50 100 150 200 20 30 40 bmi 50 60
  • 25. В задачах медицинской диагностики может ставиться другая цель: определить оптимальный курс лечения (это может быть как задача классификации, так и задача восстановления регрессии), спрогнозировать время протекания болезни (задача восстановления регрессии) и т. п.
  • 26. Прогнозирование цены Предположим, что имеются данные о жилых загородных домах в некоторой местности. Для каждого дома известна его цена, состояние, жилая площадь, количество этажей, количество комнат, время постройки, удаленность до основных магистралей, наличие инфраструктуры, экологическая обстановка в районе и т. п. Требуется научиться предсказывать цену по остальной информации. Объектами являются дома, входами — их характеристики, а выходом — цена дома. Получаем задачу восстановления регрессии.
  • 27. Boston Housing Data из коллекции StatLib (Carnegie Mellon University) Информация агрегирована: територия поделена на участки и дома, стоящие на одном участке, собраны в группы. Таким образом, объектами являются сами эти группы. Их общее количество — 506.
  • 28. Признаки 1. ÊÁÅ — уровень преступности на душу населения, 2. Æ — процент земли, застроенной жилыми домами (только для участков площадью свыше 25000 кв. футов), 3. ÁÆ ÍË — процент деловой застройки, 4. À Ë — 1, если участок граничит с рекой; 0 в противном случае (бинарный признак), 5. ÆÇ — концентрация оксида азота, деленная на 107, 6. ÊÅ — среднее число комнат (по всем домам рассматриваемого участка), 7. — процент домов, построенных до 1940 г. и занимаемых владельцами, 8. ÁË — взвешенное расстояние до 5 деловых центров Бостона, 9. Ê — индекс удаленности до радиальных магистралей, 10. Ì — величина налога в $10000, 11. ÈÌÊ ÌÁÇ — количество учащихся, приходящихся на одного учителя (по городу), 12. = 1000( − 0.63)2, где — доля афро-американцев, 13. ÄËÌ Ì — процент жителей с низким социальным статусом.
  • 29. Признак À Ë — бинарный, остальные — количественные. Выходом является переменная Å Î, равная медианному значению цены строения (по всем домам участка) в $1000. Ее нужно научиться предсказывать.
  • 30. Диаграммы рассеяния для каждой пары переменных Å Î, ÁÆ ÍË, ÆÇ , ÊÅ, , ÈÌÊ ÌÁÇ, . Значение переменной Å Î нужно научиться предсказывать по значениям остальных переменных. Изображены только по 100 слечайных точек. 0 15 4 6 8 14 20 5 20 40 MEDV 10 15 INDUS 0 0.7 NOX 0.4 8 6 RM 4 80 AGE 20 20 PTRATIO 14 0 200 B 20 LSTAT 5 10 40 0.4 0.7 20 80 0 200
  • 31. Анализ данных, полученных с биочипов Биочип, или микроэррэй, (biochip, microarray) — это миниатюрный прибор, измеряющий уровень экспрессии генов в имеющемся материале. Экспрессия — это процесс перезаписи информации с гена на РНК, а затем на белок. Количество и даже свойства получаемого белка зависят не только от гена, но также и от различных внешних факторов (например, от введенного лекарства). Таким образом, уровень экспрессии — это мера количества генерируемого белка. На биочип кроме исследуемого материала помещается также «контрольный» генетический материал. Положительные значения (красный цвет) — увеличение уровня экспрессии по сравнению с контрольным. Отрицательные значения (зеленый цвет) — уменьшение.
  • 32. Условное изображение биочипа. Каждая точка на рисунке соответствует определенному гену. Всего анализируется 132 × 72 = 9504 гена. Brown, V.M., Ossadtchi, A., Khan, A.H., Yee, S., Lacan, G., Melega, W.P., Cherry, S.R., Leahy, R.M., and Smith, D.J.; Multiplex three dimensional brain gene expression mapping in a mouse model of Parkinson’s disease; Genome Research 12(6): 868-884 (2002).
  • 33.
  • 34. Пусть было проведено несколько экспериментов, в которых на биочип вместе с контрольным материалом размещались разные другие генетические материалы, например, полученные после введения разных лекарств. Информацию, полученную в результате проведения такой серии экспериментов можно представить в виде числовой матрицы, в которой строки соответсвуют разным генам, а столбцы — разным экспериментам (разным клеткам). Поставим следующие задачи: (а) Найти гены, показавшие высокую экспрессию, в заданных экспериментах. (б) Разбить гены на группы в зависимости от влияния на них экспериментов. Гены, реагирующие «почти одинаковым» образом в «большом» числе эспериментов, должны попасть в одну группу. Гены, реагирующие по-разному, должны находиться в разных группах. (в) Разбить эксперименты на группы в зависимости от их влияния на гены. Эксперименты, в которых одинаковые гены реагировали «сходным» образом должны оказаться в одной группе. Эксперименты, в которых гены реагировали «различно», должны находиться в разных группах. Задачи (б) и (в) — это задачи кластерного анализа.
  • 35. Данные для 60 экспериментов с биочипом. «Genomics Bioinformatics Group» ØØÔ »» × ÓÚ ÖºÒ ºÒ º ÓÚ» Ø × Ø×Æ ØÙÖ ¾¼¼¼º ×Ô Строки соответсвуют генам, столбцы — экспериментам. Приведены только первые 100 строк (из общего числа 1375). Строки, содержащие отсутствующие значения, исключены.
  • 36. ME.LOXIMVI ME.MALME.3M ME.SK.MEL.2 ME.SK.MEL.5 ME.SK.MEL.28 LC.NCI.H23 ME.M14 ME.UACC.62 LC.NCI.H522 LC.A549.ATCC LC.EKVX LC.NCI.H322M LC.NCI.H460 LC.HOP.62 LC.HOP.92 CNS.SNB.19 CNS.SNB.75 CNS.U251 CNS.SF.268 CNS.SF.295 CNS.SF.539 CO.HT29 CO.HCC.2998 CO.HCT.116 CO.SW.620 CO.HCT.15 CO.KM12 OV.OVCAR.3 OV.OVCAR.4 OV.OVCAR.8 OV.IGROV1 OV.SK.OV.3 LE.CCRF.CEM LE.K.562 LE.MOLT.4 LE.SR RE.UO.31 RE.SN12C RE.A498 RE.CAKI.1 RE.RXF.393 RE.786.0 RE.ACHN RE.TK.10 ME.UACC.257 LC.NCI.H226 CO.COLO205 OV.OVCAR.5 LE.HL.60 LE.RPMI.8226 BR.MCF7 UN.ADR.RES PR.PC.3 PR.DU.145 BR.MDA.MB.231.ATCC BR.HS578T BR.MDA.MB.435 BR.MDA.N BR.BT.549 BR.T.47D 248589 248257 245939 245868 245450 244736 242678 241935 241037 240566 239001 233795 232896 222341 221263 220376 211995 211515 211086 209731 208950 203527 200696 197549 189963 175269 166966 162077 159512 158337 158260 152241 146311 145965 145292 144758 143985 136798 135118 130532 130531 130482 130476 128329 126471 125308 124918 122347 116819 114116 112383 108840 108837 86102 79617 79319 76539 74275 74070 73185 72214 72199 68068 67939 61539 52519 52218 52128 51904 51104 50914 50250 50243 49729 46818 46694 46173 45720 44449 43555 41232 38915 37627 37330 37153 37060 37054 36380 35271 31905 31861 29194 26811 26677 26599 25831 25718 23933 22264 21822
  • 37. Лингвистика Список Сводеша (Swadesh) — список из 207 слов языка, заимствовование которых из других языков (на поздних этапах) мало вероятно (местоимения, числительные 1–5, глаголы, обозначающие простые действия и т. п.)
  • 38. Русский Английский Немецкий Итальянский Французский Чешский 1 я I ich io je j´ a 2 ты you du tu tu ty 3 он he er lui il on 4 мы we wir noi nous my 5 вы you ihr voi vous vy 6 они they sie loro ils oni 7 этот this dieses questo ceci tento 8 тот that jenes quello cela tamten 9 здесь here hier qui ici zde 10 там there dort l´ a l´ a tam 11 кто who wer chi qui kdo 12 что what was che quoi co 13 где where wo dove o` u kde 14 когда when wann quando quand kdy 15 как how wie come comment jak 16 не not nicht non ne. . . pas ne ................................................................................. 205 если if wenn se si jestlize 206 потому что because weil perch´ e parce que protoze 207 имя name Name nome nom jm´ no e
  • 39. На основе анализа списков Сводеша для разных языков можно установить степень их родства и выделить группы родственных языков — это задача кластерного анализа. Более того, на основе анализа списка Сводеша для двух родственных языков можно приблизительно установить время их появляения из единого пра-языка.
  • 40. Матрица сходства между некоторыми языками, построенная на основе списков Сводеша.
  • 41. English German Dutch Swedish Danish Italian French Spanish Portuguese Latin Esperanto Slovene Czech Polish Slovio Lithuanian Latvian Hungarian Finnish Estonian Euskara Quenya Sindarin English German Dutch Swedish Danish Italian French Spanish Portuguese Latin Esperanto Slovene Czech Polish Slovio Lithuanian Latvian Hungarian Finnish Estonian Euskara Quenya Sindarin
  • 42. списков Сводеша. Дерево иерархической кластеризации для 23 языков, построенное на основе English German Dutch Swedish Danish Italian French Spanish Portuguese Latin Esperanto Slovene Slovio Czech Polish Lithuanian Latvian Hungarian Finnish Estonian Quenya Sindarin Euskara
  • 43. Программа курса • Различные алгоритмы и подходы к решению задач машинного обучения: – Линейная регрессия – Метод ближайших соседей – Метод опорных векторов – Нейронные сети – Деревья решений – Бустинг – Графические вероятностные модели – Обучение без учителя, кластеризация • Элементы теории (Вапника–Червоненкиса) о предсказательной способности алгоритмов обучения
  • 44. Лабораторные работы Лабораторные работы — в среде для статистических вычислений R ÛÛÛºÖ¹ÔÖÓ ØºÓÖ Предварительный список тем: • Знакомство с R • Проверка вероятностных гипотез • Регрессия • Метод опорных векторов • Метод деревьев решений • Алгоритмы кластеризации • Оценка и анализ ошибки предсказания. Бутстрэп, метод перекрестного контроля • Бустинг Будут конкурсные задания!
  • 45. Литература [1] Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Springer, 2001. [2] Ripley B.D. Pattern recognition and neural networks. Cambridge University Press, 1996. [3] Bishop C.M. Pattern recognition and machine learning. Springer, 2006. [4] Duda R. O., Hart P. E., Stork D. G. Pattern classification. New York: JohnWiley and Sons, 2001. [5] Mitchell T. Machine learning. McGraw Hill,1997. [6] Воронцов К.В. Математические методы обучения по прецедентам. Курс лекций. Москва, ВЦ РАН, 2005. ØØÔ »»ÛÛÛº ׺ÖÙ»ÚÓÖÓÒ»Ø Ò º ØÑÐ
  • 46. [7] Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. [8] Николенко С. Машинное обучение. Курс лекций. СПб.: ПОМИ РАН, 2006. ØØÔ »»ÐÓ ºÔ Ñ ºÖ ׺ÖÙ» × Ö Ý»
  • 47. [9] Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. [10] Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: исследование зависимостей. М.: Финансы и статистика, 1985. [11] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика, 1989. [12] Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1974. [13] Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. [14] Vapnik V.N. The nature of statistical learning theory. New York: Springer, 1995. [15] Vapnik V.N. Statistical learning theory. New York: John Wiley, 1998. wiki-портал: ØØÔ »»ÛÛÛºÑ Ò Ð ÖÒ Ò ºÖÙ
  • 48. Сайт курса: ØØÔ »»ÛÛÛºÙ ºÒÒÓÚºÖÙ» ÞÒÝ»ÑÐ (конспекты лекций, лабораторные работы, описание системы R, ссылки) Курс разработан при поддержке Intel. Кураторы от Интел: Виктор Ерухимов и Игорь Чикалов.
  • 49. ЛЕКЦИЯ 2 План • Вероятностная постановка задачи • Восстановление функции распределения • Принцип минимизации эмпирического риска • Регрессионная функция • Байесов классификатор • Метод стохастической минимизации
  • 50. 1.7. Вероятностная постановка задачи Будем рассматривать пары (x, y) как реализации (p + 1)-мерной случайной величины (X, Y ), заданной на вероятностном пространстве X × Y , F, Pr . X ∈ Rp, Y ∈ R. Интегральный закон распределения P (x, y) = P (x |y)P (y) не известен, однако известна выборка {(x1 , y1), (x2, y2), . . . , (xN , yN )} , где (xi, yi) являются реализациями случайной величины (X, Y ). Требуется найти функцию f : X → Y , которая по x предсказывает y.
  • 51. Пусть дана функция потерь (штраф) L(y |y) = L(f (x)| y). x — некоторый вход, y — соответствующий выход y = f (x) — предсказанное значение Квадратичная функция потерь (часто в задаче восстановления регрессии): L(y |y) = (y − y)2 . В задаче классификации часто используется функция 0, если f (x) = y, L(y |y) = 1, если f (x) = y. В общем случае в задаче классификации на K классов функция потерь полностью описывается K × K матрицей L = ( ky ), где ky = L(k |y). Пусть, например, в задаче медицинской диагностики Y = {0, 1}, где y = 0 — пациент здоров, y = 1 — пациент болен. L(1|1) = L(0|0) = 0 L(1|0) = 1 — болезнь определена у здорового пациента L(0|1) = 10 — болезнь не определена у больного пациента
  • 53. Мат. ожидание функции потерь R(f ) = E L f (x)| y = L f (x)| y dP (x, y) X×Y называется cредним риском, средней ошибкой или ожидаемой ошибкой предсказания. Разумный подход: в качестве f взять функцию из заданного класса F , минимизирующую средний риск R(f ). НО: закон P (x, y) не известен и поэтому мы не можем точно вычислить R(f ). Два подхода: 1) Восстановить P (x, y) по обучающей выборке, а затем минимизировать R(F ) 2) «Прямой подход»
  • 54. 1.8. Методы минимизации среднего риска 1.8.1. Восстановление функции распределения вероятности Будем минимизировать средний риск R(f ) = L f (x)| y dP (x, y) (∗) X×Y 1) по имеющейся выборке (x1, y1 ), . . . , (xN , yN ) решается задача восстановления функции распределения P (x, y). 2) восстановленная функция P (x, y) подставляется в (*) вместо P (x, y) и решается задача минимизации. В качестве P (x, y) можно взять выборочную функцию распределения. Согласно теореме Гливенко с ростом N эмпирическая функция распределения равномерно приближается к истинной.
  • 55. Замечание 1.1 Известно, что задача восстановления функции распределения является некорректно поставленной, поэтому гарантировать успех в описанном подходе можно, только если об этой функции известно достаточно много и выборка большая. Более того, задача восстановления функции распределения является центральной задачей в математической статистике и нецелесообразно сводить рассматриваемую частную задачу (минимизации среднего риска) к более общей.
  • 56. 1.8.2. Принцип минимизации эмпирического риска «Прямой» подход Элементы обучающей выборки {(x1, y1), . . . , (xN , yN )} распределены случайно и независимо, каждый согласно закону распределения P (X, Y ), поэтому 1 N R(f ) ≈ R(f ) = R(f, x1, y1, . . . , xN , yN ) = N ∑L f (xi)|yi , i=1 R(f ) — эмпирический риск. Так как xi, yi выбираются случайно, то R(f ) — случайная величина (статистика). Нетрудно видеть, что σ2 E R(f ) = E L f (X)|Y = R(f ), D R(f ) = , N где σ 2 — дисперсия случайной величины L(f (X)| Y ). Заметим, что σ 2 зависит от f . Насколько эмпирический риск может отклоняться от среднего риска?
  • 57. Утверждение 1.2 Для любого δ с вероятностью больше 1 − δ σ σ R(f ) − √ ≤ R(f ) ≤ R(f ) + √ . Nδ Nδ Д ОКАЗАТЕЛЬСТВО . Согласно неравенству Чебышева D R(f ) Pr |R(f ) − E R(f )| > ε ≤ 2 . ε Обозначим правую часть этого неравенства через δ. Учтем, что σ2 E R(f ) = E L f (X)|Y = R(f ), D R(f ) = . N Получаем требуемое. Следствие 1.3 Для любой f ∈ F lim Pr |R(f ) − R(f )| > ε = 0, N →∞ т. е. R(f ) сходится по вероятности к R(f ).
  • 58. С помощью схемы Бернулли можно получить более сильные оценки, но пока этого достаточно.
  • 59. Принцип (или метод) минимизации эмпирического риска: в заданном классе F необходимо найти функцию f , доставляющую минимум эмпирическому риску R(f ), и предложить f в качестве решающего правила f . Таким образом, задачу минимизации среднего риска R(f ) мы заменили задачей минимизации эмпирического риска R(f ). Важно, чтобы при этом функция, минимизирующая R(f ), доставляла среднему риску R(f ) значение, близкое к минимальному. Для этого не достаточно обычной сходимости по вероятности из следствия 1.3, а нужна равномерная сходимость: lim Pr sup |R(f ) − R(f )| > ε = 0. N →∞ f ∈F Теория Вапника–Червоненкиса дает для этого необходимые и достаточные условия
  • 60. Всегда ли метод миимизации эмпирического риска приводит к успеху? Не всегда. Рассмотрим задачу классификации. 1 Y = {0, 1}, p(Y = 0) = p(Y = 1) = 2 . Пусть решающее правило f на элементах обучающей выборки дает верное значение выхода, а для всех остальных — случайный ответ. 1 Имеем R(f ) = 0, R(f ) = 2 и понятно, что метод не обладает никакой обобщающей способностью (Вапник, Червоненкис). Как это согласуется с утверждением 1.2?
  • 61. Пусть F = {f : f (x, α), α ∈ [0, 1]} — класс решающих правил R(α) — средний риск, R(α) — эмпирический риск на функции f (x, α) R(α) R(α) ∗ R(α) R(α ) α α∗ α R(α) далеко от минимального значения R(α∗ ). lim Pr |R(f ) − R(f )| > ε = 0. N →∞
  • 62. Равномерная сходимость R(α) R(α) R(α) R(α∗ ) α α α∗ lim Pr sup |R(f ) − R(f )| > ε = 0. N →∞ f ∈F
  • 63. Замечание 1.4 Некоторые хорошо известные методы машинного обучения являются частными случаями метода минимизации эмпирического риска. Например, в случае квадратичной функции потерь эмпирический риск равен 1 N ∑ 2 R(f ) = yi − f (xi) . N i=1 В этом случае метод минимизации эмпирического риска называется методом наименьших квадратов. В задаче восстановления плотности вероятности для логарифмической функции потерь эмпирический риск равен 1 N R(p) = − N ∑ ln p(xi) i=1 В этом случае метод минимизации эмпирического риска называется методом максимального правдоподобия (Фишер).
  • 64. 1.8.3. Регрессионная функция R(f ) = L f (x)| y dP (x, y) = L f (x)| y dP (y | x) dP (x), X×Y X Y т. е. R(f ) = E L f (x)| Y |x dP (x) X
  • 65. Рассмотрим задачу восстановления регрессии с квадратичной функцией потерь: 2 2 R(f ) = y − f (x) dP (y |x) dP (x) = E Y − f (x) |x dP (x). X Y X Очевидно, минимизировать R(f ) можно поточечно: f ∗(x) = argmin E (Y − c)2 | x , (1) c откуда f ∗(x) = E (Y |x). (2) Это так называемая регрессионная функция. Итак, в случае квадратичной функции потерь наилучшим предсказанием y в ответ на вход x является условное среднее. Упражнение 1.5 Доказать, что из (1) следует (2), при этом R(f ∗ ) = E D (Y | X). Упражнение 1.6 Доказать, что если в качестве функции потерь выбрана L(y | y) = |y − y|, то минимум среднему риску доставляет условная медиана f (x) = median(Y |x).
  • 66. Возникает задача аппроксимации условного среднего E (Y |x) по имеющимся эмпирическим данным. 1) Заменим f ∗ (x) выборочным средним 1 f (x) = ∑ yi, |I(x)| i∈I(x) где I(x) = {i : xi = x} , Как правило, такое решение к успеху не приводит, так как обычно x встречается в обучающей выборке не более одного раза. 2) В методе k ближайших соседей вместо выборочного среднего берут 1 f (x) = ∑ yi, k xi∈Nk (x) где через Nk (x) обозначено множество из k точек обучающей выборки, ближайших (по евклидову расстоянию) к x. Частным случаем является метод (одного) ближайшего соседа, в котором f (x) = yi, где xi — ближайшая к x точка из обучающей выборки.
  • 67. Метод k ближайших соседей для задачи восстановления регрессии 1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8 k=1 k=2 1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8 k=5 k = 14
  • 68. Итак, метод ближайших соседей похож на метод восстановления функции распределения вероятности, только теперь аппроксимируется не плотность вероятности, а условное среднее.
  • 69. 1.8.4. Байесов классификатор Рассмотрим задачу классификации. Y = {1, 2, . . . , K}. Минимизируем средний риск K R(f ) = ∑L f (x)| y · Pr (y | x) dP (x). (∗∗) y=1 X Пусть функция потерь определяется формулой 0, если y = y, L(y |y) = 1, если y = y. Тогда подинтегральная функция в (**) есть вероятность ошибки (при заданном x) и поэтому R(f ) = 1 − Pr Y = f (x)| x dP (x), X откуда находим f ∗ (x) = argmin R(f ): f ∗(x) = argmin 1 − Pr (y | x) , y∈Y
  • 70. или, что эквивалентно, f ∗ (x) = argmax Pr (y |x). (+) y∈Y Функция f ∗ (x), найденная по этим формулам, называется байесовым классификатором или байесовым решающим правилом. Средний риск байесова классификатора называется байесовой ошибкой. Байесов классификатор играет в задаче классификации роль, схожую с той, которую играет регрессионная функция в задаче восстановления регрессии. Pr (y | x) называется апостериорной вероятностью появления объекта из класса y, и правило (+) называется принципом максимума апостериорной вероятности. Если классы равновероятны, т. е. Pr (y) = 1/K, то p(x |y) Pr (y) p(x |y) Pr (y | x) = = p(x) Kp(x) f (x) = argmax p(x |y). (++) y Плотность p(x |y) часто называется правдоподобием (likelihood), поэтому правило (++) называется методом максимального правдоподобия (maximum-likelihood method).
  • 71. Таким образом, байесов классификатор — это оптимальный классификатор. Предполагается, что условные вероятности Pr (y | x) известны. Как это можно использовать на практике? Будем аппроксимировать Pr (y | x) 1) Метод ближайших соседей (для задачи классификации) 2) Восстановление условной плотности вероятности
  • 72. Метод ближайших соседей для задачи классификации Будем, как и в задаче восстановления регрессии, для аппроксимации Pr (y |x) использовать k ближайших (по евклидову расстоянию) объектов из обучающей выборки. Получаем метод k ближайших соседей для задачи классификации. Пусть Nk (x) — множество из k ближайших к x (по евклидову расстоянию) точек из обучающей выборки, Ik (x, y) — множество тех точек xi из Nk (x), для которых yi = y. Согласно методу k ближайших соседей в качестве f (x) берем результат голосования по всем точка из Ik (x, y): f (x) = argmax |Ik (x, y)|, y Частным случаем является метод (одного) ближайшего соседа, в котором f (x) = yi, где xi — ближайший к x объект из обучающей выборки. В этом случае Ωy представляют собой области Вороного
  • 73. Диаграмма Вороного для набора из 50 точек. Штриховыми линиями отмечены неограниченные участки границы
  • 74. Восстановление функции распределения Другой способ аппроксимировать Pr (y | x) — воспользоваться формулой Байеса. Если X — непрерывная случайная величина и p(x) = 0, то p(x |y) · Pr (y) p(x |y) Pr (y) Pr (y | x) = = K . p(x) ∑ p(x |k) · Pr (k) k=1 Таким образом, задача сведена к задаче восстановлению по обучающей выборке условной плотности вероятности p(x |y) и вероятности Pr (y).
  • 75. 1.8.5. Метод стохастической минимизации [Robins, Monroe, 1951, Айзерман, Браверман, Розоноэр, 1965, Amari, 1967, Цыпкин, 1971, 1973]. Пусть класс F решающих функций параметризован вектором α: F = {f (x) = f (x, α) : α ∈ Rq } . Требуется найти α∗, минимизирующее функционал R(α) = L f (x, α)| y dP (x, y). X×Y Метод основан на итерациях α(k+1) = α(k) − γk · ∇αL f (x(k), α(k))|y (k) (k = 1, 2, . . . , N ). При некоторых необременительных ограничениях на γk и ∇α L f (x, α)| y процесс сходится к α∗, минимизирующему R(α). Для гарантированной корректной работы выборка должна быть очень большой. Далее этот метод в курсе не рассматривается.
  • 78. Agenda • Регрессионная функция – Метод наименьших квадратов – Метод максимального правдоподобия • Линейная регрессия • Оценка коэффициентов по выборке • Переобучение • Сокращение числа параметров и «усадка» коэффициентов – Выбор подмножества параметров – Гребневая регрессия – Лассо – Метод главных компонент – Частичные наименьшие квадраты
  • 79. Регрессия Фрэнсис Гальтона (1822–1911) «Регрессия к середине в наследовании роста» (1885 г.) Зависимость роста взрослого ребенка от роста родителей в исследовании Ф. Гальтона
  • 80. 74 72 70 Child height 68 66 64 data x=y 62 regression means 64 66 68 70 72 74 Parents height 928 наблюдений ch = 0.65par + 24 = 68.2 + 0.65 × (par − 68.2)
  • 81. 5 Residuals 0 −5 64 66 68 70 72 74 Parents height
  • 82. x = средняя оценка по мат. анализу и алгебре в 1-м семестре y = средняя оценка по мат. анализу, алгебре и программированию во 2-м семестре 5.0 4.5 2nd semester 4.0 3.5 3.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 1st semester 79 студентов
  • 83. 5.0 4.5 2nd semester 4.0 3.5 3.0 data x=y 2.5 regression means 3.0 3.5 4.0 4.5 5.0 5.5 1st semester sem2 = 0.93 + 0.77 × sem1 ≈ 3.86 + 0.77 × (sem1 − 3.82) 3.82 — средняя оценка по всем студентам в 1-м семестре 3.86 — средняя оценка по всем студентам во 2-м семестре
  • 84. Зависимость между массой тела и массой мозга животного 5e+03 African elephant Asian elephant Human Giraffe 5e+02 Donkey Horse Chimpanzee Cow Gorilla Rhesus monkey Sheep Pig Jaguar Brachiosaurus Potar monkey Grey wolf Goat 5e+01 Triceratops brain Kangaroo Dipliodocus Cat Rabbit Mountain beaver 5e+00 Guinea pig Mole Rat Golden hamster 5e−01 Mouse 1e−01 1e+01 1e+03 1e+05 body lg brain = β0 + β1 lg body β0 = 0.94, β1 = 0.75 brain = 8.6 × (body)3/4
  • 85. Обучающая выборка (x1, y1), (x2, y2), . . . , (xN , yN ) xi ∈ X , yi ∈ Y (i = 1, 2, . . . , N ) f ∗ (xi) = yi (i = 1, 2, . . . , N ) Нужно «восстановить» f ∗ В задаче восстановления регрессии Y =R
  • 86. Часто используется модель с аддитивной случайной ошибкой: y = f ∗(x) + ε, где ε — случайная величина (ошибка), не зависящая от x, и E ε = 0. f (x) = E (Y |X = x) и зависимость условного распределения P (y | x) от X проявляется только через условное среднее f (x).
  • 87. Предположим, что f ∗ (x) принадлежит некоторому классу. Например, является линейной функцией: p f (x) = β0 + ∑ xj βj (1) j=1 или функцией вида (более общий случай) q f (x) = ∑ βj hj (x), (2) j=1 где βj — неизвестные параметры, а hj (x) — заданные функции. (1) и (2) — линейная задача наименьших квадратов Но βj могут входить нелинейным образом (нелинейная задача наименьших квадратов) Например, y = β1eλ1 x + β2eλ2x.
  • 88. Метод наименьших квадратов — один из методов нахождения неизвестных параметров β Ищем набор параметров β, доставляющих минимум сумме квадратов невязок, или остаточной сумме квадратов (residual sum of squares) N 2 RSS(β) = ∑ yi − f (xi, β) . i=1 Метод наименьших квадратов — не единственный способ подбора неизвестных коэффициентов регрессионной функции.
  • 89. Принцип макcимального правдоподобия — более общий метод Y — с. в. с плотностью вероятности p(y, θ), где θ — вектор параметров. N копий непрерывной случайной величины Y : Y1, Y2, . . . , YN (N независимых одинаково распределенных с.в.) N реализаций этих величин: y1, y2, . . . , yN Плотность вероятности с.в. (Y1 , Y2, . . . , YN ): L(θ) = p(y1, y2, . . . , yN , θ) = p(y1, θ) · p(y2, θ) · . . . · p(yN , θ) L(θ) — функция правдоподобия Логарифмическая функция правдоподобия: N (θ) = ln L(θ) = ∑ ln p(yi, θ). i=1 (Если Y — дискретная случайная величина, то вместо p(yi, θ) нужно рассмотреть вероятность Pr {Y = yi}) Принцип максимального правдоподобия предполагает, что наиболее разумные значения неизвестных параметров θ доставляют максимум функции L(θ) (и (θ)).
  • 90. Рассмотрим модель y = f ∗(x, β) + ε, где ε имеет нормальное распределение N (0, σ 2) ⇔ условная вероятность p(y |x) имеет нормальное распределение: 2 1 y − f (y, β) − · 1 2 σ2 p(y | x, β) = √ ·e 2πσ Тогда N N 1 N (β) = ∑ ln p(yi |x, β) = − ln 2π − N ln σ − 2 ∑ yi − f (xi, β) 2 i=1 2 2σ i=1 В ней только последний член содержит вектор параметров β С точностью до множителя этот член равен RSS(β) Итак, при сделанных предположениях метод наименьших квадратов эквивалентен принципу максимального правдоподобия
  • 91. 2.1. Линейная регрессия Линейная регрессионная модель: p f (x) = β0 + ∑ xj βj j=1 Случайные величины Xj могут представлять собой: • независимые переменные; • функции от независимых переменных (степенные, логарифмические и др.); • закодированные качественные переменные; • функции от нескольких независимых переменных, например, X3 = X1 · X2. В методе наименьших квадратов в качестве β = (β0, β1, . . . , βp) выбираются параметры, доставляющие минимум остаточной сумме квадратов 2 N N p RSS(β) = ∑ yi − f (xi) = ∑ yi − β0 − ∑ xij βj 2 . i=1 i=1 j=1
  • 92. С точки зрения теории математической статистики этот метод разумен, если элементы обучающей выборки выбираются случайно и независимо из генеральной совокупности. Метод остается в силе, даже если xi выбираются не случайным образом, но yi условно независимы при заданных xi.
  • 93. y y = β0 + β1 x1 + β2 x2 x2 x1
  • 94. 1.0 0.5 y 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x
  • 95. 1.0 0.5 y 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x
  • 96. 1.0 0.8 0.6 y 0.4 0.2 0.0 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x
  • 97. data y~x 1.0 x~y prin. comp. 0.5 y 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x
  • 98. Как найти минимум функции RSS(β)? Пусть     1 x11 x12 . . . x1p y1      1 x x ... x   y2   21 22 2p    X= , y= .   ..................   .      1 xN 1 xN 2 . . . xN p yN Тогда 2 RSS(β) = y − Xβ = (y − Xβ) (y − Xβ). Можно рассмотреть систему уравнений (относительно β) Xβ = y β называется псевдорешением этой системы (оно минимизирует норму невязки). RSS(β) — квадратичная функция от p + 1 неизвестных (параметров) β0, β1, . . . , βp. Дифференцируя, находим: ∂ RSS ∂ 2RSS = −2X (y − Xβ), = 2X X. ∂β ∂β ∂β
  • 99. Обозначим x0, x1, . . . , xp столбцы матрицы X. Если x0, x1, . . . , xp линейно независимы, то матрица X X невырождена и положительно определена, поэтому минимум функции RSS(β) достигается, когда первая производная по β обращается в ноль: X (y − Xβ) = 0 ⇔ X Xβ = X y. Это нормальная система уравнений Единственным решением является вектор β = (X X)−1X y Итак, псевдорешением системы Xβ = y является решение системы X Xβ = X y. Матрица X+ = (X X)−1 X называется псевдообратной (Мура–Пенроуза) к X. Входным значениям x1, x2, . . . , xN будет соответствовать вектор выходных переменных y = (y1 , y2, . . . , yp) = Xβ = X(X X)−1X y. Пусть H = X(X X)−1X , тогда получаем y = Hy y есть ортогональная проекция вектора y на подпространство, натянутое на векторы x0, x1, . . . , xp
  • 100. H называется матрицей проектирования
  • 101. y x2 y x1
  • 102. Если столбцы матрицы X линейно зависимы, то β, на котором достигается минимум функции RSS(β), не единственен, однако, по-прежнему, y является ортогональной проекцией вектора y на линейную оболочку векторов x0, x1, . . . , xp .
  • 103. 2.1.1. Проверка значимости и доверительные интервалы для коэффициен- тов (регрессионный анализ) p Yi = β0 + ∑ βj xij + Ei (i = 1, 2, . . . , N ), j=1 где βj — некоторые коэффициенты (j = 0, 1, . . . , p). Пусть xij заданы (не случайны), а Ei — случайные величины, для которых E Ei = 0, Var Ei = σ 2, Cov(Ei, Ej ) = 0 (i = j). Тогда Yi — случайные переменные, причем p E Yi = β0 + ∑ βj xij , (1) j=1 Var Yi = σ 2, Cov(Yi, Yj ) = 0 (i = j). Запишем (1) в виде E y = Xβ.
  • 104. Рассмотрим некоторые полезные свойства коэффициентов β, полученных методом наименьших квадратов. Так как β = (X X)−1X y, то E β = (X X)−1 X E y = (X X)−1X Xβ = β, Cov β = (X X)−1X σ 2X(X X)−1 = (X X)−1 σ 2. Свойство E β = β означает, что β является несмещенной оценкой β. Разности p ei = yi − yi = yi − ∑ βj xij j=1 называются остатками. Нетрудно доказать, что N ∑ ei = 0. (2) i=1
  • 105. Из (2) следует, что n y = β0 + ∑ βj xj , j=1 где N N 1 1 y= N ∑ yi, x= N ∑ xi . i=1 i=1 Также легко получить, что N N ∑ yi = ∑ yi. i=1 i=1
  • 106. Несмещенной оценкой дисперсии σ 2 является остаточная дисперсия N 1 2 σ = ∑(yi − yi)2. N − p − 1 i=1 Для доказательства несмещенности оценки достаточно заметить, что RSS равна y (I − H)y, откуда E RSS = σ 2(N − p − 1). Величина N − p − 1 называется количеством степеней свободы. Значение σ называют остаточной стандартной ошибкой.
  • 107. Наряду с RSS рассмотрим связанные с ней величины: полную сумму квадратов (точнее: полную сумму скорректированных на среднее квадратов) N TSS = ∑(yi − y)2 i=1 и сумму квадратов, обусловленную регрессией (точнее: сумму скорректированных на среднее квадратов, обусловленную регрессией) n SSR = ∑(yi − y)2. i=1 Можно показать, что TSS = RSS + SSR . Упражнение 2.1 Доказать, что TSS = RSS + SSR. Это можно доказать непосредственное, а можно воспользоваться тем, что y − y ортогонально y − y, где y — вектор, составленный из y.
  • 108. Коэффициент детерминации. Коэффициент детерминации, или коэффициент регрессии Пирсона 2 SSR RSS r = =1− . TSS TSS RSS — мера разброса Yi вокруг f (xi), TSS — мера разброса всех yi вокруг их общего среднего y, то r2 характеризует долю общего разброса относительно среднего, объясняемую регрессией. 0 ≤ r2 ≤ 1. Если r2 близок к 1, то RSS намного больше TSS. Иногда коэффициент r2 дает слишком оптимистические результаты. В этом случае используется подправленные коэффициент 2 2 1 − r2 ra =r − . N −p−1 Рассмотрение коэффициента детерминации имеет смысл только при условии, что в модель включен сободный член β0.
  • 109. Сделаем еще некоторые предположения. Пусть ошибки Ei распределены по нормальному закону: Ei ∼ N (0, σ) (i = 1, 2, . . . , N ). В этом случае из некоррелированности случайных величин Ei следует их независисмость. Теперь нетрудно показать, что β ∼ N β, (X X)−1 σ 2 и (N − p − 1) σ 2 ∼ σ 2χ2 −p−1. N Эти свойства можно использовать при построении статистических тестов и доверительных интервалов для βj .
  • 110. Проверка значимости одного коэффициента. Гипотеза βj = 0 (j фиксировано): использование переменной Xj не улучшает предсказание по сравнению с предсказанием, полученным на основе только остальных p − 1 переменных. Для проверки этой гипотезы (против гипотезы βj = 0) рассмотрим стандартный коэффициент βj tj = , (3) se βj где √ se βj = σ vj — стандартная ошибка коэффициента βj , а vj — j-й диагональный элемент матрицы (X X)−1. В предположении, что βj = 0, коэффициент tj имеет t-распределение Стьюдента tN −p−1. Если |tj | велико, то гипотезу βj = 0 следует отбросить. Если гипотеза βj = 0 отбрасывается, то говорят, что коэффициент βj статистически значим.
  • 111. Можно проверить гипотезу βj = βj (относительно односторонней или двусторонней альтернативы), где βj — некоторое заданное значение. Статистика критерия имеет в этом случае вид βj − βj tj = . se βj Коэффициент tj имеет распределение tN −p−1. Проверка гипотезы зависит от вида альтернативной гипотезы и происходит обычным образом.
  • 112. Проверка значимости группы коэффициентов. Гипотеза о равенстве нулю группы коэффициентов (против гипотезы, что по крайней мере один из коэффициентов не равен нулю): переменные этой группы не улучшают предсказание по отношению к предсказанию, полученному без этих переменных. Будем использовать статистику (RSS2 − RSS1)/(p1 − p2) F = , RSS1 /(N − p1 − 1) где RSS1 — остаточная сумма квадратов «б´ льшей» модели с p1 + 1 параметрами, а о RSS2 — остаточная сумма квадратов «вложенной» модели c p2 + 1 параметрами, («вложенная» модель получается из «б´ льшей» модели, обнулением p1 − p2 о параметров). В предположении, что ε в (??) имеет нормальное распределение, статистика F имеет F (p1 − p2, N − p1 − 1) распределение Фишера. Если отбрасывается один коэффициент, то F совпадает с zj из (3).
  • 113. Проверка значимости модели. Проверка значимости всех коэффициентов β1, . . . , βp (кроме β0) означает сравнение исходной модели, включающей p + 1 коэффициентов, с моделью y = β0 . Очевидно, что решением задачи наименьших квадратов для второй модели будет N 1 β0 = y = N ∑ yi. i=1 В частности, остаточная сумма квадратов (называемая в даном случае полной суммой квадратов относительно среднего) равна 2 N N 1 TSS = ∑ yi − ∑ yi i=1 N i=1 и соответствующая F -статистика есть (TSS − RSS)/p F = , RSS /(N − p − 1) где RSS = RSS(β) — остаточная сумма квадратов для исходной модели.
  • 114. Эта статистика должна иметь распределение Fp, N −p−1. Легко показать, что TSS = RSS + SSR, где n SSR = ∑(yi − y)2 i=1 — так называемая сумма квадратов, обусловленная регрессией. Если гипотеза о том, что все коэффициенты (кроме, быть может, β0) равны нулю, отбрасывается, то говорят, что модель статистически значима. Значимость модели не означает, что она адекватна.
  • 115. Доверительные интервалы. Для βj доверительным интервалом является √ √ βj − z (1−α)σ vj , βj + z (1−α)σ vj , где z (1−α) есть (1 − α)-процентиль для нормального распределения: z (1−0.1) = 1.645, z (1−0.05) = 1.96, z (1−0.01) = 2.58, и т. д. √ (vj есть j-й диагональный элемент в (X X)−1 , а se βj = σ vj есть стандартная ошибка для βj ). Таким образом, интервал β ± 2 · se β соответствует мере доверия примерно в 95%.
  • 116. Пример. Рассмотрим задачу определения длины тормозного пути автомобиля от начальной скорости. На рис. представлена диаграмма рассеяния для данных1, содержащих информацию о 50 эксприментах, в каждом из которых наблюдалась начальная скорость автомобиля (speed) и длина его тормозного пути (dist). В качестве модели рассмотрим dist = β0 + β1 × speed. 1 Ezekiel M. Methods of Correlation Analysis. Wiley. 1930
  • 117. 120 100 80 dist 60 40 20 0 5 10 15 20 25 speed Зависимость длины тормозного пути от начальной скорости в 50 экспериментах. Найдены значения β0 = 42.980, β1 = 145.552.