Обзор алгоритмов машинного обучения

Обзор алгоритмов
машинного обучения

Воронов Александр
Video Group
CS MSU Graphics & Media Lab

1

Only for
Maxus 

Содержание
 Введение
 Дерево решений
 Статистические алгоритмы
 Метрические алгоритмы
 SVM
 AdaBoost

2
CS MSU Graphics & Media Lab (Video Group)

Only for

Постановка задачи
Maxus 

Терминология

 Множество объектов: X
 Конечное множество классов: Y
 Любой объект x ∈ X соответствует
хотя бы одному классу yi ∈ Y

3

Only for
Maxus 

По конечной выборке прецедентовXl :(xi, yi)i=1l
построить отображение a: X→Y,
удовлетворяющее следующим условиям:
 Эффективная программная реализация

 Воспроизведение заданных ответов на

обучающей выборке
 Обобщающая способность для всего

множества X
 Априорные ограничения (соответствие
модели)
4

Only for

Maxus 

Оценка обобщающей способности

Функционал качества:
1 l
Q( a, X l )    (a, xi )
l i 1

a - тестируемый алгоритм
 (a, xi ) - функция, определяющая
величину ошибки алгоритма
 ( X )  arg min Q(a, X )
l l

aA

5

Only for

Maxus 

Оценка обобщающей способности

 Дана выборка X L  ( xi , yi )iL1
l
 Разобьѐм еѐ N способами на обучающую
k
X n
и контрольную X n подвыборки (k = L – l)
 Оценка скользящего контроля
(cross-validation):
1 N
CV(  , X )   Q(  ( X n ), X n )
L l k

N n1
 CV совпадает с матожиданием потерь

6

Only for
Maxus 
Примеры прикладных
задач
 Медицинская диагностика
 Распознавание спама
 Рубрикация текста
 Распознавание рукописных символов
 Оценивание заѐмщиков
 Прогнозирование потребительского
спроса
 и т.д.
7

Only for
Maxus 
Эвристические принципы
обучения по прецедентам
 сходства
 минимизации эмпирического риска
 регуляризации (штраф на сложность
алгоритма)
 разделимости (можно описать некоторую
поверхность, разделяющую классы)
 отделимости и закономерности (можно описать
область, которая включает объекты только
одного класса)
 самоорганизации моделей (структура модели
алгоритма заранее не известна)
 композиции
8

Only for
Maxus 

 SVM
 AdaBoost

9

Only for

Дерево решений
Maxus 

Пример

10

Only for

Maxus 

Автоматическое построение

X = {x1, …, xn}, pi – вероятность события xi
n
H ( X )   pi log 2 pi - энтропия множества X
i 1
C = {c1, …, cm} – множество классов
F – признак с возможными значениями {f1, …, fd}
Количество информации класса C относительно
признака F:
m d
P(C  ci , F  f i )
I (C , F )   P(C  ci , F  f i ) log 2
i 1 j 1 P(C  ci ) P( F  f i )
11

Only for

Maxus 

Автоматическое построение

1. Признак с наибольшим количеством
информации выбирается в качестве
корневого узла
2. Если подмножество событий ветви
не совпадает с одним из классов, то
алгоритм запускается рекурсивно
для этой ветви

12

Only for
Maxus 

 SVM
 AdaBoost

13

Only for

Статистические алгоритмы
Maxus 

Обозначения

 Py = P(y) – априорная вероятность
класса y
 py(x) = p(x|y) – функция правдоподобия
класса y
 p(x,y) – плотность распределения
 λys – величина потери при отнесении
объекта класса y к классу s
 Ay = {x ∈ X | a(x) = y}, y ∈ Y
14

Only for

Maxus 


 Функционал среднего риска:
R(a)    ys Py ( As | y)
yY sY
 Формула Байеса
p( x, y ) p y ( x) Py
P( y | x)  
p ( x) sY ps ( x) Ps

15

Only for

Maxus 

Схема работы

1. Задаются штрафы ошибочной
классификации λys.
2. По обучающей выборке вычисляются
функции, характеризующие классы.
3. На основе этих функций строится
алгоритм, который минимизирует
функционал среднего риска.

16

Only for

Maxus 


 Оптимальный алгоритм классификации
a( x)  arg min   ys Py p y ( x)
sY yY
 При условии, что  ys   y
a( x)  arg max  y Py p y ( x)  arg max  y P( y | x)
yY yY
 Разделяющая поверхность:
t Pt pt ( x)  s Ps ps ( x)

17

Only for

Maxus 

Восстановление плотности

 Оценка априорной вероятности класса y:

ˆ ly
Py  , ly  X , y Y
l
y
l
 Чтобы восстановить функции
правдоподобия py(x), рассмотрим общую
задачу:
Для выборки Xm = {x1, …, xm} построить
эмпирическую оценку плотности,
приближающую p(x) на всѐм X.
18

Only for
Maxus 

Предположим, что p(x) = φ(x,θ)
 φ – фиксированная функция

 θ – параметр, значение которого выбирается

из принципа максимума правдоподобия:
m
L( X , G , )   g i ln  ( xi , )  max
m m

i 1

 Gm = (g1,…,gm)

19

Only for
Maxus 

 Предположим, что
n 1
  1
 ( x, )  N ( x,  , )  (2 )  2 2 exp(  ( x   )  1 ( x   ))
2
то есть n-мерное нормальное
распределение с матожиданием μ ∈ R ,
n
nxn
Σ∈R

20

Only for
Maxus 

 Вычисление:

m
i 1
gi  1
m m
   gi xi ;
ˆ    g i ( xi   )( xi   )
ˆ ˆ ˆ
i 1 i 1
1
 Можно положить g i 
m
 Несмещѐнная оценка ков.матрицы:
1 m
ˆ
 
m  1 x 1
( xi   )( xi   )
ˆ ˆ
21

Only for

Maxus 

Квадратичный дискриминант

Если классы имеют нормальные
функции правдоподобия, то решающее
правило задает квадратичную
разделяющую поверхность.
Поверхность вырождается в линейную,
если ков.матрицы классов равны.

22

Only for

Maxus 

Линейный дискриминант Фишера

Фишер предложил считать ковариационные
матрицы равными, даже если они на самом
деле не равны.
a( x)  arg max ( y Py p y ( x)) 
yY

1  ˆ 1 ˆ ˆ
 arg max (ln( y Py )   y   y  x  1 y ) 
ˆ ˆ
yY 2

 arg max ( x  y   y )
yY

23

Only for

Maxus 

Линейный дискриминант Фишера

Обучение сводится к оцениванию
матожидания и общей ковариационной
матрицы для всей выборки.

24

Only for

Maxus 

Наивный байесовский классификатор

 Если предположить , что признаки объекта
независимы и нормально распределены, то
общая плотность вычисляется как
произведение плотностей характеристик
 Плотность каждой характеристики внутри
класса вычисляется значительно проще
 В реальности такая ситуация встречается
редко, на большинстве задач качество
классификации будет относительно низким

25

Only for

Maxus 

Наивный байесовский классификатор

1  f1 ( x),...,  n  f n ( x) - признаки
p y ( x)  p y1 (1 )... p yn ( n )

Итоговый алгоритм:
 yl y n 
a( x)  arg max  ln
   ln p yj ( j ) 
ˆ 
yY  l j 1 

26

Only for

Maxus 

Выводы

Преимущества:
 Байесовское решающее правило оптимально,

имеет простую формулу, легко реализуется
программно
 Имеет широкую область применения, часто

используется в качестве эталона при
тестировании других алгоритмов
Недостатки:
 При неправильном подходе к восстановлению
функций правдоподобия качество работы
алгоритма может быть очень низким
27

Only for
Maxus 

 SVM
 AdaBoost

28

Only for
Maxus 

Метрические алгоритмы
 Метрические алгоритмы:
основанные на анализе сходства
объектов.
 Гипотеза компактности:
Классы образуют компактно
локализованные множества в
пространстве объектов.
 Вводится метрика ρ(x, x´) в пространстве
объектов X
29

Only for
Maxus 

u – рассматриваемый объект
Xl – обучающая выборка
w(i, u) – оценка степени важности i-го соседа
l
y (u, X l )   [ yui )  y ]w(i, u ) - суммарный вес
(

i 1
ближайших обучающих объектов
Метрический алгоритм:
a(u, X )  arg max y (u, X )
l l

yY

30

Only for

Maxus 


Обучение:
1. Выбор метрики сходства между объектами
2. Удаление из обучающей выборки
неинформативных и шумовых объектов
Классификация:
Объект относится к тому классу, для
которого максимален вес ближайших
объектов из обучающей выборки.

31

Only for

Maxus 

Весовые функции

 Метод ближайшего соседа (1NN):
w(i, u) = [i = 1]
 Метод k ближайших соседей (kNN):
w(i, u) = [i ≤ k]
 Метод взвешенных ближайших соседей:
w(i, u) = [i ≤ k]qi

32

Only for

Maxus 

Метод парзеновского окна

K(z) – функция ядра, невозрастающая
на [0, ∞)
  (u, xui ) ) 
(
w(i, u )  K 
 

 h 
При неравномерном распределении
объектов можно использовать окно
переменной ширины:
h(u)   (u, x ( k 1)
u )
Доп.ограничение на K: z > 1, K(z)=0
33

Only for

Maxus 

Отбор эталонных объектов

 Эталоны – типичные представители
классов
 При исключении из выборки шумовые
и неинформативные объекты
повышается качество классификации
и уменьшается объѐм хранимых
данных

34

Only for

Maxus 

Отбор эталонных объектов

Отступ объекта xi относительно алгоритма a(u)
M ( xi )  yi ( xi )  max y ( xi )
yY yi
Объекты:
 Эталонные (большой положительный отступ)
 Неинформативные (положительный отступ)
 Пограничные (отступ, близкий к нулю)
 Ошибочные объекты (отрицательный отступ)
 Шумовые объекты или выбросы (большой
отрицательный отступ)
Из выборки удаляются неинформативные и
шумовые объекты
35

Only for

Maxus 

Выводы

 Нет необходимости выделять признаки
(прецедентная логика)
 Простота реализации

 Необходимость хранить обучающую

выборку
 Поиск ближайших соседей

предполагает большой число сравнений
36

Only for
Maxus 

 SVM
 AdaBoost

37

Only for
Maxus 

SVM

38

Only for
Maxus 

SVM

39

Only for
Maxus 

SVM
n
X = R , Y = {-1, +1}
 n 
a( x)  sgn   w j x  w0   sgn  w, x  w0 

j

 j 1 
 w, w0 – параметры алгоритма
 w, x  w0 - разделяющая гиперплоскость

40

Only for

SVM
Maxus 


Обучение:
1. Для поиска максимальной ширины
разделяющей полосы при минимальной
ошибке составляется функция Лагранжа
2. Ищется седловая точка функции
Лагранжа.
3. Находятся опорные точки, на их основе
вычисляются параметры алгоритма

41

Only for

SVM
Maxus 

Ширина разделяющей полосы

x+ и x- - произвольные точки классов,
лежащие на границе полосы
Тогда ширина полосы:
w w, x  w, x ( w0  1)  ( w0  1) 2
( x  x ),   
w w w w
Для линейно разделимой выборки требуется
найти параметры w, w0, такие, что при
выполнении условия yi  w, xi  w0   1
норма w будет минимальна.
42

Only for

SVM
Maxus 

Задача поиска седловой точки


 L( w, w0 ,  )  2 w, w   i  yi  w, xi  w0   1  min max
l
1
w, w0 


i 1

i  0, i  1,..., l
  0, либо w, x  w  y , i  1,..., l
 i i 0 i

 Необходимые условия седловой точки:
L l l
 w   i yi xi  0  w   i yi xi
w i 1 i 1

L l l
  i yi  0   y 0
w0
i i
i 1 i 1

43

Only for

SVM
Maxus 

Задача поиска седловой точки

Из необходимых условий седловой
точки следует :

 
l
1 l l
 L( )   i  2  i  j yi y j xi , x j  min



i 1 i 1 j 1

i  0, i  1,..., l
 l
 i yi  0
 i 1


44

Only for
Maxus 

SVM
 После решения задачи вычисляем:
l
w   i yi xi
i 1

w0  med  w, xi  yi : i  0, i  1,..., l

 Итоговый алгоритм:
a( x)  sgn  w, x  w0 

45

Only for

SVM
Maxus 

Линейно неразделимая выборка

Добавим в исходную задачу
минимизации нормы w штраф за
суммарную ошибку:
1 l

 2 w, w  C   i  w, w ,
min
 i 1 0


 yi  w, xi  w0   1   i , i  1,..., l
  0, i  1,..., l
 i


46

Only for

SVM
Maxus 


 
Введѐм понятие отступа: mi  yi w, xi  w0 
 Рассмотрим функционал числа ошибок:
l
Q(a, X l )   [mi  0]
i 1

 Заменим пороговую функцию
на еѐ верхнюю оценку:
[mi  0]  (1  mi ) 
Добавим к Q штрафное слагаемое  w ,
2


учитывающее норму w
47

Only for

SVM
Maxus 


Задача минимизации полученного функционала
l
Q(a, X )   (1  mi )    w  min
l 2

w, w0
i 1
эквивалентна исходной задаче
1 l

 2 w, w  C   i  w, w0 ,
min


i 1

 yi  w, xi  w0   1   i , i  1,..., l
  0, i  1,..., l
 i

 1
при  
2C
48

Only for

SVM
Maxus 


 Соответствующая функция Лагранжа:

L( w, w0 ,  ,  , )  w, w   i  yi  w, xi  w0   1 
l
1
2 i 1
l
   i (i  i  C )  min max
w, w0 
i 1

49

Only for

SVM
Maxus 


Задача поиска седловой точки:
 L( w, w0 ,  ,  , )  min max
w, w0 ,  ,

 i  0, i  0, i  0, i  1,..., l

i  0, либо yi  w, xi  w0   1   i , i  1,..., l

i  0, либо  i  0, i  1,..., l

50

Only for

SVM
Maxus 

Спрямляющие пространства

 Ещѐ один способ решения проблемы
линейной неразделимости:
переход из пространства объектов X в
пространство H с помощью преобразования
ψ: X → H
 Пространство H называется спрямляющим
 SVM строится так же, только на основе
объектов ψ(xi) вместо xi.
 K ( x, x)   ( x), ( x) - ядровая функция
51

Only for

SVM
Maxus 

Выводы

 Решение задачи хорошо оптимизируется:

сводится к задаче квадратичного
программирования
 Более уверенная классификация за счѐт

максимизации ширины разделяющей полосы
 Неустойчивость к шуму, выбросы существенно

учитываются
 Нет общих методов построения ядер или
спрямляющих пространств
52

Only for
Maxus 

 SVM
 AdaBoost

53

Only for

AdaBoost
Maxus 


 Классификация на два класса: Y = {-1,+1}
 bt(x) – некоторые базовые алгоритмы
 Искомый алгоритм – взвешенная сумма
базовых:
T
a( x)  sgn(   t bt ( x)), x X
t 1
 Функционал качества композиции:
l
 T 
QT    yi   t bt ( xi )  0
t 1  t 1 
54

Only for
Maxus 

AdaBoost
Упрощение задачи минимизации
функционала Qt:
 Эвристика 1: при добавлении в
композицию нового слагаемого
оптимизировать только его, не трогая
предыдущих
 Эвристика 2: аппроксимировать пороговую
функцию потерь в Qt непрерывно
дифференцируемой оценкой сверху.

55

Only for
Maxus 

AdaBoost
 Аппроксимация экспонентой:
~ l
 T

Qt  Qt   exp   yi   t bt ( xi )  
i 1  t 1 
l
 T 1

  exp   yi   t bt ( xi )  exp(  yi T bT ( xi ))
i 1
1  
 
t

wi
 Введѐм нормированный вектор весов объектов:
~l ~ ~ ~ wi
W  ( w1 ,..., wl ), wi 

l
j 1
wj
56

Only for
Maxus 

AdaBoost
Теорема 1: l
 l

Q(b,U l )   ui [ yi b( xi )  0],  ui  1
 i 1 i 1
 l
min Q(b,W l )  1 / 2, W l : w  1
 b

 i
i 1
Тогда:
~l
bT  arg min Q(b, W )
b
~l
1 1  Q(bT , W )
 T  ln ~l
2 Q(bT , W )
57

Only for
Maxus 

AdaBoost
Теорема 2:
Если существует   0 такое, что на
~l
каждом шаге Q(bt ,W )  1 / 2   , то
AdaBoost гарантирует построение
корректного алгоритма a(x) за конечное
число шагов.

58

Only for

AdaBoost
Maxus 

Алгоритм обучения

1. инициализация весов объектов: wi := 1/l, i = 1, …,l
2. для всех l = 1,…,T, пока не выполнен критерий
останова
3. bt : arg min Q(b,W l )
b

1 1  Q(bt ,W l )
4.  t : ln
2 Q(bt ,W l )
5. пересчѐт весов объектов: wi := wiexp(-αtyibt(xi)),
i = 1, …,l
w0 :  j 1 w j
l
6. нормировка весов объектов:
wi : wi / w0 , i  1,..., l
59

Only for

AdaBoost
Maxus 

Выводы

Достоинства:
 Хорошая обобщающая способность

 Простота реализации

 Возможность идентификации выбросов по
высокому значению wi
 Переобучение при значительном уровне шума

 Требует длинных выборок

 Может привести к построению громоздких
композиций
60

Only for
Maxus 

Литература
1. Курс лекций К.В. Воронцова по машинному обучений (2007-2008)
http://www.machinelearning.ru/wiki/index.php?title=Машинное_обуче
ние_(курс_лекций%2C_К.В.Воронцов)
2. Л.Шапиро, Дж.Стокман «Компьютерное зрение», глава 4, С.126-167

61

Обзор алгоритмов машинного обучения

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Обзор алгоритмов машинного обучения

Similar to Обзор алгоритмов машинного обучения (20)

More from MSU GML VideoGroup

More from MSU GML VideoGroup (12)

Обзор алгоритмов машинного обучения