Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Методы машинного обучения в физике элементарных частицAndrey Ustyuzhanin
рассмотрим основные этапы обработки данных физики высоких энергий на примере одного из экспериментов Большого Адронного Коллайдера — LHCb; мы увидим насколько похожими оказываются решения отдельных задач LHCb на решения, используемые в Яндексе.
Предлагаемый угол зрения на проблемы физики элементарных частиц позволяет увидеть возможности, открывающиеся от взаимного расширения спектра методов и технологий, а также возможность проведении междисциплинарных исследований, способных усилить каждую из этих областей.
Similar to Обзор алгоритмов машинного обучения (20)
2. Only for
Maxus
Содержание
Введение
Дерево решений
Статистические алгоритмы
Метрические алгоритмы
SVM
AdaBoost
2
CS MSU Graphics & Media Lab (Video Group)
3. Only for
Постановка задачи
Maxus
Терминология
Множество объектов: X
Конечное множество классов: Y
Любой объект x ∈ X соответствует
хотя бы одному классу yi ∈ Y
3
CS MSU Graphics & Media Lab (Video Group)
4. Only for
Maxus
Постановка задачи
По конечной выборке прецедентовXl :(xi, yi)i=1l
построить отображение a: X→Y,
удовлетворяющее следующим условиям:
Эффективная программная реализация
Воспроизведение заданных ответов на
обучающей выборке
Обобщающая способность для всего
множества X
Априорные ограничения (соответствие
модели)
4
CS MSU Graphics & Media Lab (Video Group)
5. Only for
Постановка задачи
Maxus
Оценка обобщающей способности
Функционал качества:
1 l
Q( a, X l ) (a, xi )
l i 1
a - тестируемый алгоритм
(a, xi ) - функция, определяющая
величину ошибки алгоритма
( X ) arg min Q(a, X )
l l
aA
5
CS MSU Graphics & Media Lab (Video Group)
6. Only for
Постановка задачи
Maxus
Оценка обобщающей способности
Дана выборка X L ( xi , yi )iL1
l
Разобьѐм еѐ N способами на обучающую
k
X n
и контрольную X n подвыборки (k = L – l)
Оценка скользящего контроля
(cross-validation):
1 N
CV( , X ) Q( ( X n ), X n )
L l k
N n1
CV совпадает с матожиданием потерь
6
CS MSU Graphics & Media Lab (Video Group)
7. Only for
Maxus
Примеры прикладных
задач
Медицинская диагностика
Распознавание спама
Рубрикация текста
Распознавание рукописных символов
Оценивание заѐмщиков
Прогнозирование потребительского
спроса
и т.д.
7
CS MSU Graphics & Media Lab (Video Group)
8. Only for
Maxus
Эвристические принципы
обучения по прецедентам
сходства
минимизации эмпирического риска
регуляризации (штраф на сложность
алгоритма)
разделимости (можно описать некоторую
поверхность, разделяющую классы)
отделимости и закономерности (можно описать
область, которая включает объекты только
одного класса)
самоорганизации моделей (структура модели
алгоритма заранее не известна)
композиции
8
CS MSU Graphics & Media Lab (Video Group)
9. Only for
Maxus
Содержание
Введение
Дерево решений
Статистические алгоритмы
Метрические алгоритмы
SVM
AdaBoost
9
CS MSU Graphics & Media Lab (Video Group)
10. Only for
Дерево решений
Maxus
Пример
10
CS MSU Graphics & Media Lab (Video Group)
11. Only for
Дерево решений
Maxus
Автоматическое построение
X = {x1, …, xn}, pi – вероятность события xi
n
H ( X ) pi log 2 pi - энтропия множества X
i 1
C = {c1, …, cm} – множество классов
F – признак с возможными значениями {f1, …, fd}
Количество информации класса C относительно
признака F:
m d
P(C ci , F f i )
I (C , F ) P(C ci , F f i ) log 2
i 1 j 1 P(C ci ) P( F f i )
11
CS MSU Graphics & Media Lab (Video Group)
12. Only for
Дерево решений
Maxus
Автоматическое построение
1. Признак с наибольшим количеством
информации выбирается в качестве
корневого узла
2. Если подмножество событий ветви
не совпадает с одним из классов, то
алгоритм запускается рекурсивно
для этой ветви
12
CS MSU Graphics & Media Lab (Video Group)
13. Only for
Maxus
Содержание
Введение
Дерево решений
Статистические алгоритмы
Метрические алгоритмы
SVM
AdaBoost
13
CS MSU Graphics & Media Lab (Video Group)
14. Only for
Статистические алгоритмы
Maxus
Обозначения
Py = P(y) – априорная вероятность
класса y
py(x) = p(x|y) – функция правдоподобия
класса y
p(x,y) – плотность распределения
λys – величина потери при отнесении
объекта класса y к классу s
Ay = {x ∈ X | a(x) = y}, y ∈ Y
14
CS MSU Graphics & Media Lab (Video Group)
15. Only for
Статистические алгоритмы
Maxus
Обозначения
Функционал среднего риска:
R(a) ys Py ( As | y)
yY sY
Формула Байеса
p( x, y ) p y ( x) Py
P( y | x)
p ( x) sY ps ( x) Ps
15
CS MSU Graphics & Media Lab (Video Group)
16. Only for
Статистические алгоритмы
Maxus
Схема работы
1. Задаются штрафы ошибочной
классификации λys.
2. По обучающей выборке вычисляются
функции, характеризующие классы.
3. На основе этих функций строится
алгоритм, который минимизирует
функционал среднего риска.
16
CS MSU Graphics & Media Lab (Video Group)
17. Only for
Статистические алгоритмы
Maxus
Обозначения
Оптимальный алгоритм классификации
a( x) arg min ys Py p y ( x)
sY yY
При условии, что ys y
a( x) arg max y Py p y ( x) arg max y P( y | x)
yY yY
Разделяющая поверхность:
t Pt pt ( x) s Ps ps ( x)
17
CS MSU Graphics & Media Lab (Video Group)
18. Only for
Статистические алгоритмы
Maxus
Восстановление плотности
Оценка априорной вероятности класса y:
ˆ ly
Py , ly X , y Y
l
y
l
Чтобы восстановить функции
правдоподобия py(x), рассмотрим общую
задачу:
Для выборки Xm = {x1, …, xm} построить
эмпирическую оценку плотности,
приближающую p(x) на всѐм X.
18
CS MSU Graphics & Media Lab (Video Group)
19. Only for
Maxus
Статистические алгоритмы
Предположим, что p(x) = φ(x,θ)
φ – фиксированная функция
θ – параметр, значение которого выбирается
из принципа максимума правдоподобия:
m
L( X , G , ) g i ln ( xi , ) max
m m
i 1
Gm = (g1,…,gm)
19
CS MSU Graphics & Media Lab (Video Group)
20. Only for
Maxus
Статистические алгоритмы
Предположим, что
n 1
1
( x, ) N ( x, , ) (2 ) 2 2 exp( ( x ) 1 ( x ))
2
то есть n-мерное нормальное
распределение с матожиданием μ ∈ R ,
n
nxn
Σ∈R
20
CS MSU Graphics & Media Lab (Video Group)
21. Only for
Maxus
Статистические алгоритмы
Вычисление:
m
i 1
gi 1
m m
gi xi ;
ˆ g i ( xi )( xi )
ˆ ˆ ˆ
i 1 i 1
1
Можно положить g i
m
Несмещѐнная оценка ков.матрицы:
1 m
ˆ
m 1 x 1
( xi )( xi )
ˆ ˆ
21
CS MSU Graphics & Media Lab (Video Group)
22. Only for
Статистические алгоритмы
Maxus
Квадратичный дискриминант
Если классы имеют нормальные
функции правдоподобия, то решающее
правило задает квадратичную
разделяющую поверхность.
Поверхность вырождается в линейную,
если ков.матрицы классов равны.
22
CS MSU Graphics & Media Lab (Video Group)
23. Only for
Статистические алгоритмы
Maxus
Линейный дискриминант Фишера
Фишер предложил считать ковариационные
матрицы равными, даже если они на самом
деле не равны.
a( x) arg max ( y Py p y ( x))
yY
1 ˆ 1 ˆ ˆ
arg max (ln( y Py ) y y x 1 y )
ˆ ˆ
yY 2
arg max ( x y y )
yY
23
CS MSU Graphics & Media Lab (Video Group)
24. Only for
Статистические алгоритмы
Maxus
Линейный дискриминант Фишера
Обучение сводится к оцениванию
матожидания и общей ковариационной
матрицы для всей выборки.
24
CS MSU Graphics & Media Lab (Video Group)
25. Only for
Статистические алгоритмы
Maxus
Наивный байесовский классификатор
Если предположить , что признаки объекта
независимы и нормально распределены, то
общая плотность вычисляется как
произведение плотностей характеристик
Плотность каждой характеристики внутри
класса вычисляется значительно проще
В реальности такая ситуация встречается
редко, на большинстве задач качество
классификации будет относительно низким
25
CS MSU Graphics & Media Lab (Video Group)
26. Only for
Статистические алгоритмы
Maxus
Наивный байесовский классификатор
1 f1 ( x),..., n f n ( x) - признаки
p y ( x) p y1 (1 )... p yn ( n )
Итоговый алгоритм:
yl y n
a( x) arg max ln
ln p yj ( j )
ˆ
yY l j 1
26
CS MSU Graphics & Media Lab (Video Group)
27. Only for
Статистические алгоритмы
Maxus
Выводы
Преимущества:
Байесовское решающее правило оптимально,
имеет простую формулу, легко реализуется
программно
Имеет широкую область применения, часто
используется в качестве эталона при
тестировании других алгоритмов
Недостатки:
При неправильном подходе к восстановлению
функций правдоподобия качество работы
алгоритма может быть очень низким
27
CS MSU Graphics & Media Lab (Video Group)
28. Only for
Maxus
Содержание
Введение
Дерево решений
Статистические алгоритмы
Метрические алгоритмы
SVM
AdaBoost
28
CS MSU Graphics & Media Lab (Video Group)
29. Only for
Maxus
Метрические алгоритмы
Метрические алгоритмы:
основанные на анализе сходства
объектов.
Гипотеза компактности:
Классы образуют компактно
локализованные множества в
пространстве объектов.
Вводится метрика ρ(x, x´) в пространстве
объектов X
29
CS MSU Graphics & Media Lab (Video Group)
30. Only for
Maxus
Метрические алгоритмы
u – рассматриваемый объект
Xl – обучающая выборка
w(i, u) – оценка степени важности i-го соседа
l
y (u, X l ) [ yui ) y ]w(i, u ) - суммарный вес
(
i 1
ближайших обучающих объектов
Метрический алгоритм:
a(u, X ) arg max y (u, X )
l l
yY
30
CS MSU Graphics & Media Lab (Video Group)
31. Only for
Метрические алгоритмы
Maxus
Схема работы
Обучение:
1. Выбор метрики сходства между объектами
2. Удаление из обучающей выборки
неинформативных и шумовых объектов
Классификация:
Объект относится к тому классу, для
которого максимален вес ближайших
объектов из обучающей выборки.
31
CS MSU Graphics & Media Lab (Video Group)
32. Only for
Метрические алгоритмы
Maxus
Весовые функции
Метод ближайшего соседа (1NN):
w(i, u) = [i = 1]
Метод k ближайших соседей (kNN):
w(i, u) = [i ≤ k]
Метод взвешенных ближайших соседей:
w(i, u) = [i ≤ k]qi
32
CS MSU Graphics & Media Lab (Video Group)
33. Only for
Метрические алгоритмы
Maxus
Метод парзеновского окна
K(z) – функция ядра, невозрастающая
на [0, ∞)
(u, xui ) )
(
w(i, u ) K
h
При неравномерном распределении
объектов можно использовать окно
переменной ширины:
h(u) (u, x ( k 1)
u )
Доп.ограничение на K: z > 1, K(z)=0
33
CS MSU Graphics & Media Lab (Video Group)
34. Only for
Метрические алгоритмы
Maxus
Отбор эталонных объектов
Эталоны – типичные представители
классов
При исключении из выборки шумовые
и неинформативные объекты
повышается качество классификации
и уменьшается объѐм хранимых
данных
34
CS MSU Graphics & Media Lab (Video Group)
35. Only for
Метрические алгоритмы
Maxus
Отбор эталонных объектов
Отступ объекта xi относительно алгоритма a(u)
M ( xi ) yi ( xi ) max y ( xi )
yY yi
Объекты:
Эталонные (большой положительный отступ)
Неинформативные (положительный отступ)
Пограничные (отступ, близкий к нулю)
Ошибочные объекты (отрицательный отступ)
Шумовые объекты или выбросы (большой
отрицательный отступ)
Из выборки удаляются неинформативные и
шумовые объекты
35
CS MSU Graphics & Media Lab (Video Group)
36. Only for
Метрические алгоритмы
Maxus
Выводы
Преимущества:
Нет необходимости выделять признаки
(прецедентная логика)
Простота реализации
Недостатки:
Необходимость хранить обучающую
выборку
Поиск ближайших соседей
предполагает большой число сравнений
36
CS MSU Graphics & Media Lab (Video Group)
37. Only for
Maxus
Содержание
Введение
Дерево решений
Статистические алгоритмы
Метрические алгоритмы
SVM
AdaBoost
37
CS MSU Graphics & Media Lab (Video Group)
38. Only for
Maxus
SVM
38
CS MSU Graphics & Media Lab (Video Group)
39. Only for
Maxus
SVM
39
CS MSU Graphics & Media Lab (Video Group)
40. Only for
Maxus
SVM
n
X = R , Y = {-1, +1}
n
a( x) sgn w j x w0 sgn w, x w0
j
j 1
w, w0 – параметры алгоритма
w, x w0 - разделяющая гиперплоскость
40
CS MSU Graphics & Media Lab (Video Group)
41. Only for
SVM
Maxus
Схема работы
Обучение:
1. Для поиска максимальной ширины
разделяющей полосы при минимальной
ошибке составляется функция Лагранжа
2. Ищется седловая точка функции
Лагранжа.
3. Находятся опорные точки, на их основе
вычисляются параметры алгоритма
41
CS MSU Graphics & Media Lab (Video Group)
42. Only for
SVM
Maxus
Ширина разделяющей полосы
x+ и x- - произвольные точки классов,
лежащие на границе полосы
Тогда ширина полосы:
w w, x w, x ( w0 1) ( w0 1) 2
( x x ),
w w w w
Для линейно разделимой выборки требуется
найти параметры w, w0, такие, что при
выполнении условия yi w, xi w0 1
норма w будет минимальна.
42
CS MSU Graphics & Media Lab (Video Group)
43. Only for
SVM
Maxus
Задача поиска седловой точки
L( w, w0 , ) 2 w, w i yi w, xi w0 1 min max
l
1
w, w0
i 1
i 0, i 1,..., l
0, либо w, x w y , i 1,..., l
i i 0 i
Необходимые условия седловой точки:
L l l
w i yi xi 0 w i yi xi
w i 1 i 1
L l l
i yi 0 y 0
w0
i i
i 1 i 1
43
CS MSU Graphics & Media Lab (Video Group)
44. Only for
SVM
Maxus
Задача поиска седловой точки
Из необходимых условий седловой
точки следует :
l
1 l l
L( ) i 2 i j yi y j xi , x j min
i 1 i 1 j 1
i 0, i 1,..., l
l
i yi 0
i 1
44
CS MSU Graphics & Media Lab (Video Group)
45. Only for
Maxus
SVM
После решения задачи вычисляем:
l
w i yi xi
i 1
w0 med w, xi yi : i 0, i 1,..., l
Итоговый алгоритм:
a( x) sgn w, x w0
45
CS MSU Graphics & Media Lab (Video Group)
46. Only for
SVM
Maxus
Линейно неразделимая выборка
Добавим в исходную задачу
минимизации нормы w штраф за
суммарную ошибку:
1 l
2 w, w C i w, w ,
min
i 1 0
yi w, xi w0 1 i , i 1,..., l
0, i 1,..., l
i
46
CS MSU Graphics & Media Lab (Video Group)
47. Only for
SVM
Maxus
Линейно неразделимая выборка
Введѐм понятие отступа: mi yi w, xi w0
Рассмотрим функционал числа ошибок:
l
Q(a, X l ) [mi 0]
i 1
Заменим пороговую функцию
на еѐ верхнюю оценку:
[mi 0] (1 mi )
Добавим к Q штрафное слагаемое w ,
2
учитывающее норму w
47
CS MSU Graphics & Media Lab (Video Group)
48. Only for
SVM
Maxus
Линейно неразделимая выборка
Задача минимизации полученного функционала
l
Q(a, X ) (1 mi ) w min
l 2
w, w0
i 1
эквивалентна исходной задаче
1 l
2 w, w C i w, w0 ,
min
i 1
yi w, xi w0 1 i , i 1,..., l
0, i 1,..., l
i
1
при
2C
48
CS MSU Graphics & Media Lab (Video Group)
49. Only for
SVM
Maxus
Линейно неразделимая выборка
Соответствующая функция Лагранжа:
L( w, w0 , , , ) w, w i yi w, xi w0 1
l
1
2 i 1
l
i (i i C ) min max
w, w0
i 1
49
CS MSU Graphics & Media Lab (Video Group)
50. Only for
SVM
Maxus
Линейно неразделимая выборка
Задача поиска седловой точки:
L( w, w0 , , , ) min max
w, w0 , ,
i 0, i 0, i 0, i 1,..., l
i 0, либо yi w, xi w0 1 i , i 1,..., l
i 0, либо i 0, i 1,..., l
50
CS MSU Graphics & Media Lab (Video Group)
51. Only for
SVM
Maxus
Спрямляющие пространства
Ещѐ один способ решения проблемы
линейной неразделимости:
переход из пространства объектов X в
пространство H с помощью преобразования
ψ: X → H
Пространство H называется спрямляющим
SVM строится так же, только на основе
объектов ψ(xi) вместо xi.
K ( x, x) ( x), ( x) - ядровая функция
51
CS MSU Graphics & Media Lab (Video Group)
52. Only for
SVM
Maxus
Выводы
Преимущества:
Решение задачи хорошо оптимизируется:
сводится к задаче квадратичного
программирования
Более уверенная классификация за счѐт
максимизации ширины разделяющей полосы
Недостатки:
Неустойчивость к шуму, выбросы существенно
учитываются
Нет общих методов построения ядер или
спрямляющих пространств
52
CS MSU Graphics & Media Lab (Video Group)
53. Only for
Maxus
Содержание
Введение
Дерево решений
Статистические алгоритмы
Метрические алгоритмы
SVM
AdaBoost
53
CS MSU Graphics & Media Lab (Video Group)
54. Only for
AdaBoost
Maxus
Постановка задачи
Классификация на два класса: Y = {-1,+1}
bt(x) – некоторые базовые алгоритмы
Искомый алгоритм – взвешенная сумма
базовых:
T
a( x) sgn( t bt ( x)), x X
t 1
Функционал качества композиции:
l
T
QT yi t bt ( xi ) 0
t 1 t 1
54
CS MSU Graphics & Media Lab (Video Group)
55. Only for
Maxus
AdaBoost
Упрощение задачи минимизации
функционала Qt:
Эвристика 1: при добавлении в
композицию нового слагаемого
оптимизировать только его, не трогая
предыдущих
Эвристика 2: аппроксимировать пороговую
функцию потерь в Qt непрерывно
дифференцируемой оценкой сверху.
55
CS MSU Graphics & Media Lab (Video Group)
56. Only for
Maxus
AdaBoost
Аппроксимация экспонентой:
~ l
T
Qt Qt exp yi t bt ( xi )
i 1 t 1
l
T 1
exp yi t bt ( xi ) exp( yi T bT ( xi ))
i 1
1
t
wi
Введѐм нормированный вектор весов объектов:
~l ~ ~ ~ wi
W ( w1 ,..., wl ), wi
l
j 1
wj
56
CS MSU Graphics & Media Lab (Video Group)
57. Only for
Maxus
AdaBoost
Теорема 1: l
l
Q(b,U l ) ui [ yi b( xi ) 0], ui 1
i 1 i 1
l
min Q(b,W l ) 1 / 2, W l : w 1
b
i
i 1
Тогда:
~l
bT arg min Q(b, W )
b
~l
1 1 Q(bT , W )
T ln ~l
2 Q(bT , W )
57
CS MSU Graphics & Media Lab (Video Group)
58. Only for
Maxus
AdaBoost
Теорема 2:
Если существует 0 такое, что на
~l
каждом шаге Q(bt ,W ) 1 / 2 , то
AdaBoost гарантирует построение
корректного алгоритма a(x) за конечное
число шагов.
58
CS MSU Graphics & Media Lab (Video Group)
59. Only for
AdaBoost
Maxus
Алгоритм обучения
1. инициализация весов объектов: wi := 1/l, i = 1, …,l
2. для всех l = 1,…,T, пока не выполнен критерий
останова
3. bt : arg min Q(b,W l )
b
1 1 Q(bt ,W l )
4. t : ln
2 Q(bt ,W l )
5. пересчѐт весов объектов: wi := wiexp(-αtyibt(xi)),
i = 1, …,l
w0 : j 1 w j
l
6. нормировка весов объектов:
wi : wi / w0 , i 1,..., l
59
CS MSU Graphics & Media Lab (Video Group)
60. Only for
AdaBoost
Maxus
Выводы
Достоинства:
Хорошая обобщающая способность
Простота реализации
Возможность идентификации выбросов по
высокому значению wi
Недостатки:
Переобучение при значительном уровне шума
Требует длинных выборок
Может привести к построению громоздких
композиций
60
CS MSU Graphics & Media Lab (Video Group)
61. Only for
Maxus
Литература
1. Курс лекций К.В. Воронцова по машинному обучений (2007-2008)
http://www.machinelearning.ru/wiki/index.php?title=Машинное_обуче
ние_(курс_лекций%2C_К.В.Воронцов)
2. Л.Шапиро, Дж.Стокман «Компьютерное зрение», глава 4, С.126-167
61
CS MSU Graphics & Media Lab (Video Group)