К.В. Воронцов "Метрические методы классификации"
Upcoming SlideShare
Loading in...5
×
 

К.В. Воронцов "Метрические методы классификации"

on

  • 6,349 views

К.В. Воронцов "Метрические методы классификации", 13.03.2012, место показа МФТИ, Школа анализа данных (ШАД)

К.В. Воронцов "Метрические методы классификации", 13.03.2012, место показа МФТИ, Школа анализа данных (ШАД)

Statistics

Views

Total Views
6,349
Views on SlideShare
5,428
Embed Views
921

Actions

Likes
2
Downloads
189
Comments
0

3 Embeds 921

http://shad.yandex.ru 915
http://school-wiki.yandex.ru 3
http://shad.yandex.ua 3

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

К.В. Воронцов "Метрические методы классификации" К.В. Воронцов "Метрические методы классификации" Presentation Transcript

  • Метрические алгоритмы классификации Отбор эталонов и оптимизация метрикиПрофиль компактности и скользящий контроль Метрические методы классификации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.MachineLearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» март 2011 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 1 / 31
  • Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контрольСодержание 1 Метрические алгоритмы классификации Гипотеза компактности Метод ближайших соседей и его обобщения Снова метод парзеновского окна Метод потенциальных функций 2 Отбор эталонов и оптимизация метрики Понятие отступа Алгоритм отбора эталонных объектов STOLP Понятие конкурентного сходства Простой жадный алгоритм оптимизации метрики 3 Профиль компактности и скользящий контроль Полный скользящий контроль CCV Понятие профиля компактности Отбор эталонов по функционалу CCV К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 2 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийГипотеза компактности Задача классификации: X — объекты, Y — ответы (идентификаторы классов); X ℓ = (xi , yi )i=1 — обучающая выборка; ℓ Гипотеза компактности: Схожие объекты, как правило, лежат в одном классе. Формализация понятия «сходства»: Задана функция расстояния ρ : X × X → [0, ∞). Например, евклидово расстояние: n 1/2 2 ρ(u, xi ) = j u − xij , j=1 где u = (u 1 , . . . , u n ), xi = (xi1 , . . . , xin ) — признаковые описания объектов. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 3 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийПример: задача классификации цветков ириса [Фишер, 1936] n = 4 признака, |Y | = 3 класса, длина выборки ℓ = 150. длина чашелистика ширина чашелистика длина лепестка ширина лепестка 7 6 5 4 3 2 6 4 2 2 1 0 5 6 7 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5 Iris-setosa Iris-versicolor Iris-virginica К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 4 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийОбобщённый метрический классификатор Для произвольного u ∈ X отсортируем объекты x1 , . . . , xℓ : (1) (2) (ℓ) ρ(u, xu ) ρ(u, xu ) ··· ρ(u, xu ), (i) xu — i-й сосед объекта u среди x1 , . . . , xℓ ; (i) yu — ответ на i-м соседе объекта u. Метрический алгоритм классификации: ℓ (i) a(u; X ℓ ) = arg max yu = y w (i, u), y ∈Y i=1 Γy (u,X ℓ ) w (i, u) — вес (степень важности) i-го соседа объекта u, неотрицателен, не возрастает по i. Γy (u, X ℓ ) — оценка близости объекта u к классу y . К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 5 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийМетод ближайшего соседа w (i, u) = [i=1]. Преимущества: простота реализации; интерпретируемость решений, вывод на основе прецедентов (case-based reasoning, CBR) Недостатки: неустойчивость к погрешностям (шуму, выбросам); отсутствие настраиваемых параметров; низкое качество классификации; приходится хранить всю выборку целиком. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 6 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийМетод k ближайших соседей w (i, u) = [i k]. Преимущества: менее чувствителен к шуму; появился параметр k. Оптимизация числа соседей k: функционал скользящего контроля leave-one-out ℓ LOO(k, X ℓ ) = a xi ; X ℓ {xi }, k = yi → min . k i=1 Проблема: неоднозначность классификации при Γy (u, X ℓ ) = Γs (u, X ℓ ), y = s. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 7 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийПример зависимости LOO(k) Пример. Задача UCI: Breast Cancer (Wisconsin) частота ошибок на обучении и контроле (исключая и не исключая себя) 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 число соседей k — смещённое число ошибок, когда объект учитывается как сосед самого себя — несмещённое число ошибок LOO В реальных задачах минимум редко бывает при k = 1. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 8 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийМетод k взвешенных ближайших соседей w (i, u) = [i k]wi , где wi — вес, зависящий только от номера соседа; Возможные эвристики: wi = k+1−i — линейное убывающие веса; k wi = q i — экспоненциально убывающие веса, 0 < q < 1; Проблемы: как более обоснованно задать веса? возможно, было бы лучше, если бы вес w (i, u) зависел не от порядкового номера соседа i, (i) а от расстояния до него ρ(u, xu ). К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 9 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийСнова метод парзеновского окна (i) w (i, u) = K ρ(u,xu ) , h где K (r ) — ядро, невозрастающее, положительное на [0, 1]. Метод парзеновского окна фиксированной ширины: ℓ (i) (i) ρ(u, xu ) a(u; X ℓ , h, K ) = arg max [yu = y ] K . y ∈Y h i=1 w (i,u) Метод парзеновского окна переменной ширины: ℓ (i) (i) ρ(u, xu ) a(u; X ℓ , k, K ) = arg max [yu = y ] K (k+1) . y ∈Y ρ(u, xu ) i=1 w (i,u) К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 10 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийМетод парзеновского окна Пример: классификация двумерной выборки. 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 -0.5 -1.0 -1.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 11 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийМетод потенциальных функций (i) (i) ρ(u,xu ) w (i, u) = γu K (i) hu Более простая запись: ℓ ρ(u, xi ) a(u; X ℓ ) = arg max [yi = y ] γi K , y ∈Y hi i=1 где γi — веса объектов, γi 0, hi > 0. Физическая аналогия: γi — величина «заряда» в точке xi ; hi — «радиус действия» потенциала с центром в точке xi ; yi — знак «заряда» (предполагается, что Y = {−1, +1}); в электростатике K (r ) = 1 или r +a . r 1 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 12 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийАлгоритм настройки весов объектов Простой эвристический алгоритм настройки γi . Вход: X ℓ — обучающая выборка; Выход: Коэффициенты γi , i = 1, . . . , ℓ; 1: Инициализация: γi = 0 для всех i = 1, . . . , ℓ; 2: повторять 3: выбрать объект xi ∈ X ℓ ; 4: если a(xi ) = yi то 5: γi := γi + 1; 6: пока число ошибок на выборке Q(a, X ℓ ) > ε. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 13 / 31
  • Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функцийАнализ преимуществ и недостатков Преимущества: простота реализации; не надо хранить выборку (потоковый алгоритм обучения); разреженность: не все обучающие объекты учитываются. Недостатки: медленная сходимость; результат обучения зависит от порядка просмотра объектов; слишком грубо настраиваются веса γi ; вообще не настраиваются параметры hi ; вообще не настраиваются центры потенциалов; может, некоторые γi можно было бы обнулить? Вывод: EM-RBF, конечно, круче... К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 14 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиПонятие отступа Рассмотрим классификатор a : X → Y вида a(u) = arg max Γy (u), u ∈ X. y ∈Y Отступом (margin) объекта xi ∈ X ℓ относительно классификатора a(u) называется величина M(xi ) = Γyi (xi ) − max Γy (xi ). y ∈Y yi Отступ показывает степень типичности объекта: чем больше M(xi ), тем «глубже» xi в своём классе; M(xi ) < 0 ⇔ a(xi ) = yi ; К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 15 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиТипы объектов, в зависимости от отступа Э — эталонные (можно оставить только их); Н — неинформативные (можно удалить из выборки); П — пограничные (их классификация неустойчива); О — ошибочные (причина ошибки — плохая модель); Ш — шумовые (причина ошибки — плохие данные). Margin 0,8 0,6 0,4 0,2 ɒ Ɉ ɉ ɇ ɗ 0 -0,2 -0,4 -0,6 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 i К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 16 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиТипы объектов, в зависимости от отступа эталонные (можно оставить только их); неинформативные (можно удалить из выборки); пограничные (их классификация неустойчива); ошибочные (причина ошибки — плохая модель); шумовые (причина ошибки — плохие данные). Идея: шумовые и неинформативные удалить из выборки. Алгоритм STOLP: основная идея исключить выбросы; найти по одному эталону в каждом классе; добавлять эталоны, пока есть отрицательные отступы; К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 17 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиАлгоритм STOLP Вход: X ℓ — обучающая выборка; δ — порог фильтрации выбросов; ℓ0 — допустимая доля ошибок; Выход: Множество опорных объектов Ω ⊆ X ℓ ; Классификатор будет иметь вид: (i) a(u; Ω) = arg max yu = y w (i, u), y ∈Y xi ∈Ω (i) xu — i-й сосед объекта u среди Ω; (i) yu — ответ на i-м соседе объекта u; w (i, u) — произвольная функция веса i-го соседа. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 18 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиАлгоритм STOLP 1: для всех xi ∈ X ℓ проверить, является ли xi выбросом: 2: если M(xi , X ℓ ) < δ то 3: X ℓ−1 := X ℓ {xi }; ℓ := ℓ − 1; 4: Инициализация: взять по одному эталону от каждого класса: Ω := arg max M(xi , X ℓ ) y ∈ Y ; xi ∈Xy ℓ 5: пока Ω =X ℓ; 6: Выделить множество объектов с ошибкой a(u; Ω): E := {xi ∈ X ℓ Ω : M(xi , Ω) < 0}; 7: если |E | < ℓ0 то 8: выход; 9: Присоединить к Ω объект с наименьшим отступом: xi := arg min M(x, Ω); Ω := Ω ∪ {xi }; x∈E К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 19 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиАлгоритм STOLP: преимущества и недостатки Преимущества отбора эталонов: сокращается число хранимых объектов; сокращается время классификации; объекты распределяются по величине отступов; Недостатки алгоритма STOLP: необходимость задавать параметр δ; относительно низкая эффективность O(|Ω|2 ℓ). Другие методы отбора: стратегия последовательного удаления не-эталонов; минимизация полного скользящего контроля (CCV); FRiS-STOLP на основе оценок конкурентного сходства. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 20 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиОценка близости i-го объекта к своему классу Среднее расстояние до k ближайших объектов... ri = r (xi , yi ) — из своего класса; ¯i = r (xi , yi ) — из всех остальных классов; r ¯ Функция конкурентного сходства (function of rival similarity, FRiS-функция)  ¯i − ri r +1, объект близок к своим;  di = ≈ 0, объект пограничный; ¯i + ri r   −1, объект близок к чужим; Назовём di благонадёжностью объекта xi . Как и отступ, di — это характеристика типичности объекта относительно выборки. Преимущество — di величина безразмерная и нормированная. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 21 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиБлагонадёжность выборки Суммарная благонадёжность выборки характеризует то, насколько функция расстояния ρ подходит для данной задачи ℓ ℓ ¯i − ri r D(ρ) = di = ¯i + ri r i=1 i=1 распределение объектов по благонадёжности di 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 0 20 40 60 80 100 120 140 160 180 200 i К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 22 / 31
  • Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрикиЖадное добавление признаков 1. А вдруг одного признака уже достаточно? Расстояние по j-му признаку: ρj (u, xi ) = u j − xij . Выберем наиболее благонадёжное расстояние: D(ρj ) → max. j 2. Пусть уже есть расстояние ρ. Попробуем добавить к нему ещё один признак j. ρjt (u, xi ) = (1 − t) · ρ(u, xi ) + t · ρj (u, xi ). Найдём t ∈ [0, 1] и признак j, при которых благонадёжность D(ρjt ) максимальна (два вложенных цикла перебора). 3. Будем добавлять признаки до тех пор, пока благонадёжность D(ρjt ) увеличивается. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 23 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVПолный скользящий контроль CCV Функционал полного скользящего контроля (complete cross-validation, CCV): 1 1 CCV(X L ) = ℓ a(xi , X ℓ ) = yi , CL ℓ q q q xi ∈X X ⊔X где X ℓ ⊔ X q — все CL разбиений выборки X L на обучающую ℓ подвыборку X ℓ и контрольную X q . Замечание 1. При q = 1 имеем: CCV(X L ) = LOO(X L ). Замечание 2. CCV характеризует лишь среднюю частоту ошибок, но не учитывает её разброс. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 24 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVПонятие профиля компактности Определение Профиль компактности выборки X L — это функция доли (m) объектов xi , у которых m-й сосед xi лежит в другом классе: L L 1 (m) K (m, X ) = y i = yi ; m = 1, . . . , L − 1, L i=1 (m) где xi — m-й сосед объекта xi среди X L ; (m) yi — ответ на m-м соседе объекта xi . Теорема (точное выражение CCV для метода 1NN) k ℓ−1 L CL−1−m CCV(X ) = K (m, X L ) ℓ . m=1 CL−1 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 25 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVПрофили компактности для серии модельных задач 1.0 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 1.0 0.8 0.6 0.4 0.2 0 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 средний ряд: профили компактности, нижний ряд: зависимость CCV от длины контроля q. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 26 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVСвойства профиля компактности и оценки CCVВыводы K (m, X L ) является формальным выражением гипотезы компактности, связывая её с качеством классификации. CCV практически не зависит от длины контроля q. Для минимизации CCV важен только начальный участок ℓ−1 CL−1−m профиля, т. к. ℓ CL−1 → 0 экспоненциально по m. Минимизация CCV приводит к эффективному отбору эталонных объектов, без переобучения. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 27 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVМодельные данные 13 12 11 10 9 8 7 8 9 10 11 12 13 14 15 16 17 18 Модельная задача классификации: 1000 объектов. Алгоритм 1NN К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 28 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVПоследовательный отсев не-эталонных объектов 13 12 11 10 9 8 7 8 9 10 11 12 13 14 15 16 17 18 эталонные кл.1 эталонные кл.2 шумовые кл.1 шумовые кл.2 неинформативные кл.1 неинформативные кл.2 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 29 / 31
  • Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCVПоследовательный отсев не-эталонных объектов 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 10 20 30 40 50 980 990 [0-60] [980-1000] функционал CCV на обучении частота ошибок на тесте Зависимость CCV от числа удаленных неэталонных объектов. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 30 / 31
  • Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контрольРезюме в конце лекции Метрические классификаторы — одни из самых простых. Качество классификации определяется качеством метрики. Что можно обучать: — число ближайших соседей k; — набор эталонов (prototype selection); — как вариант — веса объектов; — метрику (distance learning, similarity learning); — как частный случай — веса признаков. Распределение отступов делит объекты на эталонные, неинформативные, пограничные, ошибки и выбросы. Профиль компактности выборки позволяет судить о том, насколько удачно метрика подобрана под задачу. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 31 / 31