Successfully reported this slideshow.
Your SlideShare is downloading. ×

К.В. Воронцов "Метрические методы классификации"

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 31 Ad

К.В. Воронцов "Метрические методы классификации"

Download to read offline

К.В. Воронцов "Метрические методы классификации", 13.03.2012, место показа МФТИ, Школа анализа данных (ШАД)

К.В. Воронцов "Метрические методы классификации", 13.03.2012, место показа МФТИ, Школа анализа данных (ШАД)

Advertisement
Advertisement

More Related Content

Similar to К.В. Воронцов "Метрические методы классификации" (9)

More from Yandex (20)

Advertisement

К.В. Воронцов "Метрические методы классификации"

  1. 1. Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контроль Метрические методы классификации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.MachineLearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» март 2011 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 1 / 31
  2. 2. Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контроль Содержание 1 Метрические алгоритмы классификации Гипотеза компактности Метод ближайших соседей и его обобщения Снова метод парзеновского окна Метод потенциальных функций 2 Отбор эталонов и оптимизация метрики Понятие отступа Алгоритм отбора эталонных объектов STOLP Понятие конкурентного сходства Простой жадный алгоритм оптимизации метрики 3 Профиль компактности и скользящий контроль Полный скользящий контроль CCV Понятие профиля компактности Отбор эталонов по функционалу CCV К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 2 / 31
  3. 3. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Гипотеза компактности Задача классификации: X — объекты, Y — ответы (идентификаторы классов); X ℓ = (xi , yi )i=1 — обучающая выборка; ℓ Гипотеза компактности: Схожие объекты, как правило, лежат в одном классе. Формализация понятия «сходства»: Задана функция расстояния ρ : X × X → [0, ∞). Например, евклидово расстояние: n 1/2 2 ρ(u, xi ) = j u − xij , j=1 где u = (u 1 , . . . , u n ), xi = (xi1 , . . . , xin ) — признаковые описания объектов. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 3 / 31
  4. 4. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Пример: задача классификации цветков ириса [Фишер, 1936] n = 4 признака, |Y | = 3 класса, длина выборки ℓ = 150. длина чашелистика ширина чашелистика длина лепестка ширина лепестка 7 6 5 4 3 2 6 4 2 2 1 0 5 6 7 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5 Iris-setosa Iris-versicolor Iris-virginica К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 4 / 31
  5. 5. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Обобщённый метрический классификатор Для произвольного u ∈ X отсортируем объекты x1 , . . . , xℓ : (1) (2) (ℓ) ρ(u, xu ) ρ(u, xu ) ··· ρ(u, xu ), (i) xu — i-й сосед объекта u среди x1 , . . . , xℓ ; (i) yu — ответ на i-м соседе объекта u. Метрический алгоритм классификации: ℓ (i) a(u; X ℓ ) = arg max yu = y w (i, u), y ∈Y i=1 Γy (u,X ℓ ) w (i, u) — вес (степень важности) i-го соседа объекта u, неотрицателен, не возрастает по i. Γy (u, X ℓ ) — оценка близости объекта u к классу y . К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 5 / 31
  6. 6. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод ближайшего соседа w (i, u) = [i=1]. Преимущества: простота реализации; интерпретируемость решений, вывод на основе прецедентов (case-based reasoning, CBR) Недостатки: неустойчивость к погрешностям (шуму, выбросам); отсутствие настраиваемых параметров; низкое качество классификации; приходится хранить всю выборку целиком. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 6 / 31
  7. 7. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод k ближайших соседей w (i, u) = [i k]. Преимущества: менее чувствителен к шуму; появился параметр k. Оптимизация числа соседей k: функционал скользящего контроля leave-one-out ℓ LOO(k, X ℓ ) = a xi ; X ℓ {xi }, k = yi → min . k i=1 Проблема: неоднозначность классификации при Γy (u, X ℓ ) = Γs (u, X ℓ ), y = s. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 7 / 31
  8. 8. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Пример зависимости LOO(k) Пример. Задача UCI: Breast Cancer (Wisconsin) частота ошибок на обучении и контроле (исключая и не исключая себя) 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 число соседей k — смещённое число ошибок, когда объект учитывается как сосед самого себя — несмещённое число ошибок LOO В реальных задачах минимум редко бывает при k = 1. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 8 / 31
  9. 9. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод k взвешенных ближайших соседей w (i, u) = [i k]wi , где wi — вес, зависящий только от номера соседа; Возможные эвристики: wi = k+1−i — линейное убывающие веса; k wi = q i — экспоненциально убывающие веса, 0 < q < 1; Проблемы: как более обоснованно задать веса? возможно, было бы лучше, если бы вес w (i, u) зависел не от порядкового номера соседа i, (i) а от расстояния до него ρ(u, xu ). К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 9 / 31
  10. 10. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Снова метод парзеновского окна (i) w (i, u) = K ρ(u,xu ) , h где K (r ) — ядро, невозрастающее, положительное на [0, 1]. Метод парзеновского окна фиксированной ширины: ℓ (i) (i) ρ(u, xu ) a(u; X ℓ , h, K ) = arg max [yu = y ] K . y ∈Y h i=1 w (i,u) Метод парзеновского окна переменной ширины: ℓ (i) (i) ρ(u, xu ) a(u; X ℓ , k, K ) = arg max [yu = y ] K (k+1) . y ∈Y ρ(u, xu ) i=1 w (i,u) К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 10 / 31
  11. 11. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод парзеновского окна Пример: классификация двумерной выборки. 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 -0.5 -1.0 -1.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 11 / 31
  12. 12. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод потенциальных функций (i) (i) ρ(u,xu ) w (i, u) = γu K (i) hu Более простая запись: ℓ ρ(u, xi ) a(u; X ℓ ) = arg max [yi = y ] γi K , y ∈Y hi i=1 где γi — веса объектов, γi 0, hi > 0. Физическая аналогия: γi — величина «заряда» в точке xi ; hi — «радиус действия» потенциала с центром в точке xi ; yi — знак «заряда» (предполагается, что Y = {−1, +1}); в электростатике K (r ) = 1 или r +a . r 1 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 12 / 31
  13. 13. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Алгоритм настройки весов объектов Простой эвристический алгоритм настройки γi . Вход: X ℓ — обучающая выборка; Выход: Коэффициенты γi , i = 1, . . . , ℓ; 1: Инициализация: γi = 0 для всех i = 1, . . . , ℓ; 2: повторять 3: выбрать объект xi ∈ X ℓ ; 4: если a(xi ) = yi то 5: γi := γi + 1; 6: пока число ошибок на выборке Q(a, X ℓ ) > ε. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 13 / 31
  14. 14. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Анализ преимуществ и недостатков Преимущества: простота реализации; не надо хранить выборку (потоковый алгоритм обучения); разреженность: не все обучающие объекты учитываются. Недостатки: медленная сходимость; результат обучения зависит от порядка просмотра объектов; слишком грубо настраиваются веса γi ; вообще не настраиваются параметры hi ; вообще не настраиваются центры потенциалов; может, некоторые γi можно было бы обнулить? Вывод: EM-RBF, конечно, круче... К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 14 / 31
  15. 15. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Понятие отступа Рассмотрим классификатор a : X → Y вида a(u) = arg max Γy (u), u ∈ X. y ∈Y Отступом (margin) объекта xi ∈ X ℓ относительно классификатора a(u) называется величина M(xi ) = Γyi (xi ) − max Γy (xi ). y ∈Y yi Отступ показывает степень типичности объекта: чем больше M(xi ), тем «глубже» xi в своём классе; M(xi ) < 0 ⇔ a(xi ) = yi ; К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 15 / 31
  16. 16. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Типы объектов, в зависимости от отступа Э — эталонные (можно оставить только их); Н — неинформативные (можно удалить из выборки); П — пограничные (их классификация неустойчива); О — ошибочные (причина ошибки — плохая модель); Ш — шумовые (причина ошибки — плохие данные). Margin 0,8 0,6 0,4 0,2 ɒ Ɉ ɉ ɇ ɗ 0 -0,2 -0,4 -0,6 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 i К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 16 / 31
  17. 17. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Типы объектов, в зависимости от отступа эталонные (можно оставить только их); неинформативные (можно удалить из выборки); пограничные (их классификация неустойчива); ошибочные (причина ошибки — плохая модель); шумовые (причина ошибки — плохие данные). Идея: шумовые и неинформативные удалить из выборки. Алгоритм STOLP: основная идея исключить выбросы; найти по одному эталону в каждом классе; добавлять эталоны, пока есть отрицательные отступы; К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 17 / 31
  18. 18. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Алгоритм STOLP Вход: X ℓ — обучающая выборка; δ — порог фильтрации выбросов; ℓ0 — допустимая доля ошибок; Выход: Множество опорных объектов Ω ⊆ X ℓ ; Классификатор будет иметь вид: (i) a(u; Ω) = arg max yu = y w (i, u), y ∈Y xi ∈Ω (i) xu — i-й сосед объекта u среди Ω; (i) yu — ответ на i-м соседе объекта u; w (i, u) — произвольная функция веса i-го соседа. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 18 / 31
  19. 19. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Алгоритм STOLP 1: для всех xi ∈ X ℓ проверить, является ли xi выбросом: 2: если M(xi , X ℓ ) < δ то 3: X ℓ−1 := X ℓ {xi }; ℓ := ℓ − 1; 4: Инициализация: взять по одному эталону от каждого класса: Ω := arg max M(xi , X ℓ ) y ∈ Y ; xi ∈Xy ℓ 5: пока Ω =X ℓ; 6: Выделить множество объектов с ошибкой a(u; Ω): E := {xi ∈ X ℓ Ω : M(xi , Ω) < 0}; 7: если |E | < ℓ0 то 8: выход; 9: Присоединить к Ω объект с наименьшим отступом: xi := arg min M(x, Ω); Ω := Ω ∪ {xi }; x∈E К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 19 / 31
  20. 20. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Алгоритм STOLP: преимущества и недостатки Преимущества отбора эталонов: сокращается число хранимых объектов; сокращается время классификации; объекты распределяются по величине отступов; Недостатки алгоритма STOLP: необходимость задавать параметр δ; относительно низкая эффективность O(|Ω|2 ℓ). Другие методы отбора: стратегия последовательного удаления не-эталонов; минимизация полного скользящего контроля (CCV); FRiS-STOLP на основе оценок конкурентного сходства. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 20 / 31
  21. 21. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Оценка близости i-го объекта к своему классу Среднее расстояние до k ближайших объектов... ri = r (xi , yi ) — из своего класса; ¯i = r (xi , yi ) — из всех остальных классов; r ¯ Функция конкурентного сходства (function of rival similarity, FRiS-функция)  ¯i − ri r +1, объект близок к своим;  di = ≈ 0, объект пограничный; ¯i + ri r   −1, объект близок к чужим; Назовём di благонадёжностью объекта xi . Как и отступ, di — это характеристика типичности объекта относительно выборки. Преимущество — di величина безразмерная и нормированная. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 21 / 31
  22. 22. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Благонадёжность выборки Суммарная благонадёжность выборки характеризует то, насколько функция расстояния ρ подходит для данной задачи ℓ ℓ ¯i − ri r D(ρ) = di = ¯i + ri r i=1 i=1 распределение объектов по благонадёжности di 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 0 20 40 60 80 100 120 140 160 180 200 i К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 22 / 31
  23. 23. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Жадное добавление признаков 1. А вдруг одного признака уже достаточно? Расстояние по j-му признаку: ρj (u, xi ) = u j − xij . Выберем наиболее благонадёжное расстояние: D(ρj ) → max. j 2. Пусть уже есть расстояние ρ. Попробуем добавить к нему ещё один признак j. ρjt (u, xi ) = (1 − t) · ρ(u, xi ) + t · ρj (u, xi ). Найдём t ∈ [0, 1] и признак j, при которых благонадёжность D(ρjt ) максимальна (два вложенных цикла перебора). 3. Будем добавлять признаки до тех пор, пока благонадёжность D(ρjt ) увеличивается. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 23 / 31
  24. 24. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Полный скользящий контроль CCV Функционал полного скользящего контроля (complete cross-validation, CCV): 1 1 CCV(X L ) = ℓ a(xi , X ℓ ) = yi , CL ℓ q q q xi ∈X X ⊔X где X ℓ ⊔ X q — все CL разбиений выборки X L на обучающую ℓ подвыборку X ℓ и контрольную X q . Замечание 1. При q = 1 имеем: CCV(X L ) = LOO(X L ). Замечание 2. CCV характеризует лишь среднюю частоту ошибок, но не учитывает её разброс. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 24 / 31
  25. 25. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Понятие профиля компактности Определение Профиль компактности выборки X L — это функция доли (m) объектов xi , у которых m-й сосед xi лежит в другом классе: L L 1 (m) K (m, X ) = y i = yi ; m = 1, . . . , L − 1, L i=1 (m) где xi — m-й сосед объекта xi среди X L ; (m) yi — ответ на m-м соседе объекта xi . Теорема (точное выражение CCV для метода 1NN) k ℓ−1 L CL−1−m CCV(X ) = K (m, X L ) ℓ . m=1 CL−1 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 25 / 31
  26. 26. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Профили компактности для серии модельных задач 1.0 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 1.0 0.8 0.6 0.4 0.2 0 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 средний ряд: профили компактности, нижний ряд: зависимость CCV от длины контроля q. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 26 / 31
  27. 27. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Свойства профиля компактности и оценки CCV Выводы K (m, X L ) является формальным выражением гипотезы компактности, связывая её с качеством классификации. CCV практически не зависит от длины контроля q. Для минимизации CCV важен только начальный участок ℓ−1 CL−1−m профиля, т. к. ℓ CL−1 → 0 экспоненциально по m. Минимизация CCV приводит к эффективному отбору эталонных объектов, без переобучения. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 27 / 31
  28. 28. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Модельные данные 13 12 11 10 9 8 7 8 9 10 11 12 13 14 15 16 17 18 Модельная задача классификации: 1000 объектов. Алгоритм 1NN К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 28 / 31
  29. 29. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Последовательный отсев не-эталонных объектов 13 12 11 10 9 8 7 8 9 10 11 12 13 14 15 16 17 18 эталонные кл.1 эталонные кл.2 шумовые кл.1 шумовые кл.2 неинформативные кл.1 неинформативные кл.2 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 29 / 31
  30. 30. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Последовательный отсев не-эталонных объектов 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 10 20 30 40 50 980 990 [0-60] [980-1000] функционал CCV на обучении частота ошибок на тесте Зависимость CCV от числа удаленных неэталонных объектов. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 30 / 31
  31. 31. Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контроль Резюме в конце лекции Метрические классификаторы — одни из самых простых. Качество классификации определяется качеством метрики. Что можно обучать: — число ближайших соседей k; — набор эталонов (prototype selection); — как вариант — веса объектов; — метрику (distance learning, similarity learning); — как частный случай — веса признаков. Распределение отступов делит объекты на эталонные, неинформативные, пограничные, ошибки и выбросы. Профиль компактности выборки позволяет судить о том, насколько удачно метрика подобрана под задачу. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 31 / 31

×