Методы классификации         Андрей Федоровский        fedorovsky@gmail.com
А. Федоровский Методы классификации  Что такое классификация?Классификация – обучение с учителем.Известно, к каким классам...
А. Федоровский Методы классификации    Примеры примененияРаспознавание символовАнтиспамКатегоризация текстовАнализ профиле...
А. Федоровский Методы классификацииПостановка задачи
А. Федоровский Методы классификацииВыбобр признаков
А. Федоровский Методы классификации         Байес? Нет, спасибо.Классика, но работает не очень эффективно.Если интересно –...
А. Федоровский Методы классификацииK ближайших соседей         Классом объекта считаем         тот класс, представителей  ...
А. Федоровский Методы классификации       K ближайших соседей• K можно и нужно настраивать. Можно автоматически,  тогда эт...
А. Федоровский Методы классификации    Предобработка данныхКак снизить размерность, если мы имеемдокументы как вектора в п...
А. Федоровский Методы классификацииДеревья принятия решений                    Строится дерево по                    значе...
А. Федоровский Методы классификацииДеревья принятия решений
А. Федоровский Методы классификацииДеревья принятия решений  Темпер.   Ветер   Осадки    Влажно   Хорошо?  Выс       Нет  ...
А. Федоровский Методы классификации Деревья принятия решений• Если признак – наличие слова в документе, то  дерево получит...
А. Федоровский Методы классификацииДеревья принятия решений
А. Федоровский Методы классификации                  PruningПереобучение (overfitting) – подгонка параметровпод особенност...
А. Федоровский Методы классификации            ВопросДеревья решений – слабый классификатор.Почему же его используют?
А. Федоровский Методы классификации                                      Boosting* Здесь в главе 7.2 чуть более громоздкое...
А. Федоровский Методы классификацииBoosting
А. Федоровский Методы классификации            BoostingAdaBoost:
А. Федоровский Методы классификацииRandom forest
А. Федоровский Методы классификацииМетод опорных векторов (SVM)
А. Федоровский Методы классификацииМетод опорных векторов (SVM)
А. Федоровский Методы классификацииМетод опорных векторов (SVM)
А. Федоровский Методы классификацииМетод опорных векторов (SVM)
А. Федоровский Методы классификацииМетод опорных векторов (SVM)
А. Федоровский Методы классификацииМетод опорных векторов (SVM)
А. Федоровский Методы классификацииSVM: линейно разделимый случайРешение сложное. Реализация – SVMlight, libSVM.
А. Федоровский Методы классификацииSVM: штрафы за ошибки                 Реальные данные                 почти всегда лине...
А. Федоровский Методы классификацииSVM: штрафы за ошибки
А. Федоровский Методы классификацииSVM: ядра
А. Федоровский Методы классификацииМультиклассовая классификация
А. Федоровский Методы классификации            ОнлайновостьДобавление новых объектов в обучающую выборкубез пересчета всей...
А. Федоровский Методы классификации             ПереобучениеTraining set, validation set, test set.Уменьшение размерности ...
А. Федоровский Методы классификации                        Выбор метода                  kNN   kNN+     DT+         DT(пни...
А. Федоровский Методы классификации                  Памятка•   Парсинг, предобработка данных•   Мультиклассовая классифик...
Вопросы?   Андрей Федоровский  fedorovsky@gmail.com
Upcoming SlideShare
Loading in …5
×

Методы классификации

1,489 views

Published on

Семинар прошел в московском хакспейсе Neuron в августе 2012.

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,489
On SlideShare
0
From Embeds
0
Number of Embeds
28
Actions
Shares
0
Downloads
25
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Методы классификации

  1. 1. Методы классификации Андрей Федоровский fedorovsky@gmail.com
  2. 2. А. Федоровский Методы классификации Что такое классификация?Классификация – обучение с учителем.Известно, к каким классам относятсяобъекты из обучающего набора.Нужно определить, к какому классуотносится новый объект.
  3. 3. А. Федоровский Методы классификации Примеры примененияРаспознавание символовАнтиспамКатегоризация текстовАнализ профилей пользователейПравила выдачи кредита
  4. 4. А. Федоровский Методы классификацииПостановка задачи
  5. 5. А. Федоровский Методы классификацииВыбобр признаков
  6. 6. А. Федоровский Методы классификации Байес? Нет, спасибо.Классика, но работает не очень эффективно.Если интересно – он описан в Википедии:http://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор
  7. 7. А. Федоровский Методы классификацииK ближайших соседей Классом объекта считаем тот класс, представителей которого больше всего среди его k ближайших соседей. Критерий ошибки – доля неправильно предсказанных классов.
  8. 8. А. Федоровский Методы классификации K ближайших соседей• K можно и нужно настраивать. Можно автоматически, тогда это простейшая задача оптимизации.• Если самым близким соседям приписать бОльшие веса, качество вырастет.• Нет затрат на фазу построения.Проблемы:• Разные классы при разных k.• Поиск ближайших – перебор всех за O(dN). http://simsearch.yury.name/references.html• При очень больших d понижается точность. Надо снижать размерность.
  9. 9. А. Федоровский Методы классификации Предобработка данныхКак снизить размерность, если мы имеемдокументы как вектора в пространстве термов?Выбирать только «нужные» слова.• Стоп-слова• Низкочастотный шум• Веса для слов в важных зонах документаЕсть и продвинутые техники:• Information Gain термов,• feature extraction.
  10. 10. А. Федоровский Методы классификацииДеревья принятия решений Строится дерево по значениям признаков, до тех пор, пока не останется нелистовых узлов.
  11. 11. А. Федоровский Методы классификацииДеревья принятия решений
  12. 12. А. Федоровский Методы классификацииДеревья принятия решений Темпер. Ветер Осадки Влажно Хорошо? Выс Нет Нет Да Нет Низ Есть Есть Нет Нет Низ Нет Есть Да Нет Выс Нет Есть Нет Да Выс Есть Нет Нет Да Выс Нет Нет Нет Да Выс Есть Нет Да Да Темпер: 4/1, 2/0 Ветер: 2/1, 2/2 Осадки: 2/1, 3/1 Влажно: 2/1, 3/1 У температуры наивысший Information gain. У ветра – наоборот.
  13. 13. А. Федоровский Методы классификации Деревья принятия решений• Если признак – наличие слова в документе, то дерево получится высоким, а энтропия будет падать очень медленно, т.к. мало слов, являющихся яркими маркерами класса.• Если есть признак с очень большим числом значений, то IG будет работать плохо, лучше выбрать GainRatio или Gini. Но это не наш случай.С5.0 (наследник C4.5, ID3) – GNU реализация DT.http://rulequest.com/see5-info.htmlЕсть множество кардинально ускоряющих эвристик.
  14. 14. А. Федоровский Методы классификацииДеревья принятия решений
  15. 15. А. Федоровский Методы классификации PruningПереобучение (overfitting) – подгонка параметровпод особенности тестовой выборки. На реальныхданных качество будет сильно хуже.Validation set – независимая выборка, на которой неидет обучение, но тестируется качество.Pruning – обрезка ветвей дерева, пока качество наvalidation set растет.
  16. 16. А. Федоровский Методы классификации ВопросДеревья решений – слабый классификатор.Почему же его используют?
  17. 17. А. Федоровский Методы классификации Boosting* Здесь в главе 7.2 чуть более громоздкое обобщение на несколько классов:http://www.boosting.org:10080/boosting.org/papers/MeiRae03.pdf/at_download/file
  18. 18. А. Федоровский Методы классификацииBoosting
  19. 19. А. Федоровский Методы классификации BoostingAdaBoost:
  20. 20. А. Федоровский Методы классификацииRandom forest
  21. 21. А. Федоровский Методы классификацииМетод опорных векторов (SVM)
  22. 22. А. Федоровский Методы классификацииМетод опорных векторов (SVM)
  23. 23. А. Федоровский Методы классификацииМетод опорных векторов (SVM)
  24. 24. А. Федоровский Методы классификацииМетод опорных векторов (SVM)
  25. 25. А. Федоровский Методы классификацииМетод опорных векторов (SVM)
  26. 26. А. Федоровский Методы классификацииМетод опорных векторов (SVM)
  27. 27. А. Федоровский Методы классификацииSVM: линейно разделимый случайРешение сложное. Реализация – SVMlight, libSVM.
  28. 28. А. Федоровский Методы классификацииSVM: штрафы за ошибки Реальные данные почти всегда линейно неразделимы. Добавим в оптимизационный функционал слагаемое с величиной штрафов.
  29. 29. А. Федоровский Методы классификацииSVM: штрафы за ошибки
  30. 30. А. Федоровский Методы классификацииSVM: ядра
  31. 31. А. Федоровский Методы классификацииМультиклассовая классификация
  32. 32. А. Федоровский Методы классификации ОнлайновостьДобавление новых объектов в обучающую выборкубез пересчета всей коллекции.Оценка объекта на лету за малое время.kNN? SVM? DT? Boost? RF?
  33. 33. А. Федоровский Методы классификации ПереобучениеTraining set, validation set, test set.Уменьшение размерности пространства признаков:аналог прунинга.Cross-validation: training set делится на 10 частей. Накаждом шаге одна из них является validation set, ана остальных идет обучение. Потом берется средняяоценка.
  34. 34. А. Федоровский Методы классификации Выбор метода kNN kNN+ DT+ DT(пни)+ RF SVM+ SVM+яд веса Pruning Boosting штрафы ра КачествоСкорость работы Скорость 0 0 построенияУстойчивость к выбору н.у. Настройка valid. set размер пня, ядра параметров вид выбора признаков Мультикласс. да да обобщ. обобщ. обобщ. нет нет Онлайн да да нет нет нет нет нет
  35. 35. А. Федоровский Методы классификации Памятка• Парсинг, предобработка данных• Мультиклассовая классификация?• Объект принадлежит единственному классу?• Пополнение онлайн?• Скорость vs точность. Объемы данных.• Выбор метода• Как оптимизировать параметры?• Как бороться с переобучением?
  36. 36. Вопросы? Андрей Федоровский fedorovsky@gmail.com

×