SlideShare a Scribd company logo
1 of 36
Методы классификации

         Андрей Федоровский
        fedorovsky@gmail.com
А. Федоровский Методы классификации



  Что такое классификация?
Классификация – обучение с учителем.

Известно, к каким классам относятся
объекты из обучающего набора.
Нужно определить, к какому классу
относится новый объект.
А. Федоровский Методы классификации



    Примеры применения
Распознавание символов
Антиспам
Категоризация текстов
Анализ профилей пользователей
Правила выдачи кредита
А. Федоровский Методы классификации



Постановка задачи
А. Федоровский Методы классификации



Выбобр признаков
А. Федоровский Методы классификации



         Байес? Нет, спасибо.
Классика, но работает не очень эффективно.
Если интересно – он описан в Википедии:
http://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор
А. Федоровский Методы классификации



K ближайших соседей
         Классом объекта считаем
         тот класс, представителей
         которого больше всего
         среди его k ближайших
         соседей.
         Критерий ошибки – доля
         неправильно предсказанных
         классов.
А. Федоровский Методы классификации



       K ближайших соседей
• K можно и нужно настраивать. Можно автоматически,
  тогда это простейшая задача оптимизации.
• Если самым близким соседям приписать бОльшие
  веса, качество вырастет.
• Нет затрат на фазу построения.

Проблемы:
• Разные классы при разных k.
• Поиск ближайших – перебор всех за O(dN).
  http://simsearch.yury.name/references.html
• При очень больших d понижается точность. Надо
  снижать размерность.
А. Федоровский Методы классификации



    Предобработка данных
Как снизить размерность, если мы имеем
документы как вектора в пространстве термов?

Выбирать только «нужные» слова.
• Стоп-слова
• Низкочастотный шум
• Веса для слов в важных зонах документа

Есть и продвинутые техники:
• Information Gain термов,
• feature extraction.
А. Федоровский Методы классификации



Деревья принятия решений
                    Строится дерево по
                    значениям признаков,
                       до тех пор, пока
                          не останется
                              нелистовых
                                  узлов.
А. Федоровский Методы классификации



Деревья принятия решений
А. Федоровский Методы классификации



Деревья принятия решений
  Темпер.   Ветер   Осадки    Влажно   Хорошо?
  Выс       Нет     Нет       Да       Нет
  Низ       Есть    Есть      Нет      Нет
  Низ       Нет     Есть      Да       Нет
  Выс       Нет     Есть      Нет      Да
  Выс       Есть    Нет       Нет      Да
  Выс       Нет     Нет       Нет      Да
  Выс       Есть    Нет       Да       Да


  Темпер: 4/1, 2/0    Ветер: 2/1, 2/2
  Осадки: 2/1, 3/1    Влажно: 2/1, 3/1
  У температуры наивысший Information gain.
  У ветра – наоборот.
А. Федоровский Методы классификации



 Деревья принятия решений
• Если признак – наличие слова в документе, то
  дерево получится высоким, а энтропия будет
  падать очень медленно, т.к. мало слов,
  являющихся яркими маркерами класса.
• Если есть признак с очень большим числом
  значений, то IG будет работать плохо, лучше
  выбрать GainRatio или Gini. Но это не наш случай.

С5.0 (наследник C4.5, ID3) – GNU реализация DT.
http://rulequest.com/see5-info.html
Есть множество кардинально ускоряющих эвристик.
А. Федоровский Методы классификации



Деревья принятия решений
А. Федоровский Методы классификации



                  Pruning
Переобучение (overfitting) – подгонка параметров
под особенности тестовой выборки. На реальных
данных качество будет сильно хуже.

Validation set – независимая выборка, на которой не
идет обучение, но тестируется качество.

Pruning – обрезка ветвей дерева, пока качество на
validation set растет.
А. Федоровский Методы классификации



            Вопрос



Деревья решений – слабый классификатор.
Почему же его используют?
А. Федоровский Методы классификации



                                      Boosting




* Здесь в главе 7.2 чуть более громоздкое обобщение на несколько классов:
http://www.boosting.org:10080/boosting.org/papers/MeiRae03.pdf/at_download/file
А. Федоровский Методы классификации



Boosting
А. Федоровский Методы классификации



            Boosting
AdaBoost:
А. Федоровский Методы классификации



Random forest
А. Федоровский Методы классификации



Метод опорных векторов (SVM)
А. Федоровский Методы классификации



Метод опорных векторов (SVM)
А. Федоровский Методы классификации



Метод опорных векторов (SVM)
А. Федоровский Методы классификации



Метод опорных векторов (SVM)
А. Федоровский Методы классификации



Метод опорных векторов (SVM)
А. Федоровский Методы классификации



Метод опорных векторов (SVM)
А. Федоровский Методы классификации



SVM: линейно разделимый случай




Решение сложное. Реализация – SVMlight, libSVM.
А. Федоровский Методы классификации



SVM: штрафы за ошибки
                 Реальные данные
                 почти всегда линейно
                 неразделимы.

                 Добавим в
                 оптимизационный
                 функционал слагаемое
                 с величиной штрафов.
А. Федоровский Методы классификации



SVM: штрафы за ошибки
А. Федоровский Методы классификации



SVM: ядра
А. Федоровский Методы классификации



Мультиклассовая классификация
А. Федоровский Методы классификации



            Онлайновость
Добавление новых объектов в обучающую выборку
без пересчета всей коллекции.

Оценка объекта на лету за малое время.

kNN? SVM? DT? Boost? RF?
А. Федоровский Методы классификации



             Переобучение
Training set, validation set, test set.
Уменьшение размерности пространства признаков:
аналог прунинга.
Cross-validation: training set делится на 10 частей. На
каждом шаге одна из них является validation set, а
на остальных идет обучение. Потом берется средняя
оценка.
А. Федоровский Методы классификации



                        Выбор метода
                  kNN   kNN+     DT+         DT(пни)+       RF      SVM+    SVM+яд
                        веса   Pruning       Boosting              штрафы     ра
   Качество

Скорость работы
   Скорость        0     0
  построения
Устойчивость к
  выбору н.у.
   Настройка                   valid. set   размер пня,                      ядра
  параметров                                вид выбора
                                             признаков
 Мультикласс.     да     да    обобщ.         обобщ.      обобщ.    нет      нет
    Онлайн        да     да       нет          нет         нет      нет      нет
А. Федоровский Методы классификации



                  Памятка
•   Парсинг, предобработка данных
•   Мультиклассовая классификация?
•   Объект принадлежит единственному классу?
•   Пополнение онлайн?
•   Скорость vs точность. Объемы данных.
•   Выбор метода
•   Как оптимизировать параметры?
•   Как бороться с переобучением?
Вопросы?

   Андрей Федоровский
  fedorovsky@gmail.com

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Методы классификации

  • 1. Методы классификации Андрей Федоровский fedorovsky@gmail.com
  • 2. А. Федоровский Методы классификации Что такое классификация? Классификация – обучение с учителем. Известно, к каким классам относятся объекты из обучающего набора. Нужно определить, к какому классу относится новый объект.
  • 3. А. Федоровский Методы классификации Примеры применения Распознавание символов Антиспам Категоризация текстов Анализ профилей пользователей Правила выдачи кредита
  • 4. А. Федоровский Методы классификации Постановка задачи
  • 5. А. Федоровский Методы классификации Выбобр признаков
  • 6. А. Федоровский Методы классификации Байес? Нет, спасибо. Классика, но работает не очень эффективно. Если интересно – он описан в Википедии: http://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор
  • 7. А. Федоровский Методы классификации K ближайших соседей Классом объекта считаем тот класс, представителей которого больше всего среди его k ближайших соседей. Критерий ошибки – доля неправильно предсказанных классов.
  • 8. А. Федоровский Методы классификации K ближайших соседей • K можно и нужно настраивать. Можно автоматически, тогда это простейшая задача оптимизации. • Если самым близким соседям приписать бОльшие веса, качество вырастет. • Нет затрат на фазу построения. Проблемы: • Разные классы при разных k. • Поиск ближайших – перебор всех за O(dN). http://simsearch.yury.name/references.html • При очень больших d понижается точность. Надо снижать размерность.
  • 9. А. Федоровский Методы классификации Предобработка данных Как снизить размерность, если мы имеем документы как вектора в пространстве термов? Выбирать только «нужные» слова. • Стоп-слова • Низкочастотный шум • Веса для слов в важных зонах документа Есть и продвинутые техники: • Information Gain термов, • feature extraction.
  • 10. А. Федоровский Методы классификации Деревья принятия решений Строится дерево по значениям признаков, до тех пор, пока не останется нелистовых узлов.
  • 11. А. Федоровский Методы классификации Деревья принятия решений
  • 12. А. Федоровский Методы классификации Деревья принятия решений Темпер. Ветер Осадки Влажно Хорошо? Выс Нет Нет Да Нет Низ Есть Есть Нет Нет Низ Нет Есть Да Нет Выс Нет Есть Нет Да Выс Есть Нет Нет Да Выс Нет Нет Нет Да Выс Есть Нет Да Да Темпер: 4/1, 2/0 Ветер: 2/1, 2/2 Осадки: 2/1, 3/1 Влажно: 2/1, 3/1 У температуры наивысший Information gain. У ветра – наоборот.
  • 13. А. Федоровский Методы классификации Деревья принятия решений • Если признак – наличие слова в документе, то дерево получится высоким, а энтропия будет падать очень медленно, т.к. мало слов, являющихся яркими маркерами класса. • Если есть признак с очень большим числом значений, то IG будет работать плохо, лучше выбрать GainRatio или Gini. Но это не наш случай. С5.0 (наследник C4.5, ID3) – GNU реализация DT. http://rulequest.com/see5-info.html Есть множество кардинально ускоряющих эвристик.
  • 14. А. Федоровский Методы классификации Деревья принятия решений
  • 15. А. Федоровский Методы классификации Pruning Переобучение (overfitting) – подгонка параметров под особенности тестовой выборки. На реальных данных качество будет сильно хуже. Validation set – независимая выборка, на которой не идет обучение, но тестируется качество. Pruning – обрезка ветвей дерева, пока качество на validation set растет.
  • 16. А. Федоровский Методы классификации Вопрос Деревья решений – слабый классификатор. Почему же его используют?
  • 17. А. Федоровский Методы классификации Boosting * Здесь в главе 7.2 чуть более громоздкое обобщение на несколько классов: http://www.boosting.org:10080/boosting.org/papers/MeiRae03.pdf/at_download/file
  • 18. А. Федоровский Методы классификации Boosting
  • 19. А. Федоровский Методы классификации Boosting AdaBoost:
  • 20. А. Федоровский Методы классификации Random forest
  • 21. А. Федоровский Методы классификации Метод опорных векторов (SVM)
  • 22. А. Федоровский Методы классификации Метод опорных векторов (SVM)
  • 23. А. Федоровский Методы классификации Метод опорных векторов (SVM)
  • 24. А. Федоровский Методы классификации Метод опорных векторов (SVM)
  • 25. А. Федоровский Методы классификации Метод опорных векторов (SVM)
  • 26. А. Федоровский Методы классификации Метод опорных векторов (SVM)
  • 27. А. Федоровский Методы классификации SVM: линейно разделимый случай Решение сложное. Реализация – SVMlight, libSVM.
  • 28. А. Федоровский Методы классификации SVM: штрафы за ошибки Реальные данные почти всегда линейно неразделимы. Добавим в оптимизационный функционал слагаемое с величиной штрафов.
  • 29. А. Федоровский Методы классификации SVM: штрафы за ошибки
  • 30. А. Федоровский Методы классификации SVM: ядра
  • 31. А. Федоровский Методы классификации Мультиклассовая классификация
  • 32. А. Федоровский Методы классификации Онлайновость Добавление новых объектов в обучающую выборку без пересчета всей коллекции. Оценка объекта на лету за малое время. kNN? SVM? DT? Boost? RF?
  • 33. А. Федоровский Методы классификации Переобучение Training set, validation set, test set. Уменьшение размерности пространства признаков: аналог прунинга. Cross-validation: training set делится на 10 частей. На каждом шаге одна из них является validation set, а на остальных идет обучение. Потом берется средняя оценка.
  • 34. А. Федоровский Методы классификации Выбор метода kNN kNN+ DT+ DT(пни)+ RF SVM+ SVM+яд веса Pruning Boosting штрафы ра Качество Скорость работы Скорость 0 0 построения Устойчивость к выбору н.у. Настройка valid. set размер пня, ядра параметров вид выбора признаков Мультикласс. да да обобщ. обобщ. обобщ. нет нет Онлайн да да нет нет нет нет нет
  • 35. А. Федоровский Методы классификации Памятка • Парсинг, предобработка данных • Мультиклассовая классификация? • Объект принадлежит единственному классу? • Пополнение онлайн? • Скорость vs точность. Объемы данных. • Выбор метода • Как оптимизировать параметры? • Как бороться с переобучением?
  • 36. Вопросы? Андрей Федоровский fedorovsky@gmail.com