5. Классификация
• Необходимо найти такие
разделяющие поверхности,
которые бы разделяли
объекты на классы
максимально правильно
• Обучение с учителем
5
6. Дерево решений
• Бинарное решающее дерево
• Каждый внутренний узел содержит условие
• Каждый лист содержит имя класса
6
11. Метрика качества бинарной
классификации: точность (precision)
• Показывает, насколько можно
доверять классификатору
• Минимизирует число ложных
срабатываний
• Устойчива к несбалансированным
данным:
• Точность классификатора: 28,6%
• Точность константного
классификатора: 0%
y = 1 y = 0
a(x)=1 20 50
a(x)=0 5 1000
y = 1 y = 0
a(x)=1 TP FP
a(x)=0 FN TN
11
12. Метрика качества бинарной
классификации: полнота (recall)
• Показывает, сколько объектов
класса 1 найдено
• Минимизирует число ложных
пропусков
• Устойчива к несбалансированным
данным:
• Полнота классификатора: 80%
• Полнота константного
классификатора: 0%
y = 1 y = 0
a(x)=1 20 50
a(x)=0 5 1000
y = 1 y = 0
a(x)=1 TP FP
a(x)=0 FN TN
12
13. Метрика качества многоклассовой классификации:
Area Under Curve - Precision Recall Curve (AUC-
PRC)
• b(x) - вероятность
принадлежности объекта к
классу 1
• объекты отсортированы по
возрастанию вероятности
• расчет precision и recall в
каждой точке
• площадь под кривой
характеризует качество
классификатора
b(x) 0,14 0,23 0,39 0,52 0,73 0,90
y 0 1 0 0 1 1
13
14. Метрика качества многоклассовой классификации:
Area Under Curve - Receiver Operating
Characteristic (AUC-ROC)
• False Positive Rate -
специфичность
b(x) 0,14 0,23 0,39 0,52 0,73 0,90
y 0 1 0 0 1 1
• True Positive Rate -
чувствительность
14
17. Задача регрессии
• Признаки и ответы - вещественные числа
• Необходимо определить вид функции f(x) и ее
коэффициенты таким образом, чтобы она принимала
наиболее близкие значения к исходным значениям
множества Y
• Обучение с учителем
• Решение - метод наименьших квадратов
• Метрика качества - среднеквадратическое отклонение
17
23. Кластеризация
• Требуется разбить выборку
на кластеры так, чтобы
каждый кластер состоял из
близких объектов, а объекты
разных кластеров
существенно отличались
• Обучение без учителя
• Метрика качества зависит от
задачи
23
27. Технологии
• Python: Pandas, SciPy, SKLearn
• R
• Matlab/Octave
• Project Jupyter
• Microsoft Azure Machine Learning
• Google Machine Learning
27
28. Ссылки
• Machine Learning (Stanford University)
• Введение в машинное обучение (Yandex/ВШЭ)
• Машинное обучение и анализ данных (Yandex/
МФТИ)
• Kaggle
28
29. Kaggle
• платформа для проведения соревнований по машинному
обучению
• job board
• datasets
• текущие соревнования:
• SF Crime classification
• Santander Customer Classification
• Yelp Restaurant Photo Classification
29