Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №4 "Задача классификации"
Лектор - Николай Анохин
Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №1 "Задачи Data Mining"
Лектор - Николай Анохин
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
AI 8 | Probability Basics, Bayes' Rule, Probability DistributionMohammad Imam Hossain
1. Uncertainty and Decision Theory
2. Basic Prob. Theory
3. Prior and posterior probabilities
4. Bayes' Rule
5. Random variable
6. Different types of probability distribution
Dans ce cours, on découvre comment construire une interface graphique en Python en utilisant la librairie Tk. Après avoir vu les différents composants de base, ce cours présente la programmation évènementielle qui permet d'écrire du code qui réagit à des évènements comme le clic sur un bouton, par exemple.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №1 "Задачи Data Mining"
Лектор - Николай Анохин
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
AI 8 | Probability Basics, Bayes' Rule, Probability DistributionMohammad Imam Hossain
1. Uncertainty and Decision Theory
2. Basic Prob. Theory
3. Prior and posterior probabilities
4. Bayes' Rule
5. Random variable
6. Different types of probability distribution
Dans ce cours, on découvre comment construire une interface graphique en Python en utilisant la librairie Tk. Après avoir vu les différents composants de base, ce cours présente la programmation évènementielle qui permet d'écrire du code qui réagit à des évènements comme le clic sur un bouton, par exemple.
Please Subscribe to this Channel for more solutions and lectures
http://www.youtube.com/onlineteaching
Elementary Statistics Practice Test 1
Module 1: Chapters 1-3
Chapter 1: Introduction to Statistics.
Chapter 2: Exploring Data with Tables and Graphs.
Chapter 3: Describing, Exploring, and Comparing Data.
Please Subscribe to this Channel for more solutions and lectures
http://www.youtube.com/onlineteaching
Elementary Statistics Practice Test 2 Solutions
Chapter 4: Probability
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Please Subscribe to this Channel for more solutions and lectures
http://www.youtube.com/onlineteaching
Elementary Statistics Practice Test 1
Module 1: Chapters 1-3
Chapter 1: Introduction to Statistics.
Chapter 2: Exploring Data with Tables and Graphs.
Chapter 3: Describing, Exploring, and Comparing Data.
Please Subscribe to this Channel for more solutions and lectures
http://www.youtube.com/onlineteaching
Elementary Statistics Practice Test 2 Solutions
Chapter 4: Probability
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №7 "Машина опорных векторов"
Лектор - Николай Анохин
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №5 "Обработка текстов, Naive Bayes"
Лектор - Николай Анохин
Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №3 "Различные алгоритмы кластеризации"
Лектор - Николай Анохин
Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Нейронечёткая классификация слабо формализуемых данных | Тимур ГильмуллинPositive Hack Days
1. Проблемы автоматизации классификации слабо формализуемых (нечётких) данных.
2. Нечёткие множества и нечёткие измерительные шкалы.
3. Моделирование нейронной сети для классификации данных.
4. Инструмент FuzzyClassificator и его внедрение в Компании.
5. Автоматизация классификации данных на базе TeamCity.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Точечная оценка. Определение
Пример 1
Свойства точечных оценок
Несмещенность
Пример 2
Состоятельность
Эффективность
Асимптотическая нормальность
Робастность
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №9 "Алгоритмические композиции. Начало"
Лектор - Владимир Гулин
Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №13 "Глубокие нейронные сети"
Лектор - Павел Нестеров
Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №12 "Ограниченная машина Больцмана"
Лектор - Павел Нестеров
Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №11 "Основы нейронных сетей"
Лектор - Павел Нестеров
Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
2. План занятия
Задачи классификации и регрессии
Подходы к моделированию
Теория принятия решений
Оценка результатов классификации
Деревья решений
1 / 56
5. Регрессия: интуиция
Задача
Разработать алгоритм, позволяющий предсказать числовую
характеристику произвольного объекта из некоторого множества
Дана обучающая выборка, в которой для каждого объекта
известно значение числовой характеристики
4 / 56
6. Постановка задачи
Пусть дан набор объектов D = {(xi , yi )}, xi ∈ X, yi ∈ Y, i ∈ 1, . . . , N,
полученный из неизвестной закономерности y = f (x). Необходимо
выбрать из семейства параметрических функций
H = {h(x, θ) : X × Θ → Y}
такую h∗
(x) = h(x, θ∗
), которая наиболее точно апроксимирует f (x).
Задачи
Классификация: |Y| < C
Регрессия: Y = [a, b] ⊂ R
5 / 56
7. Как решать
M Выдвигаем гипотезу насчет модели - семейства
параметрических функций вида
H = {h(x, θ) : X × Θ → Y},
которая могла бы решить нашу задачу (model selection)
L Выбираем наилучшие параметры модели θ∗
, используя
алгоритм обучения
A(X, Y ) : (X, Y)N
→ Θ
(learning/inference)
D Используя полученную модель h∗
(x) = h(x, θ∗
), классифицируем
неизвестные объекты (decision making)
6 / 56
9. Виды моделей
Генеративные модели. Смоделировать p(x|yk ) и p(yk ), применить
теорему Байеса
p(yk |x) =
p(x|yk )p(yk )
p(x)
и использовать p(yk |x) для принятия решения
(NB, Bayes Networks, MRF)
Дискриминативные модели. Смоделировать p(yk |x) и
использовать ее для принятия решения
(Logistic Regression, Decision Trees)
Функции решения. Смоделировать напрямую h∗
(x) : X → Y
(Linear Models, Neural Networks)
8 / 56
10. Вероятностные модели VS Функции решения
G Отказ от классификации (reject option)
G Дисбаланс в выборке
G Ансамбли моделей
G Сильные предположения о природе данных
G Излишняя (вычислительная) сложность
9 / 56
12. Обучение модели
LEARNING = representation + evaluation + optimization
Pedro Domingos
Evaluation – критерий, который оптимизируем
эмпирический риск → min
KL-дивергенция → min
функция правдоподобия → max
information gain → max
Optimization – как оптимизируем
unconstrained (GD, Newton+)
constrained (linear programming, quadratic programming)
11 / 56
13. Эмпирический риск
Функция потерь L(x, y, θ) - ошибка, которую для данного x дает
модель h(x, θ) по сравнению с реальным значением y
Эмпирический риск – средняя ошибка на обучающей выборке
Q(X, Y , θ) =
1
N
N
n=1
L(xn, yn, θ)
Задача – найти значение θ∗
, минимизирующее эмпирический риск
θ∗
= θ∗
(X, Y ) = argminθQ(X, Y , θ)
12 / 56
14. Некоторые функции потерь
Индикатор ошибки
L(x, y, θ) = 0 if h(x, θ) = y else 1
Функция Минковского
L(x, y, θ) = |y − h(x, θ)|q
Частные случаи: квадратичная q = 2, абсолютная ошибка q = 1
Hinge
L(x, y, θ) = max(0, 1 − y × h(x, θ))
Информационная
L(x, y, θ) = − log2 p(y|x, θ)
13 / 56
18. Классификация
Пусть
Rk – область, такая что все x ∈ Rk относим к yk
Дано
Rkj – риск, связанный с отнесением объекта класса yk к классу yj
Найти
∀k : Rk , такие, что математическое ожидание риска E[R]
минимально.
E[R] =
k j Rj
Rkj p(yk |x)p(x)dx
17 / 56
19. Медицинская диагностика
Матрица риска [Rkj ]
sick normal
sick 0 10
normal 1 0
Условные вероятности p(yk |x)
p(normal|moving) = 0.9, p(normal|not moving) = 0.3
Вероятности p(x)
p(moving) = 0.7
Требуется определить Rsick, Rnormal
18 / 56
20. Регрессия
Те же виды моделей: генеративные, дискриминативные,
функция решения
Задана функция риска
R(y, h(x))
Математическое ожидание E[R]
E[R] = R(y, h(x))p(x, y)dxdy
Для квадратичной функции риска R(y, h(x)) = [y − h(x)]2
h(x) = Ey [h|x] = yp(y|x)dy
19 / 56
22. Как оценить различные модели?
Идея
использовать долю неверно классифицированных объектов
(error rate)
Важное замечание
error rate на обучающей выборке НЕ является хорошим показателем
качества модели
21 / 56
23. Решение 1: разделение выборки
Делим обучающую выборку на тренировочную, валидационную и
тестовую
22 / 56
24. Решение 2: скользящий контроль
(n-times) (stratified) cross-validation
частный случай: leave-one-out
23 / 56
25. Решение 3: bootstrap
выбираем в тренировочную выбоку n объектов с возвращением
упражнение: найти математическое ожидание размера тестовой
выборки.
24 / 56
26. Доверительный интервал для success rate
При тестировании на N = 100 объектах было получено 25 ошибок.
Таким образом измеренная вероятность успеха (success rate)
составила f = 0.75. Найти доверительный интервал для
действительной вероятности успеха c уровнем доверия α = 0.8.
Решение
Пусть p – действительная вероятность успеха в испытаниях
бернулли, тогда
f ∼ N (p, p(1 − p)/N) .
Воспользовавшись табличным значением P(−z ≤ N(0, 1) ≤ z) = α,
имеем
P −z ≤
f − p
p(1 − p)/N
≤ z = α,
откуда
p ∈ f +
z2
2N
± z
f
N
−
f 2
N
+
z2
4N2
/ 1 +
z2
N
= [0.69, 0.80]
25 / 56
27. Метрики качества. Вероятностные модели.
Пусть yi - действительный класс для объекта xi
Information loss
−
1
N
i
log2 p(yi |xi )
Quadratic loss
1
N
j
(p(yj |xi ) − aj (xi ))2
,
где
aj (xi ) =
1, если Cj = yi
0, иначе
26 / 56
30. Упражнение
Простые классификаторы
В генеральной совокупности существуют объекты 3 классов,
вероятность появления которых p1 < p2 < p3. Первый классификатор
относит все объекты к классу с большей вероятностью (то есть к
третьему). Второй классификатор случайно относит объект к одному
из классов в соответствии с базовым распределением. Рассчитать
precision и recall, которые эти классификаторы дают для каждого из
3 классов.
29 / 56
31. Метрики качества. Регрессия
MSE =
1
N
(h(xi ) − yi )2
, RMSE =
√
MSE
MAE =
1
N
|h(xi ) − yi |, RMAE =
√
MAE
RSE =
(h(xi ) − yi )2
(yi − ¯y)2
correlation =
Shy
ShSy
; Syh =
(h(i) − h(i))(yi − ¯y)
N − 1
Sh =
(h(i) − h(i))2
N − 1
; Sy =
(yi − ¯y)2
N − 1
30 / 56
32. NFLT, MDL, AIC и все такое
No free lunch theorem
Не существует единственной лучшей модели, решающей все задачи
Minimum description length
Лучшая гипотеза о данных – та, которая ведет к самому краткому их
описанию
Akaike information criterion (AIC)
model = arg max ln p(D|θML) − θ
31 / 56
34. Задача
Дано:
обучающая выборка из профилей
нескольких десятков тысяч
человек
пол (binary)
возраст (numeric)
образование (nominal)
и еще 137 признаков
наличие интереса к косметике
Задача:
Для рекламной кампании
определить, характеристики
людей, интересующихся
косметикой
33 / 56
38. Рекурсивный алгоритм
1 function decision_tree(X_N):
2 if X_N satisfies leaf criterion:
3 L = create_leaf(X_N)
4 assign_class(L)
5 else:
6 L = create_node(X_N)
7 X_1,..,X_S = split(L)
8 for i in 1..S:
9 C = decision_tree(X_i)
10 add_child(L, C)
11 return L
37 / 56
39. CART
Classification And Regression Trees
1. Как происходит разделение?
2. На сколько детей разделять каждый узел?
3. Какой критерий листа выбрать?
4. Как укоротить слишком большое дерево?
5. Как выбрать класс каждого листа?
6. Что делать, если часть значений отсутствует?
38 / 56
40. Чистота узла
Задача
Выбрать метод, позволяющий разделить узел на два или несколько
детей наилучшим образом
Ключевое понятие – impurity узла.
1. Misclassification
i(N) = 1 − max
k
p(x ∈ Ck )
2. Gini
i(N) = 1 −
k
p2
(x ∈ Ck ) =
i=j
p(x ∈ Ci )p(x ∈ Cj )
3. Информационная энтропия
i(N) = −
k
p(x ∈ Ck ) log2 p(x ∈ Ck )
39 / 56
41. Теория информации
Количество информации ∼ “степень удивления”
h(x) = − log2 p(x)
Информационная энтропия H[x] = E[h(x)]
H[x] = − p(x) log2 p(x) или H[x] = − p(x) log2 p(x)dx
Упражнение
Дана случайная величина x, принимающая 4 значения с равными
вероятностями 1
4 , и случайная величина y, принимающая 4 значения
с вероятностями {1
2 , 1
4 , 1
8 , 1
8 }. Вычислить H[x] и H[y].
40 / 56
42. Выбор наилучшего разделения
Критерий
Выбрать признак и точку отсечения такими, чтобы было
максимально уменьшение impurity
∆i(N, NL, NR ) = i(N) −
NL
N
i(NL) −
NR
N
i(NR )
Замечания
Выбор границы при числовых признаках: середина?
Решения принимаются локально: нет гарантии глобально
оптимального решения
На практике выбор impurity не сильно влияет на результат
41 / 56
43. Если разделение не бинарное
Естественный выбор при разделении на B детей
∆i(N, N1, . . . , NB ) = i(N) −
B
k=1
Nk
N
i(Nk ) → max
Предпочтение отдается большим B. Модификация:
∆iB (N, N1, . . . , NB ) =
∆i(N, N1, . . . , NB )
−
B
k=1
Nk
N log2
Nk
N
→ max
(gain ratio impurity)
42 / 56
45. Практика
Задача
Вычислить наилучшее бинарное разделение корневого узла по
одному признаку, пользуясь gini impurity.
№ Пол Образование Работа Косметика
1 М Высшее Да Нет
2 М Среднее Нет Нет
3 М Нет Да Нет
4 М Высшее Нет Да
1 Ж Нет Нет Да
2 Ж Высшее Да Да
3 Ж Среднее Да Нет
4 Ж Среднее Нет Да
44 / 56
46. Когда остановить разделение
Split stopping criteria
никогда
использовать валидационную выборку
установить минимальный размер узла
установить порог ∆i(N) > β
статистический подход
χ2
=
2
k=1
(nkL − NL
N nk )2
NL
N nk
45 / 56
47. Укорачиваем дерево
Pruning (a.k.a. отрезание ветвей)
1. Растим “полное” дерево T0
2. На каждом шаге заменяем самый “слабый” внутренний узел на
лист
Rα(Tk ) = err(Tk ) + αsize(Tk )
3. Для заданного α из получившейся последовательности
T0 T1 . . . Tr
выбираем дерево Tk , минимизирующее Rα(Tk )
Значение α выбирается на основании тестовой выборки или CV
46 / 56
48. Какой класс присвоить листьям
1. Простейший случай:
класс с максимальным количеством объектов
2. Дискриминативный случай:
вероятность p(Ck |x)
47 / 56
49. Вычислительная сложность
Выборка состоит из n объектов, описанных m признаками
Предположения
1. Узлы делятся примерно поровну
2. Дерево имеет log n уровней
3. Признаки бинарные
Обучение. Для узла с k обучающими объектами:
Вычисление impurity по одному признаку O(k)
Выбор разделяющего признака O(mk)
Итог: O(mn) + 2O(mn
2 ) + 4O(mn
4 ) + . . . = O(mn log n)
Применение. O(log n)
48 / 56
50. Отсутствующие значения
Удалить объекты из выборки
Использовать отстутсвие как отдельную категорию
Вычислять impurity, пропуская отсутствующие значения
Surrogate splits: разделяем вторым признаком так, чтобы было
максимально похоже на первичное разделение
49 / 56
54. Кроме CART
ID3 Iterative Dichotomiser 3
Только номинальные признаки
Количество детей в узле = количество значений разделяющего
признака
Дерево растет до максимальной высоты
С4.5 Улучшение ID3
Числовые признаки – как в CART, номинальные – как в ID3
При отсутствии значения используются все дети
Укорачивает дерево, убирая ненужные предикаты в правилах
C5.0 Улучшение C4.5
Проприетарный
53 / 56
55. Решающие деревья. Итог
+ Легко интерпретируемы. Визуализация (ня!)
+ Любые входные данные
+ Мультикласс из коробки
+ Предсказание за O(log n)
+ Поддаются статистическому анализу
– Склонны к переобучению
– Жадные и нестабильные
– Плохо работают при дисбалансе классов
54 / 56
56. Ключевые фигуры
Claude Elwood Shannon
(Теория информации)
Leo Breiman
(CART, RF)
John Ross Quinlan
(ID3, C4.5, C5.0)
55 / 56