Valentina Kustikova and Pavel Druzhkov - The Investigation of Deep Data Representations Based on Decision Tree Ensembles for Classification Problems

Нижегородский государственный университет им. Н.И. Лобачевского
Факультет Вычислительной математики и кибернетики
The Investigation of Deep Data Representations
Based on Decision Tree Ensembles for
Classification Problems
Исследование применимости глубоких
представлений данных, основанных на
ансамблях деревьев решений, для задач
классификации
Павел Дружков
Валентина Кустикова

22015 г.
Глубокое обучение
 Глубокое обучение – автоматическое построение
эффективных иерархических описаний данных
с помощью последовательных нелинейных
преобразований
 Успешно применяется для понимания изображений,
распознавания речи, обработки текстовой
информации и т.д.

32015 г.
Нейронные сети
[Krizhevsky et al. ImageNet Classification with Deep Convolutional Neural Networks]
[Szegedy et al. Going deeper with convolutions]
[Russakovsky et al. ImageNet Large Scale Visual Recognition Challenge]

42015 г.
Альтернативные подходы

52015 г.
Деревья решений и обучение представлений
 Дерево решений определяет иерархическую кластеризацию
объектов.
 Похожие объекты попадают в близкие листья, при этом
возможно сильное отличие значений нерелевантных
признаков.
 Путь, по которому объект
проходит в дереве, может
определять эффективное
признаковое описание.
 Использование нескольких
деревьев может улучшить
стабильность.
[Vens et al. Random Forest Based Feature Induction]

62015 г.
Деревья решений и обучение представлений
 Martyanov et al. Feature Learning for Image Classification
with Code Book Based on Decision Tree Ensembles.
 Строится классификатор (случайный лес) патчей.
 На изображениях определяются ключевые точки,
окрестности которых прогоняются через классификатор.
 Каждый лист каждого дерева определяет новый признак,
его значение – количество попавших в него патчей.

72015 г.
Деревья решений и глубокое обучение
 Можно сооружать стеки таких моделей.

82015 г.
Деревья решений и глубокое обучение
 Каждое дерево определяет один признак – номер листа,
в который попадает объект.
 В качестве ансамбля деревьев решений будем
использовать случайный лес.
 В качестве исходных признаковых описаний – HOG.
 Размер деревьев и их количество, а также количество
слоев в модели будем подбирать с помощью OOB-ошибки
(out-of-bag).

92015 г.
Классификация транспортных средств
 Задача:
– Определить тип
автомобиля
по его изображению.
 Набора данных MIT2:
– 4 класса: «легковой автомобиль», «минивэн»,
«такси», «седан».
– Обучающая выборка: 200 изображений (50 на класс).
– Тестовая выборка: 730 изображений.
– Среднее разрешение 72х38.
– Одинаковый ракурс объектов.
– Автомобили на картинках были отцентрированы.
– Перекрывающиеся классы!

102015 г.
Классификация транспортных средств
 Точность классификации
 Рассматривались нейронные сети малой глубины,
сопоставимой с предлагаемым подходом.
 Получены результаты на уровне лучших известных.
 Однако, существенного выигрыша за счет
глубины модели получить не удалось.

112015 г.
CIFAR-100
 Задача:
– Классифицировать
изображения
с разнообразными объектами.
 Набора данных CIFAR-100:
– 100 классов визуальных объектов (животные, люди,
растения, фрукты и овощи, предметы интерьера,
электроприборы и т.д.).
– Обучающая выборка: 50 000 изображений (500 на класс).
– Тестовая выборка: 10 000 изображений (100 на класс).
– Разрешение 32х32.

122015 г.
CIFAR-100
 Модель глубины 1:
– 500 деревьев глубины 20.
– OOB-точность: 15.16%.
– Тестовая точность: 16.97%.
 Модель глубины 2:
– 500 деревьев высоты 20 → 1000 деревьев высоты 25.
– OOB-точность: 13.5%.
– Тестовая точность: 12.42%.
 Качество глубоких нейросетевых моделей значительно
выше: 61-65%.

132015 г.
Выводы
 Не удалось получить выигрыша за счет увеличения
глубины.
 Модели на каждом уровне предложенного стека
оперируют описанием целого изображения, что может
препятствовать созданию абстракций различного уровня.
 Использование в качестве признаковых описаний по
аналогии с Vens et al. сделает признаковое описание
более детальным, но при этом размерности резко
вырастут.

142015 г.
Спасибо за внимание!

Valentina Kustikova and Pavel Druzhkov - The Investigation of Deep Data Representations Based on Decision Tree Ensembles for Classification Problems

Recommended

Recommended

More Related Content

More from AIST

More from AIST (20)

Valentina Kustikova and Pavel Druzhkov - The Investigation of Deep Data Representations Based on Decision Tree Ensembles for Classification Problems