Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Valentina Kustikova and Pavel Druzhkov - The Investigation of Deep Data Representations Based on Decision Tree Ensembles for Classification Problems
1. Нижегородский государственный университет им. Н.И. Лобачевского
Факультет Вычислительной математики и кибернетики
The Investigation of Deep Data Representations
Based on Decision Tree Ensembles for
Classification Problems
Исследование применимости глубоких
представлений данных, основанных на
ансамблях деревьев решений, для задач
классификации
Павел Дружков
Валентина Кустикова
2. 22015 г.
Глубокое обучение
Глубокое обучение – автоматическое построение
эффективных иерархических описаний данных
с помощью последовательных нелинейных
преобразований
Успешно применяется для понимания изображений,
распознавания речи, обработки текстовой
информации и т.д.
The Investigation of Deep Data Representations
3. 32015 г.
Нейронные сети
The Investigation of Deep Data Representations
[Krizhevsky et al. ImageNet Classification with Deep Convolutional Neural Networks]
[Szegedy et al. Going deeper with convolutions]
[Russakovsky et al. ImageNet Large Scale Visual Recognition Challenge]
5. 52015 г.
Деревья решений и обучение представлений
Дерево решений определяет иерархическую кластеризацию
объектов.
Похожие объекты попадают в близкие листья, при этом
возможно сильное отличие значений нерелевантных
признаков.
Путь, по которому объект
проходит в дереве, может
определять эффективное
признаковое описание.
Использование нескольких
деревьев может улучшить
стабильность.
The Investigation of Deep Data Representations
[Vens et al. Random Forest Based Feature Induction]
6. 62015 г.
Деревья решений и обучение представлений
Martyanov et al. Feature Learning for Image Classification
with Code Book Based on Decision Tree Ensembles.
Строится классификатор (случайный лес) патчей.
На изображениях определяются ключевые точки,
окрестности которых прогоняются через классификатор.
Каждый лист каждого дерева определяет новый признак,
его значение – количество попавших в него патчей.
The Investigation of Deep Data Representations
7. 72015 г.
Деревья решений и глубокое обучение
Можно сооружать стеки таких моделей.
The Investigation of Deep Data Representations
8. 82015 г.
Деревья решений и глубокое обучение
Каждое дерево определяет один признак – номер листа,
в который попадает объект.
В качестве ансамбля деревьев решений будем
использовать случайный лес.
В качестве исходных признаковых описаний – HOG.
Размер деревьев и их количество, а также количество
слоев в модели будем подбирать с помощью OOB-ошибки
(out-of-bag).
The Investigation of Deep Data Representations
9. 92015 г.
Классификация транспортных средств
Задача:
– Определить тип
автомобиля
по его изображению.
Набора данных MIT2:
– 4 класса: «легковой автомобиль», «минивэн»,
«такси», «седан».
– Обучающая выборка: 200 изображений (50 на класс).
– Тестовая выборка: 730 изображений.
– Среднее разрешение 72х38.
– Одинаковый ракурс объектов.
– Автомобили на картинках были отцентрированы.
– Перекрывающиеся классы!
The Investigation of Deep Data Representations
10. 102015 г.
Классификация транспортных средств
Точность классификации
Рассматривались нейронные сети малой глубины,
сопоставимой с предлагаемым подходом.
Получены результаты на уровне лучших известных.
Однако, существенного выигрыша за счет
глубины модели получить не удалось.
The Investigation of Deep Data Representations
11. 112015 г.
CIFAR-100
Задача:
– Классифицировать
изображения
с разнообразными объектами.
Набора данных CIFAR-100:
– 100 классов визуальных объектов (животные, люди,
растения, фрукты и овощи, предметы интерьера,
электроприборы и т.д.).
– Обучающая выборка: 50 000 изображений (500 на класс).
– Тестовая выборка: 10 000 изображений (100 на класс).
– Разрешение 32х32.
The Investigation of Deep Data Representations
12. 122015 г.
CIFAR-100
Модель глубины 1:
– 500 деревьев глубины 20.
– OOB-точность: 15.16%.
– Тестовая точность: 16.97%.
Модель глубины 2:
– 500 деревьев высоты 20 → 1000 деревьев высоты 25.
– OOB-точность: 13.5%.
– Тестовая точность: 12.42%.
Качество глубоких нейросетевых моделей значительно
выше: 61-65%.
The Investigation of Deep Data Representations
13. 132015 г.
Выводы
Не удалось получить выигрыша за счет увеличения
глубины.
Модели на каждом уровне предложенного стека
оперируют описанием целого изображения, что может
препятствовать созданию абстракций различного уровня.
Использование в качестве признаковых описаний по
аналогии с Vens et al. сделает признаковое описание
более детальным, но при этом размерности резко
вырастут.
The Investigation of Deep Data Representations