SlideShare a Scribd company logo
1 of 14
Download to read offline
Нижегородский государственный университет им. Н.И. Лобачевского
Факультет Вычислительной математики и кибернетики
The Investigation of Deep Data Representations
Based on Decision Tree Ensembles for
Classification Problems
Исследование применимости глубоких
представлений данных, основанных на
ансамблях деревьев решений, для задач
классификации
Павел Дружков
Валентина Кустикова
22015 г.
Глубокое обучение
 Глубокое обучение – автоматическое построение
эффективных иерархических описаний данных
с помощью последовательных нелинейных
преобразований
 Успешно применяется для понимания изображений,
распознавания речи, обработки текстовой
информации и т.д.
The Investigation of Deep Data Representations
32015 г.
Нейронные сети
The Investigation of Deep Data Representations
[Krizhevsky et al. ImageNet Classification with Deep Convolutional Neural Networks]
[Szegedy et al. Going deeper with convolutions]
[Russakovsky et al. ImageNet Large Scale Visual Recognition Challenge]
42015 г.
Альтернативные подходы
The Investigation of Deep Data Representations
52015 г.
Деревья решений и обучение представлений
 Дерево решений определяет иерархическую кластеризацию
объектов.
 Похожие объекты попадают в близкие листья, при этом
возможно сильное отличие значений нерелевантных
признаков.
 Путь, по которому объект
проходит в дереве, может
определять эффективное
признаковое описание.
 Использование нескольких
деревьев может улучшить
стабильность.
The Investigation of Deep Data Representations
[Vens et al. Random Forest Based Feature Induction]
62015 г.
Деревья решений и обучение представлений
 Martyanov et al. Feature Learning for Image Classification
with Code Book Based on Decision Tree Ensembles.
 Строится классификатор (случайный лес) патчей.
 На изображениях определяются ключевые точки,
окрестности которых прогоняются через классификатор.
 Каждый лист каждого дерева определяет новый признак,
его значение – количество попавших в него патчей.
The Investigation of Deep Data Representations
72015 г.
Деревья решений и глубокое обучение
 Можно сооружать стеки таких моделей.
The Investigation of Deep Data Representations
82015 г.
Деревья решений и глубокое обучение
 Каждое дерево определяет один признак – номер листа,
в который попадает объект.
 В качестве ансамбля деревьев решений будем
использовать случайный лес.
 В качестве исходных признаковых описаний – HOG.
 Размер деревьев и их количество, а также количество
слоев в модели будем подбирать с помощью OOB-ошибки
(out-of-bag).
The Investigation of Deep Data Representations
92015 г.
Классификация транспортных средств
 Задача:
– Определить тип
автомобиля
по его изображению.
 Набора данных MIT2:
– 4 класса: «легковой автомобиль», «минивэн»,
«такси», «седан».
– Обучающая выборка: 200 изображений (50 на класс).
– Тестовая выборка: 730 изображений.
– Среднее разрешение 72х38.
– Одинаковый ракурс объектов.
– Автомобили на картинках были отцентрированы.
– Перекрывающиеся классы!
The Investigation of Deep Data Representations
102015 г.
Классификация транспортных средств
 Точность классификации
 Рассматривались нейронные сети малой глубины,
сопоставимой с предлагаемым подходом.
 Получены результаты на уровне лучших известных.
 Однако, существенного выигрыша за счет
глубины модели получить не удалось.
The Investigation of Deep Data Representations
112015 г.
CIFAR-100
 Задача:
– Классифицировать
изображения
с разнообразными объектами.
 Набора данных CIFAR-100:
– 100 классов визуальных объектов (животные, люди,
растения, фрукты и овощи, предметы интерьера,
электроприборы и т.д.).
– Обучающая выборка: 50 000 изображений (500 на класс).
– Тестовая выборка: 10 000 изображений (100 на класс).
– Разрешение 32х32.
The Investigation of Deep Data Representations
122015 г.
CIFAR-100
 Модель глубины 1:
– 500 деревьев глубины 20.
– OOB-точность: 15.16%.
– Тестовая точность: 16.97%.
 Модель глубины 2:
– 500 деревьев высоты 20 → 1000 деревьев высоты 25.
– OOB-точность: 13.5%.
– Тестовая точность: 12.42%.
 Качество глубоких нейросетевых моделей значительно
выше: 61-65%.
The Investigation of Deep Data Representations
132015 г.
Выводы
 Не удалось получить выигрыша за счет увеличения
глубины.
 Модели на каждом уровне предложенного стека
оперируют описанием целого изображения, что может
препятствовать созданию абстракций различного уровня.
 Использование в качестве признаковых описаний по
аналогии с Vens et al. сделает признаковое описание
более детальным, но при этом размерности резко
вырастут.
The Investigation of Deep Data Representations
142015 г.
Спасибо за внимание!
The Investigation of Deep Data Representations

More Related Content

More from AIST

Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоныАлена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
AIST
 
Иосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBAИосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBA
AIST
 

More from AIST (20)

Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray Images
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray  ImagesAlexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray  Images
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray Images
 
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоныАлена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
 
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
 
Павел Браславский,Velpas - Velpas: мобильный визуальный поиск
Павел Браславский,Velpas - Velpas: мобильный визуальный поискПавел Браславский,Velpas - Velpas: мобильный визуальный поиск
Павел Браславский,Velpas - Velpas: мобильный визуальный поиск
 
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
 
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
 
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
 
Иосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBAИосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBA
 
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge ExchangeNikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
 
George Moiseev - Classification of E-commerce Websites by Product Categories
George Moiseev - Classification of E-commerce Websites by Product CategoriesGeorge Moiseev - Classification of E-commerce Websites by Product Categories
George Moiseev - Classification of E-commerce Websites by Product Categories
 
Elena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
Elena Bruches - The Hybrid Approach to Part-of-Speech DisambiguationElena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
Elena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
 
Marina Danshina - The methodology of automated decryption of znamenny chants
Marina Danshina - The methodology of automated decryption of znamenny chantsMarina Danshina - The methodology of automated decryption of znamenny chants
Marina Danshina - The methodology of automated decryption of znamenny chants
 
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First GlanceEdward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
 
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
 
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
 
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
 
Valeri Labunets - The bichromatic excitable Schrodinger metamedium
Valeri Labunets - The bichromatic excitable Schrodinger metamediumValeri Labunets - The bichromatic excitable Schrodinger metamedium
Valeri Labunets - The bichromatic excitable Schrodinger metamedium
 
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
 
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
 
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Artyom Makovetskii - An Efficient Algorithm for Total Variation DenoisingArtyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
 

Valentina Kustikova and Pavel Druzhkov - The Investigation of Deep Data Representations Based on Decision Tree Ensembles for Classification Problems

  • 1. Нижегородский государственный университет им. Н.И. Лобачевского Факультет Вычислительной математики и кибернетики The Investigation of Deep Data Representations Based on Decision Tree Ensembles for Classification Problems Исследование применимости глубоких представлений данных, основанных на ансамблях деревьев решений, для задач классификации Павел Дружков Валентина Кустикова
  • 2. 22015 г. Глубокое обучение  Глубокое обучение – автоматическое построение эффективных иерархических описаний данных с помощью последовательных нелинейных преобразований  Успешно применяется для понимания изображений, распознавания речи, обработки текстовой информации и т.д. The Investigation of Deep Data Representations
  • 3. 32015 г. Нейронные сети The Investigation of Deep Data Representations [Krizhevsky et al. ImageNet Classification with Deep Convolutional Neural Networks] [Szegedy et al. Going deeper with convolutions] [Russakovsky et al. ImageNet Large Scale Visual Recognition Challenge]
  • 4. 42015 г. Альтернативные подходы The Investigation of Deep Data Representations
  • 5. 52015 г. Деревья решений и обучение представлений  Дерево решений определяет иерархическую кластеризацию объектов.  Похожие объекты попадают в близкие листья, при этом возможно сильное отличие значений нерелевантных признаков.  Путь, по которому объект проходит в дереве, может определять эффективное признаковое описание.  Использование нескольких деревьев может улучшить стабильность. The Investigation of Deep Data Representations [Vens et al. Random Forest Based Feature Induction]
  • 6. 62015 г. Деревья решений и обучение представлений  Martyanov et al. Feature Learning for Image Classification with Code Book Based on Decision Tree Ensembles.  Строится классификатор (случайный лес) патчей.  На изображениях определяются ключевые точки, окрестности которых прогоняются через классификатор.  Каждый лист каждого дерева определяет новый признак, его значение – количество попавших в него патчей. The Investigation of Deep Data Representations
  • 7. 72015 г. Деревья решений и глубокое обучение  Можно сооружать стеки таких моделей. The Investigation of Deep Data Representations
  • 8. 82015 г. Деревья решений и глубокое обучение  Каждое дерево определяет один признак – номер листа, в который попадает объект.  В качестве ансамбля деревьев решений будем использовать случайный лес.  В качестве исходных признаковых описаний – HOG.  Размер деревьев и их количество, а также количество слоев в модели будем подбирать с помощью OOB-ошибки (out-of-bag). The Investigation of Deep Data Representations
  • 9. 92015 г. Классификация транспортных средств  Задача: – Определить тип автомобиля по его изображению.  Набора данных MIT2: – 4 класса: «легковой автомобиль», «минивэн», «такси», «седан». – Обучающая выборка: 200 изображений (50 на класс). – Тестовая выборка: 730 изображений. – Среднее разрешение 72х38. – Одинаковый ракурс объектов. – Автомобили на картинках были отцентрированы. – Перекрывающиеся классы! The Investigation of Deep Data Representations
  • 10. 102015 г. Классификация транспортных средств  Точность классификации  Рассматривались нейронные сети малой глубины, сопоставимой с предлагаемым подходом.  Получены результаты на уровне лучших известных.  Однако, существенного выигрыша за счет глубины модели получить не удалось. The Investigation of Deep Data Representations
  • 11. 112015 г. CIFAR-100  Задача: – Классифицировать изображения с разнообразными объектами.  Набора данных CIFAR-100: – 100 классов визуальных объектов (животные, люди, растения, фрукты и овощи, предметы интерьера, электроприборы и т.д.). – Обучающая выборка: 50 000 изображений (500 на класс). – Тестовая выборка: 10 000 изображений (100 на класс). – Разрешение 32х32. The Investigation of Deep Data Representations
  • 12. 122015 г. CIFAR-100  Модель глубины 1: – 500 деревьев глубины 20. – OOB-точность: 15.16%. – Тестовая точность: 16.97%.  Модель глубины 2: – 500 деревьев высоты 20 → 1000 деревьев высоты 25. – OOB-точность: 13.5%. – Тестовая точность: 12.42%.  Качество глубоких нейросетевых моделей значительно выше: 61-65%. The Investigation of Deep Data Representations
  • 13. 132015 г. Выводы  Не удалось получить выигрыша за счет увеличения глубины.  Модели на каждом уровне предложенного стека оперируют описанием целого изображения, что может препятствовать созданию абстракций различного уровня.  Использование в качестве признаковых описаний по аналогии с Vens et al. сделает признаковое описание более детальным, но при этом размерности резко вырастут. The Investigation of Deep Data Representations
  • 14. 142015 г. Спасибо за внимание! The Investigation of Deep Data Representations