SlideShare a Scribd company logo
Классификация текстов:
в поисках серебряной пули
Юрий Макаров, Data Scientist, E-Contenta
Коротко о задаче, и зачем оно нужно
С точки зрения бизнеса:
1. Позволяет сегментировать интернет
2. Помогает вытаскивать мета-информацию для более точных
персональных рекомендаций
С технической точки зрения:
1. Задача обучения с учителем
2. Увлекательный препроцессинг
данных
3. Изучается, актуальна, есть
state-of-the-art методы
4. Высокие требования к нагрузкам
На каких данных нам бы поучиться?
Проблемы:
- Сложно добавлять новые темы
- Сложно увеличивать количество обучающих
примеров
- Время и финансы
Асессоры?
На каких данных мы учимся?
Плюсы:
- Не требуются асессоры
- Легко добавлять новые темы
- Можно увеличивать количество
обучающих примеров
Минусы:
- Верим в правильность и
корректность поисковых запросов
- Доверяем алгоритмам ранжирования
Поисковая выдача :)
Как измерить качество?
- Меткость (accuracy) по всем
классам
- Меткость, точность
(precision), полнота (recall) по
каждому классу
- Что-то похитрее, если у
классов есть взаимосвязь:
метрика ближайшего общего
предка (Least Common
Ancestor Metrics)
https://arxiv.org/pdf/1306.6802v2.pdf
Общая схема работы модели
Проблемы обработки текста
- Очень много шума
- Аббревиатуры
- Опечатки
- Сложность разбиения на предложения
- Токенизация
- Стоп-слова
- ...
Основные способы векторизации текста
- Модель мешка слов
(bag-of-words) - порядок слов
не имеет значение
Предложение: Мама мыла раму.
Мешок слов:
Мама - 1
раму - 1
мыла - 1
- Фреймворк Word2Vec
(word2vec paper)
Пример:
король - королева = мужчина -
женщина
Данные готовы, время экспериментов!
Модель LCA metrics
TF-IDF clusters for each node 0.15
Multinomial Naive Bayes (TF-IDF) 0.49
Multinomial Naive Bayes (binary features) 0.53
SVM (poly kernel, C=0.001, TF-IDF) 0.55
Logistic Regression (Ridge, C=1.0, TF-IDF) 0.41
DNN (2 layers, dropout, TF-IDF inputs) 0.62
LSTM (dropout, TF-IDF, 20 epoch) 0.66
LSTM (dropout, w2v, 20 epoch) 0.71
Что придумали мы?
Идея коротко: обучили случайный лес (random forest) на
каждый класс (стратегия One-vs-All) с необычной обработкой
признаков
+
Outperform it!
Модель LCA metrics
TF-IDF clusters for each node 0.15
Multinomial Naive Bayes (TF-IDF) 0.49
Multinomial Naive Bayes (binary features) 0.53
SVM (poly kernel, C=0.001, TF-IDF) 0.55
Logistic Regression (Ridge, C=1.0, TF-IDF) 0.41
DNN (2 layers, dropout, TF-IDF inputs) 0.62
LSTM (dropout, TF-IDF, 20 epoch) 0.66
LSTM (dropout, w2v, 20 epoch) 0.71
Random Forest + great features 0.89
Важные идеи и итоги
- Экспериментируйте: идея из смежной области может
сработать хорошо
- Garbage in - garbage out.
- Ищите компромисс между временем и качеством
(http://www.aclweb.org/anthology/P12-2018)
- Стоит заметить, что на “академических” датасетах
нейросети всех победили
Полезные ссылки
- https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classif
ication.pdf - классификация текстов с помощью CNN на символьном уровне
- https://arxiv.org/pdf/1511.01432v1.pdf - semi-supervised learning для классификации
текстов
- http://ling.go.mail.ru/static/models/ruscorpora_russe.model.bin.gz - word2vec,
обученный на национально корпусе русского языка
- https://cs224d.stanford.edu/reports/BergerMark.pdf - про важность предварительного
обучения embedding слоя для нейросетей
- https://arxiv.org/pdf/1506.00019v4.pdf - большая и содержательная статья про RNN
- http://www.aclweb.org/anthology/P12-2018 - комбинация наивного Байеса и SVM
дает результат на несколько процентов хуже нейросетей на большинстве
датасетов
- https://arxiv.org/pdf/1408.5882v2.pdf - CNN для классификации текстов на уровне
слов, а не символов
- https://research.fb.com/wp-content/uploads/2016/11/bag_of_tricks_for_efficient_text_cl
assification.pdf - FastText by facebook.
Юрий Макаров
Data Scientist
(E-Contenta, SPbSEU)
lvoursl@gmail.com
https://www.linkedin.com/in/lvoursl/

More Related Content

Viewers also liked

Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Newprolab
 
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Newprolab
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Newprolab
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Newprolab
 
Presentazione Savino Università Bocconi
Presentazione Savino Università BocconiPresentazione Savino Università Bocconi
Presentazione Savino Università Bocconi
SAVINO SOLUTION - METODO SAVINO®
 
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Denisenko Sergei
 
How to clean an array
How to clean an arrayHow to clean an array
How to clean an array
Andrew Shitov
 
Алгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обучении
Witology
 
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Newprolab
 
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"
Newprolab
 
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Newprolab
 
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Newprolab
 
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Newprolab
 
Теория и практика .NET-бенчмаркинга (25.01.2017, Москва)
 Теория и практика .NET-бенчмаркинга (25.01.2017, Москва) Теория и практика .NET-бенчмаркинга (25.01.2017, Москва)
Теория и практика .NET-бенчмаркинга (25.01.2017, Москва)
Andrey Akinshin
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
Сергей Пономарев
 
کماؤ سوچ
کماؤ سوچکماؤ سوچ
کماؤ سوچ
maqsood hasni
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
Newprolab
 

Viewers also liked (17)

Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
 
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
 
Presentazione Savino Università Bocconi
Presentazione Savino Università BocconiPresentazione Savino Università Bocconi
Presentazione Savino Università Bocconi
 
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
 
How to clean an array
How to clean an arrayHow to clean an array
How to clean an array
 
Алгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обучении
 
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
 
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"
 
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
 
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
 
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
 
Теория и практика .NET-бенчмаркинга (25.01.2017, Москва)
 Теория и практика .NET-бенчмаркинга (25.01.2017, Москва) Теория и практика .NET-бенчмаркинга (25.01.2017, Москва)
Теория и практика .NET-бенчмаркинга (25.01.2017, Москва)
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
 
کماؤ سوچ
کماؤ سوچکماؤ سوچ
کماؤ سوچ
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 

Similar to Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках серебряной пули

BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationAnton Gorokhov
 
Опыт моделеварения от команды ComputerVision Mail.ru
Опыт моделеварения от команды ComputerVision Mail.ruОпыт моделеварения от команды ComputerVision Mail.ru
Опыт моделеварения от команды ComputerVision Mail.ru
Eduard Tyantov
 
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Ontico
 
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обученияДмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
AIST
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep Learning
Grigory Sapunov
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
Yandex
 
MySQL: Есть ли жизнь после 1 млрд. записей.
MySQL: Есть ли жизнь после 1 млрд. записей.MySQL: Есть ли жизнь после 1 млрд. записей.
MySQL: Есть ли жизнь после 1 млрд. записей.
MageCloud
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
Ontico
 
Нейронные сети и Keras. Часть 1
Нейронные сети и Keras. Часть 1Нейронные сети и Keras. Часть 1
Нейронные сети и Keras. Часть 1
PyNSK
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
Ontico
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
Grigory Sapunov
 
20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06Computer Science Club
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Dmitry Kornev
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Bitworks Software
 
Сергей Чистович "Подходы к кешированию на UGC-сервисе"
Сергей Чистович "Подходы к кешированию на UGC-сервисе"Сергей Чистович "Подходы к кешированию на UGC-сервисе"
Сергей Чистович "Подходы к кешированию на UGC-сервисе"
Yandex
 
Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1
Pavel Egorov
 
Как мы храним 75 млн пользователей (Денис Бирюков)
Как мы храним 75 млн пользователей  (Денис Бирюков)Как мы храним 75 млн пользователей  (Денис Бирюков)
Как мы храним 75 млн пользователей (Денис Бирюков)Ontico
 
Новые технологии в поисковом ранжировании
Новые технологии в поисковом ранжированииНовые технологии в поисковом ранжировании
Новые технологии в поисковом ранжировании
Nikolay Khivrin
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шагиAnton Gorokhov
 

Similar to Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках серебряной пули (20)

BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 
Опыт моделеварения от команды ComputerVision Mail.ru
Опыт моделеварения от команды ComputerVision Mail.ruОпыт моделеварения от команды ComputerVision Mail.ru
Опыт моделеварения от команды ComputerVision Mail.ru
 
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
 
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обученияДмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep Learning
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
 
MySQL: Есть ли жизнь после 1 млрд. записей.
MySQL: Есть ли жизнь после 1 млрд. записей.MySQL: Есть ли жизнь после 1 млрд. записей.
MySQL: Есть ли жизнь после 1 млрд. записей.
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
 
Нейронные сети и Keras. Часть 1
Нейронные сети и Keras. Часть 1Нейронные сети и Keras. Часть 1
Нейронные сети и Keras. Часть 1
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
 
Efficiency vvv
Efficiency vvvEfficiency vvv
Efficiency vvv
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Сергей Чистович "Подходы к кешированию на UGC-сервисе"
Сергей Чистович "Подходы к кешированию на UGC-сервисе"Сергей Чистович "Подходы к кешированию на UGC-сервисе"
Сергей Чистович "Подходы к кешированию на UGC-сервисе"
 
Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1
 
Как мы храним 75 млн пользователей (Денис Бирюков)
Как мы храним 75 млн пользователей  (Денис Бирюков)Как мы храним 75 млн пользователей  (Денис Бирюков)
Как мы храним 75 млн пользователей (Денис Бирюков)
 
Новые технологии в поисковом ранжировании
Новые технологии в поисковом ранжированииНовые технологии в поисковом ранжировании
Новые технологии в поисковом ранжировании
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шаги
 

More from Newprolab

Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Newprolab
 
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Newprolab
 
Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"
Newprolab
 
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
Newprolab
 
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Newprolab
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Newprolab
 
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Newprolab
 
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Newprolab
 

More from Newprolab (8)

Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
 
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
 
Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"
 
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
 
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
 
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
 
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
 

Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках серебряной пули

  • 1. Классификация текстов: в поисках серебряной пули Юрий Макаров, Data Scientist, E-Contenta
  • 2. Коротко о задаче, и зачем оно нужно С точки зрения бизнеса: 1. Позволяет сегментировать интернет 2. Помогает вытаскивать мета-информацию для более точных персональных рекомендаций С технической точки зрения: 1. Задача обучения с учителем 2. Увлекательный препроцессинг данных 3. Изучается, актуальна, есть state-of-the-art методы 4. Высокие требования к нагрузкам
  • 3. На каких данных нам бы поучиться? Проблемы: - Сложно добавлять новые темы - Сложно увеличивать количество обучающих примеров - Время и финансы Асессоры?
  • 4. На каких данных мы учимся? Плюсы: - Не требуются асессоры - Легко добавлять новые темы - Можно увеличивать количество обучающих примеров Минусы: - Верим в правильность и корректность поисковых запросов - Доверяем алгоритмам ранжирования Поисковая выдача :)
  • 5. Как измерить качество? - Меткость (accuracy) по всем классам - Меткость, точность (precision), полнота (recall) по каждому классу - Что-то похитрее, если у классов есть взаимосвязь: метрика ближайшего общего предка (Least Common Ancestor Metrics) https://arxiv.org/pdf/1306.6802v2.pdf
  • 7. Проблемы обработки текста - Очень много шума - Аббревиатуры - Опечатки - Сложность разбиения на предложения - Токенизация - Стоп-слова - ...
  • 8. Основные способы векторизации текста - Модель мешка слов (bag-of-words) - порядок слов не имеет значение Предложение: Мама мыла раму. Мешок слов: Мама - 1 раму - 1 мыла - 1 - Фреймворк Word2Vec (word2vec paper) Пример: король - королева = мужчина - женщина
  • 9. Данные готовы, время экспериментов! Модель LCA metrics TF-IDF clusters for each node 0.15 Multinomial Naive Bayes (TF-IDF) 0.49 Multinomial Naive Bayes (binary features) 0.53 SVM (poly kernel, C=0.001, TF-IDF) 0.55 Logistic Regression (Ridge, C=1.0, TF-IDF) 0.41 DNN (2 layers, dropout, TF-IDF inputs) 0.62 LSTM (dropout, TF-IDF, 20 epoch) 0.66 LSTM (dropout, w2v, 20 epoch) 0.71
  • 10. Что придумали мы? Идея коротко: обучили случайный лес (random forest) на каждый класс (стратегия One-vs-All) с необычной обработкой признаков +
  • 11. Outperform it! Модель LCA metrics TF-IDF clusters for each node 0.15 Multinomial Naive Bayes (TF-IDF) 0.49 Multinomial Naive Bayes (binary features) 0.53 SVM (poly kernel, C=0.001, TF-IDF) 0.55 Logistic Regression (Ridge, C=1.0, TF-IDF) 0.41 DNN (2 layers, dropout, TF-IDF inputs) 0.62 LSTM (dropout, TF-IDF, 20 epoch) 0.66 LSTM (dropout, w2v, 20 epoch) 0.71 Random Forest + great features 0.89
  • 12. Важные идеи и итоги - Экспериментируйте: идея из смежной области может сработать хорошо - Garbage in - garbage out. - Ищите компромисс между временем и качеством (http://www.aclweb.org/anthology/P12-2018) - Стоит заметить, что на “академических” датасетах нейросети всех победили
  • 13. Полезные ссылки - https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classif ication.pdf - классификация текстов с помощью CNN на символьном уровне - https://arxiv.org/pdf/1511.01432v1.pdf - semi-supervised learning для классификации текстов - http://ling.go.mail.ru/static/models/ruscorpora_russe.model.bin.gz - word2vec, обученный на национально корпусе русского языка - https://cs224d.stanford.edu/reports/BergerMark.pdf - про важность предварительного обучения embedding слоя для нейросетей - https://arxiv.org/pdf/1506.00019v4.pdf - большая и содержательная статья про RNN - http://www.aclweb.org/anthology/P12-2018 - комбинация наивного Байеса и SVM дает результат на несколько процентов хуже нейросетей на большинстве датасетов - https://arxiv.org/pdf/1408.5882v2.pdf - CNN для классификации текстов на уровне слов, а не символов - https://research.fb.com/wp-content/uploads/2016/11/bag_of_tricks_for_efficient_text_cl assification.pdf - FastText by facebook.
  • 14. Юрий Макаров Data Scientist (E-Contenta, SPbSEU) lvoursl@gmail.com https://www.linkedin.com/in/lvoursl/