Юрий Макаров, Data Scientist, E-Contenta. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Yandex
Свёрточные нейронные сети позволяют получать потрясающие результаты во многих задачах компьютерного зрения. В этом докладе я расскажу о нашем опыте обучения и применения свёрточных нейронных сетей. Отдельно будет затронут актуальный вопрос сжатия и ускорения нейросетевых моделей.
Ключевые идеи алгоритмов обучения по прецедентам и почему про них следует помнить при выборе алгоритма и его настройке, поиске оптимальных параметров. Какие подходы позволяют повысить качество модели, какие программные средства удобно использовать при проведении экспериментов и где спрятаны любимые “грабли”.
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Newprolab
Артем Просветов, Data Scientist, CleverDATA. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Newprolab
Артем Пичугин, Head of data-related programs, New Professions Lab. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Newprolab
Андрей Уваров, Руководитель по аналитическим сервисам, МегаФон. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanNewprolab
Евгений Гапон, Директор по аналитике, Qlean. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Yandex
Свёрточные нейронные сети позволяют получать потрясающие результаты во многих задачах компьютерного зрения. В этом докладе я расскажу о нашем опыте обучения и применения свёрточных нейронных сетей. Отдельно будет затронут актуальный вопрос сжатия и ускорения нейросетевых моделей.
Ключевые идеи алгоритмов обучения по прецедентам и почему про них следует помнить при выборе алгоритма и его настройке, поиске оптимальных параметров. Какие подходы позволяют повысить качество модели, какие программные средства удобно использовать при проведении экспериментов и где спрятаны любимые “грабли”.
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Newprolab
Артем Просветов, Data Scientist, CleverDATA. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Newprolab
Артем Пичугин, Head of data-related programs, New Professions Lab. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Newprolab
Андрей Уваров, Руководитель по аналитическим сервисам, МегаФон. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanNewprolab
Евгений Гапон, Директор по аналитике, Qlean. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Newprolab
Светлана Крылова, Руководитель аналитического центра, Brand Analytics. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыNewprolab
Александр Сербул, Руководитель направления, 1С-Битрикс. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системеNewprolab
Анатолий Востряков, Руководитель направления диалоговых систем и умных помощников, Segmento. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Il 6 Marzo all'Univesità Bocconi ho parlato della Digitalizzazione dei Processi legati alla Fatturazione Elettronica, partendo dalla descrizione della normativa italiana e dei Dlgs 127/2015 e Dlgs 193/2016.
Алгоритмы классификации в машинном обученииWitology
В докладе рассмотрены наиболее популярные алгоритмы классификации в машинном обучении, их преимущества и недостатки, а также приведены результаты использования алгоритмов на реальных данных, в частности, в задаче классификации текстов по классам эмоций.
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Newprolab
Александр Ларьяновский, управляющий партнер, SkyEng.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Newprolab
Павел Клеменков, Head of machine learning department, Rambler & Co. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Newprolab
Антон Джораев, Senior Enterprise Business Development Manager, NVIDIA. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Анджей Аршавский, Директор ЦК, ЦК по супермассивам данных, Сбербанк-Технологии. "Типы данных и корпоративная платформа для полного цикла работы с данными"
•19:20-19:40 Максим Еременко, Управляющий директор-начальник управления, Управление инструментов и моделей, Сбербанк. "Как модели могут сохранять или зарабатывать деньги?"
•19:40-20:00 Тихонов Роман, Управляющий директор — директор управления, Управление валидации, Сбербанк. "Кейсы Сбербанка: от предсказания дефолта в реальном времени до глубинного обучения на данных естественного языка".
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Опыт моделеварения от команды ComputerVision Mail.ruEduard Tyantov
Команда Computer Vision Mail.ru предоставляет решения для нескольких продуктов Mail.ru: Облако, Vision (b2b-продукт), Почта. Спектр проектов достаточно широкий и включает в себя такие задачи (но не ограничивается ими), как Face Recognition, OCR и реставрация фотографий. За несколько лет работы мы споткнулись обо всевозможные грабли и встречаем одни и те же челленжи:
* Какие архитектуры нейросеток, подходы, хаки работают на большом спектре задач ?
* Как организовать инфраструктуру для удобного обучения моделей ?
* Каким образом катить и сервить модели в проде, чтобы это было удобно для всех?
В своем докладе расскажу о полном жизненном цикле проектов в Computer Vision: от постановки задачи до запуска в production.
Video: https://www.youtube.com/watch?v=oOtBt2jqXgw&feature=youtu.be&list=PLH-XmS0lSi_yY4rQCIZyx5Np57zc77OyE&t=21658
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Ontico
В докладе я рассмотрю современные архитектуры диалоговых систем или чат-ботов. Неполный список архитектур влючает Dual Encoders, Neural Conversational Networks with and without context, Generative Hierarchical Neural Networks, Memory Networks and Dynamic Memory Networks. В том числе немного коснемся использования Reinofcement Learning в диалоговых системах. Вначале будет мягкое введение в Deep Learning for NLP для лучшего понимания представленных архитектур.
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Newprolab
Светлана Крылова, Руководитель аналитического центра, Brand Analytics. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыNewprolab
Александр Сербул, Руководитель направления, 1С-Битрикс. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системеNewprolab
Анатолий Востряков, Руководитель направления диалоговых систем и умных помощников, Segmento. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Il 6 Marzo all'Univesità Bocconi ho parlato della Digitalizzazione dei Processi legati alla Fatturazione Elettronica, partendo dalla descrizione della normativa italiana e dei Dlgs 127/2015 e Dlgs 193/2016.
Алгоритмы классификации в машинном обученииWitology
В докладе рассмотрены наиболее популярные алгоритмы классификации в машинном обучении, их преимущества и недостатки, а также приведены результаты использования алгоритмов на реальных данных, в частности, в задаче классификации текстов по классам эмоций.
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Newprolab
Александр Ларьяновский, управляющий партнер, SkyEng.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Newprolab
Павел Клеменков, Head of machine learning department, Rambler & Co. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Newprolab
Антон Джораев, Senior Enterprise Business Development Manager, NVIDIA. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Анджей Аршавский, Директор ЦК, ЦК по супермассивам данных, Сбербанк-Технологии. "Типы данных и корпоративная платформа для полного цикла работы с данными"
•19:20-19:40 Максим Еременко, Управляющий директор-начальник управления, Управление инструментов и моделей, Сбербанк. "Как модели могут сохранять или зарабатывать деньги?"
•19:40-20:00 Тихонов Роман, Управляющий директор — директор управления, Управление валидации, Сбербанк. "Кейсы Сбербанка: от предсказания дефолта в реальном времени до глубинного обучения на данных естественного языка".
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Опыт моделеварения от команды ComputerVision Mail.ruEduard Tyantov
Команда Computer Vision Mail.ru предоставляет решения для нескольких продуктов Mail.ru: Облако, Vision (b2b-продукт), Почта. Спектр проектов достаточно широкий и включает в себя такие задачи (но не ограничивается ими), как Face Recognition, OCR и реставрация фотографий. За несколько лет работы мы споткнулись обо всевозможные грабли и встречаем одни и те же челленжи:
* Какие архитектуры нейросеток, подходы, хаки работают на большом спектре задач ?
* Как организовать инфраструктуру для удобного обучения моделей ?
* Каким образом катить и сервить модели в проде, чтобы это было удобно для всех?
В своем докладе расскажу о полном жизненном цикле проектов в Computer Vision: от постановки задачи до запуска в production.
Video: https://www.youtube.com/watch?v=oOtBt2jqXgw&feature=youtu.be&list=PLH-XmS0lSi_yY4rQCIZyx5Np57zc77OyE&t=21658
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Ontico
В докладе я рассмотрю современные архитектуры диалоговых систем или чат-ботов. Неполный список архитектур влючает Dual Encoders, Neural Conversational Networks with and without context, Generative Hierarchical Neural Networks, Memory Networks and Dynamic Memory Networks. В том числе немного коснемся использования Reinofcement Learning в диалоговых системах. Вначале будет мягкое введение в Deep Learning for NLP для лучшего понимания представленных архитектур.
Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
РИТ++ 2017, секция ML + IoT + ИБ
Зал Белу-Оризонти, 5 июня, 16:00
Тезисы:
http://ritfest.ru/2017/abstracts/2532.html
Простыми словами расскажем о популярных, эффективных и используемых в нашей компании техниках применения машинного обучения для привлечения и удержания клиентов:
- кластеризации товарного каталога,
- классификации клиентов (готовых перейти на платный тариф, готовых уйти, способных принести прибыль),
- повышении релевантности e-mail-рассылок.
Особое внимание уделим технике использования популярных платформ и библиотек:
- Apache Spark,
- Spark MLlib,
- Hadoop,
- Amazon Kinesns.
Отдельно остановимся на особенностях обработки "больших данных", выборе и разработке параллельных алгоритмов.
Докладчик: Данил Руденко
О докладе:
По некоторым оценкам, больше половины профессий будет автоматизировано – это и есть максимальный объём, на который может быть увеличен рынок алгоритмов машинного обучения, ярчайшем представителем которого являются нейронные сети.
В докладе мы поговорим об общей концепции нейронных сетей, рассмотрим основные Python - фреймворки для машинного обучения, а также реализуем решение задачи классификации изображений с применением Keras.
Машинное обучение в электронной коммерции — практика использования и подводны...Ontico
HighLoad++ 2017
Зал «Найроби+Касабланка», 7 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/2851.html
Анализ, проектирование, разработка и эксплуатация моделей предиктивной аналитики в Битрикс24.
В докладе расскажем, как мы создали несколько хайлоад-моделей для предсказания платных клиентов, потенциальной прибыли клиентов и клиентов, вероятно покидающих сервис. Поделимся опытом выбора алгоритмов, библиотек, тонкой настройки моделей в Spark MLib, фильтрации и обработки бигдаты на кластерах Spark в Amazon Web Services и всем тем, что необходимо для доведения "предиктивных" моделей до работающего при высоких нагрузках сервиса.
Самое важное в докладе - опыт доведения алгоритмов до прикладного бизнес-применения, тонкости и техники выжимания из данных самой ценной информации.
Сергей Чистович "Подходы к кешированию на UGC-сервисе"Yandex
Сергей Чистович "Подходы к кешированию на UGC-сервисе"
Я.Субботник в Санкт-Петербурге
О докладе:
Данные на UGC-сервисах очень быстро меняются, и у каждого пользователя они свои. Выборка этих данных – дорогостоящая операция, поскольку может определяться множеством параметров и сложными условиями. Что и как мы можем кешировать в этой непростой ситуации?
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Newprolab
Дмитрий Гармашев, Руководитель отдела исследований и монетизации данных, QIWI. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...Newprolab
Презентация Вадима Челышкова, Technology Solutions Professional, Microsoft. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. GlowByte, "Культура работы с данными"Newprolab
Презентация Андрея Котова, бизнес-аналитика GlowByte. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...Newprolab
Презентация Андрея Иванова, Директора по продукту DCA.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Newprolab
Презентация директора по развитию E-Contenta Александра Атцика. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
2. Коротко о задаче, и зачем оно нужно
С точки зрения бизнеса:
1. Позволяет сегментировать интернет
2. Помогает вытаскивать мета-информацию для более точных
персональных рекомендаций
С технической точки зрения:
1. Задача обучения с учителем
2. Увлекательный препроцессинг
данных
3. Изучается, актуальна, есть
state-of-the-art методы
4. Высокие требования к нагрузкам
3. На каких данных нам бы поучиться?
Проблемы:
- Сложно добавлять новые темы
- Сложно увеличивать количество обучающих
примеров
- Время и финансы
Асессоры?
4. На каких данных мы учимся?
Плюсы:
- Не требуются асессоры
- Легко добавлять новые темы
- Можно увеличивать количество
обучающих примеров
Минусы:
- Верим в правильность и
корректность поисковых запросов
- Доверяем алгоритмам ранжирования
Поисковая выдача :)
5. Как измерить качество?
- Меткость (accuracy) по всем
классам
- Меткость, точность
(precision), полнота (recall) по
каждому классу
- Что-то похитрее, если у
классов есть взаимосвязь:
метрика ближайшего общего
предка (Least Common
Ancestor Metrics)
https://arxiv.org/pdf/1306.6802v2.pdf
7. Проблемы обработки текста
- Очень много шума
- Аббревиатуры
- Опечатки
- Сложность разбиения на предложения
- Токенизация
- Стоп-слова
- ...
8. Основные способы векторизации текста
- Модель мешка слов
(bag-of-words) - порядок слов
не имеет значение
Предложение: Мама мыла раму.
Мешок слов:
Мама - 1
раму - 1
мыла - 1
- Фреймворк Word2Vec
(word2vec paper)
Пример:
король - королева = мужчина -
женщина
10. Что придумали мы?
Идея коротко: обучили случайный лес (random forest) на
каждый класс (стратегия One-vs-All) с необычной обработкой
признаков
+
11. Outperform it!
Модель LCA metrics
TF-IDF clusters for each node 0.15
Multinomial Naive Bayes (TF-IDF) 0.49
Multinomial Naive Bayes (binary features) 0.53
SVM (poly kernel, C=0.001, TF-IDF) 0.55
Logistic Regression (Ridge, C=1.0, TF-IDF) 0.41
DNN (2 layers, dropout, TF-IDF inputs) 0.62
LSTM (dropout, TF-IDF, 20 epoch) 0.66
LSTM (dropout, w2v, 20 epoch) 0.71
Random Forest + great features 0.89
12. Важные идеи и итоги
- Экспериментируйте: идея из смежной области может
сработать хорошо
- Garbage in - garbage out.
- Ищите компромисс между временем и качеством
(http://www.aclweb.org/anthology/P12-2018)
- Стоит заметить, что на “академических” датасетах
нейросети всех победили
13. Полезные ссылки
- https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classif
ication.pdf - классификация текстов с помощью CNN на символьном уровне
- https://arxiv.org/pdf/1511.01432v1.pdf - semi-supervised learning для классификации
текстов
- http://ling.go.mail.ru/static/models/ruscorpora_russe.model.bin.gz - word2vec,
обученный на национально корпусе русского языка
- https://cs224d.stanford.edu/reports/BergerMark.pdf - про важность предварительного
обучения embedding слоя для нейросетей
- https://arxiv.org/pdf/1506.00019v4.pdf - большая и содержательная статья про RNN
- http://www.aclweb.org/anthology/P12-2018 - комбинация наивного Байеса и SVM
дает результат на несколько процентов хуже нейросетей на большинстве
датасетов
- https://arxiv.org/pdf/1408.5882v2.pdf - CNN для классификации текстов на уровне
слов, а не символов
- https://research.fb.com/wp-content/uploads/2016/11/bag_of_tricks_for_efficient_text_cl
assification.pdf - FastText by facebook.