SlideShare a Scribd company logo
1 of 35
Машинное обучение
в Дзене
Евгений Соколов
Дмитрий Ушанов
Фидбэк пользователя
• Клики
• Лайки, дизлайки, блокировки
• Время чтения статей
• Время просмотра карточки
• …
Факторы
• Показы, клики, CTR по всем пользователям
• Лайки, дизлайки, блокировки по всем пользователям
• Ранжирование по CTR — достаточно сильный алгоритм
Проблемы CTR
• Проблема кликбейта
• Кликовые факторы и кликовая
целевая переменная мешают
находить закономерности в других
группах факторов
• Утечка значимости факторов в CTR’ы
• …но если не учитывать фидбэк, то
большая аудитория не даёт
конкурентного преимущества
Пессимизация нежелательного контента
• Контентные классификаторы:
• Computer vision, Текстовые классификаторы
• Сбор асессорских оценок:
• Яндекс Толока, Amazon Mechanical Turk
• Метрики качества контента
TrueSkill
• Система вычисления рейтингов
• Соревнование: две статьи, которые оказались соседями в выдаче
• Победила та статья, по которой был клик
• Позволяет быстро выяснить кликабельность новой статьи по её
соревнованиям со старыми статьями
• Позволяет переносить статистику с популярных статей на
непопулярные
TrueSkill
TrueSkill
TrueSkill
Явный фидбэк
• Явные сигналы могут противоречить кликам
• Пример: сайт с некачественной мобильной версией
• Модель не учитывает факторы по
лайкам/дизлайкам/блокировкам, нет ощущения управляемости
Явный фидбэк
• Вариант 1: большие веса для кликов/некликов, по которым имеет
явный фидбэк
• Вариант 2: переход к вещественной целевой переменной
• Вариант 3: отбор кандидатов только на основе контентных
факторов и явного фидбэка
• Вариант 4: отдельная модель для каждого типа фидбэка
• Как принимать такие эксперименты?
Анализ контента
С чего начинаются рекомендации?
Сложности масштабирования Дзена
• Мало пользовательского фидбека
Сложности масштабирования Дзена
• Мало пользовательского фидбека
• Документы на разных языках
Сложности масштабирования Дзена
• Мало пользовательского фидбека
• Документы на разных языках
• Пользовательские интересы сильно варьируются по странам
Сложности масштабирования Дзена
• Мало пользовательского фидбека
• Документы на разных языках
• Пользовательские интересы сильно варьируются по странам
• Время жизни документа в ленте рекомендаций 3-5 дней
• Существуют разные виды контента:
• Тексты
• Картинки
• Видео
• Метаданные
Текстовые представления
• Sparse:
• Bag of words, Bag of n-grams, Skip-grams
Текстовые представления
• Sparse:
• Bag of words, Bag of n-grams, Skip-grams
• Topic models:
• LDA, PLSA
Текстовые представления
• Sparse:
• Bag of words, Bag of n-grams, Skip-grams
• Topic models:
• LDA, PLSA
• Neural Network Based:
• Word2vec, Paragraph2vec
Как объединить векторные
представления, полученные по
текстам и SVD?
Контентные факторы
Use text embeddings
Контентные факторы
• Разные векторные представления текста: LDA, w2v и др.
• Разный пользовательский фидбек: клики, лайки, дизлайки
• Разные части документа: заголовок, сниппет, текст
Как можно сделать лучше?
Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей
Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей
• При обучении представлений не используется знание о поведении пользователей в ленте
Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей
• При обучении представлений не используется знание о поведении пользователей в ленте
• Разные виды контента: URL, картинки, видео, html и т.д.
Резюме
• Глобальные кликовые факторы — много качества и высокий риск
переобучения
• Существуют методы для быстрого переноса кликовой статистики на
новые и непопулярные документы
• Учёт явного фидбэка — много вариантов и сложности с приёмкой
• Хорошие масштабируемые факторы получаются на основе
представлений слов и текстов
• Представления и SVD позволяют совместить контентную и кликовую
информацию
esky@yandex-team.ru
tddy@yandex-team.ru

More Related Content

What's hot

Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыДмитрий Севальнев
 
Оптимизация внутренних ссылок. Модуль 19
Оптимизация внутренних ссылок. Модуль 19Оптимизация внутренних ссылок. Модуль 19
Оптимизация внутренних ссылок. Модуль 19EMPOpro
 
Как собрать семантическое ядро бесплатно. 10 основных инструментов
Как собрать семантическое ядро бесплатно. 10 основных инструментовКак собрать семантическое ядро бесплатно. 10 основных инструментов
Как собрать семантическое ядро бесплатно. 10 основных инструментовСергей Кокшаров
 
Константин Леонович - Зрелый линк-менеджмент
Константин Леонович - Зрелый линк-менеджментКонстантин Леонович - Зрелый линк-менеджмент
Константин Леонович - Зрелый линк-менеджментАлександр Алаев
 
Как подготовить сайт к активному продвижению. / #ForwardSEO
Как подготовить сайт к активному продвижению. / #ForwardSEOКак подготовить сайт к активному продвижению. / #ForwardSEO
Как подготовить сайт к активному продвижению. / #ForwardSEOСергей Кокшаров
 
перелинковка в вопросах и ответах
перелинковка в вопросах и ответахперелинковка в вопросах и ответах
перелинковка в вопросах и ответахEMPOpro
 
критический анализ Web проекта
критический анализ Web проектакритический анализ Web проекта
критический анализ Web проектаMaksym Balaklytskyi
 
10 наиболее важных инструментов seo-оптимизатора (вебинар #2)
10 наиболее важных инструментов seo-оптимизатора (вебинар #2)10 наиболее важных инструментов seo-оптимизатора (вебинар #2)
10 наиболее важных инструментов seo-оптимизатора (вебинар #2)Сергей Кокшаров
 
Инструкция: SEO продвижение сайтов в США
Инструкция: SEO продвижение сайтов в СШАИнструкция: SEO продвижение сайтов в США
Инструкция: SEO продвижение сайтов в СШАUkrop Media
 

What's hot (11)

Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторы
 
Оптимизация внутренних ссылок. Модуль 19
Оптимизация внутренних ссылок. Модуль 19Оптимизация внутренних ссылок. Модуль 19
Оптимизация внутренних ссылок. Модуль 19
 
Как юзабилити помогает SEO
Как юзабилити помогает SEOКак юзабилити помогает SEO
Как юзабилити помогает SEO
 
IMU_RBS
IMU_RBSIMU_RBS
IMU_RBS
 
Как собрать семантическое ядро бесплатно. 10 основных инструментов
Как собрать семантическое ядро бесплатно. 10 основных инструментовКак собрать семантическое ядро бесплатно. 10 основных инструментов
Как собрать семантическое ядро бесплатно. 10 основных инструментов
 
Константин Леонович - Зрелый линк-менеджмент
Константин Леонович - Зрелый линк-менеджментКонстантин Леонович - Зрелый линк-менеджмент
Константин Леонович - Зрелый линк-менеджмент
 
Как подготовить сайт к активному продвижению. / #ForwardSEO
Как подготовить сайт к активному продвижению. / #ForwardSEOКак подготовить сайт к активному продвижению. / #ForwardSEO
Как подготовить сайт к активному продвижению. / #ForwardSEO
 
перелинковка в вопросах и ответах
перелинковка в вопросах и ответахперелинковка в вопросах и ответах
перелинковка в вопросах и ответах
 
критический анализ Web проекта
критический анализ Web проектакритический анализ Web проекта
критический анализ Web проекта
 
10 наиболее важных инструментов seo-оптимизатора (вебинар #2)
10 наиболее важных инструментов seo-оптимизатора (вебинар #2)10 наиболее важных инструментов seo-оптимизатора (вебинар #2)
10 наиболее важных инструментов seo-оптимизатора (вебинар #2)
 
Инструкция: SEO продвижение сайтов в США
Инструкция: SEO продвижение сайтов в СШАИнструкция: SEO продвижение сайтов в США
Инструкция: SEO продвижение сайтов в США
 

Similar to Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов

Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...Yandex
 
Создание эффективного контента
Создание эффективного контентаСоздание эффективного контента
Создание эффективного контентаАртем Пилипець
 
Блоги: берем лучшее от маркетинга, СМИ и digital'a
Блоги: берем лучшее от маркетинга, СМИ и digital'aБлоги: берем лучшее от маркетинга, СМИ и digital'a
Блоги: берем лучшее от маркетинга, СМИ и digital'aFresh IT
 
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"Yandex
 
Как государственным учреждениям использовать Интернет
Как государственным учреждениям использовать ИнтернетКак государственным учреждениям использовать Интернет
Как государственным учреждениям использовать ИнтернетTania Evlampieva
 
Продвижение Интернет-магазина спиртных напитков
Продвижение Интернет-магазина спиртных напитковПродвижение Интернет-магазина спиртных напитков
Продвижение Интернет-магазина спиртных напитковAnna Yermolayeva
 
InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems
 
Продвижение группы ВКонтакте
Продвижение группы ВКонтактеПродвижение группы ВКонтакте
Продвижение группы ВКонтактеTania Evlampieva
 
Как повысить рейтинг бизнес-страницы в Facebook?
Как повысить рейтинг бизнес-страницы в Facebook?Как повысить рейтинг бизнес-страницы в Facebook?
Как повысить рейтинг бизнес-страницы в Facebook?awgua
 
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...Инна Юрик
 
How to study your audience? End user research
How to study your audience? End user researchHow to study your audience? End user research
How to study your audience? End user researchEugene Kulakov
 
Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.Евгений Курбанов
 
Архитектура программных систем на Node.js
Архитектура программных систем на Node.jsАрхитектура программных систем на Node.js
Архитектура программных систем на Node.jsTimur Shemsedinov
 
SECON'2017, Журавлев Денис, Маркетинг без маркетолога
SECON'2017, Журавлев Денис, Маркетинг без маркетологаSECON'2017, Журавлев Денис, Маркетинг без маркетолога
SECON'2017, Журавлев Денис, Маркетинг без маркетологаSECON
 

Similar to Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов (20)

Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
 
Veb 2 0
Veb 2 0Veb 2 0
Veb 2 0
 
Артем Пилипец «Контент для белого SEO»
Артем Пилипец «Контент для белого SEO»Артем Пилипец «Контент для белого SEO»
Артем Пилипец «Контент для белого SEO»
 
Создание эффективного контента
Создание эффективного контентаСоздание эффективного контента
Создание эффективного контента
 
Блоги: берем лучшее от маркетинга, СМИ и digital'a
Блоги: берем лучшее от маркетинга, СМИ и digital'aБлоги: берем лучшее от маркетинга, СМИ и digital'a
Блоги: берем лучшее от маркетинга, СМИ и digital'a
 
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
 
Как государственным учреждениям использовать Интернет
Как государственным учреждениям использовать ИнтернетКак государственным учреждениям использовать Интернет
Как государственным учреждениям использовать Интернет
 
О чем писать в социальных сетях и блоге? — MarkEd
О чем писать в социальных сетях и блоге?  — MarkEdО чем писать в социальных сетях и блоге?  — MarkEd
О чем писать в социальных сетях и блоге? — MarkEd
 
Продвижение Интернет-магазина спиртных напитков
Продвижение Интернет-магазина спиртных напитковПродвижение Интернет-магазина спиртных напитков
Продвижение Интернет-магазина спиртных напитков
 
Ageev
AgeevAgeev
Ageev
 
InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015
 
Продвижение группы ВКонтакте
Продвижение группы ВКонтактеПродвижение группы ВКонтакте
Продвижение группы ВКонтакте
 
Как повысить рейтинг бизнес-страницы в Facebook?
Как повысить рейтинг бизнес-страницы в Facebook?Как повысить рейтинг бизнес-страницы в Facebook?
Как повысить рейтинг бизнес-страницы в Facebook?
 
3 andriy osypov
3 andriy osypov3 andriy osypov
3 andriy osypov
 
Prezentare internet
Prezentare internetPrezentare internet
Prezentare internet
 
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
 
How to study your audience? End user research
How to study your audience? End user researchHow to study your audience? End user research
How to study your audience? End user research
 
Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.
 
Архитектура программных систем на Node.js
Архитектура программных систем на Node.jsАрхитектура программных систем на Node.js
Архитектура программных систем на Node.js
 
SECON'2017, Журавлев Денис, Маркетинг без маркетолога
SECON'2017, Журавлев Денис, Маркетинг без маркетологаSECON'2017, Журавлев Денис, Маркетинг без маркетолога
SECON'2017, Журавлев Денис, Маркетинг без маркетолога
 

More from AvitoTech

Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)AvitoTech
 
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...AvitoTech
 
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)AvitoTech
 
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)AvitoTech
 
Yandex Tank - Арсений Фомченко
Yandex Tank - Арсений ФомченкоYandex Tank - Арсений Фомченко
Yandex Tank - Арсений ФомченкоAvitoTech
 
Migro - Юрий Богомолов
Migro - Юрий БогомоловMigro - Юрий Богомолов
Migro - Юрий БогомоловAvitoTech
 
TableKit - Максим Соколов
TableKit - Максим СоколовTableKit - Максим Соколов
TableKit - Максим СоколовAvitoTech
 
Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)AvitoTech
 
SimplePEG - Алексей Охрименко
SimplePEG - Алексей ОхрименкоSimplePEG - Алексей Охрименко
SimplePEG - Алексей ОхрименкоAvitoTech
 
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 Как перестать бояться и начать контрибьютить - Алексей Кудрявцев Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
Как перестать бояться и начать контрибьютить - Алексей КудрявцевAvitoTech
 
"Анонимизация фото с помощью Vision", Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision", Хомутников Тимофей, AvitoAvitoTech
 
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the AirAvitoTech
 
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb..."ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...AvitoTech
 
ASO for iOS 11
ASO for iOS 11ASO for iOS 11
ASO for iOS 11AvitoTech
 
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)AvitoTech
 
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...AvitoTech
 
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)AvitoTech
 
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)AvitoTech
 
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...AvitoTech
 
Конкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий РубцовКонкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий РубцовAvitoTech
 

More from AvitoTech (20)

Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
 
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
 
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
 
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
 
Yandex Tank - Арсений Фомченко
Yandex Tank - Арсений ФомченкоYandex Tank - Арсений Фомченко
Yandex Tank - Арсений Фомченко
 
Migro - Юрий Богомолов
Migro - Юрий БогомоловMigro - Юрий Богомолов
Migro - Юрий Богомолов
 
TableKit - Максим Соколов
TableKit - Максим СоколовTableKit - Максим Соколов
TableKit - Максим Соколов
 
Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)
 
SimplePEG - Алексей Охрименко
SimplePEG - Алексей ОхрименкоSimplePEG - Алексей Охрименко
SimplePEG - Алексей Охрименко
 
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 Как перестать бояться и начать контрибьютить - Алексей Кудрявцев Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 
"Анонимизация фото с помощью Vision", Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision", Хомутников Тимофей, Avito
 
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
 
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb..."ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
 
ASO for iOS 11
ASO for iOS 11ASO for iOS 11
ASO for iOS 11
 
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
 
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
 
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
 
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
 
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
 
Конкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий РубцовКонкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий Рубцов
 

Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов

  • 1. Машинное обучение в Дзене Евгений Соколов Дмитрий Ушанов
  • 2.
  • 3.
  • 4.
  • 5. Фидбэк пользователя • Клики • Лайки, дизлайки, блокировки • Время чтения статей • Время просмотра карточки • …
  • 6. Факторы • Показы, клики, CTR по всем пользователям • Лайки, дизлайки, блокировки по всем пользователям • Ранжирование по CTR — достаточно сильный алгоритм
  • 7.
  • 8.
  • 9. Проблемы CTR • Проблема кликбейта • Кликовые факторы и кликовая целевая переменная мешают находить закономерности в других группах факторов • Утечка значимости факторов в CTR’ы • …но если не учитывать фидбэк, то большая аудитория не даёт конкурентного преимущества
  • 10. Пессимизация нежелательного контента • Контентные классификаторы: • Computer vision, Текстовые классификаторы • Сбор асессорских оценок: • Яндекс Толока, Amazon Mechanical Turk • Метрики качества контента
  • 11. TrueSkill • Система вычисления рейтингов • Соревнование: две статьи, которые оказались соседями в выдаче • Победила та статья, по которой был клик • Позволяет быстро выяснить кликабельность новой статьи по её соревнованиям со старыми статьями • Позволяет переносить статистику с популярных статей на непопулярные
  • 15. Явный фидбэк • Явные сигналы могут противоречить кликам • Пример: сайт с некачественной мобильной версией • Модель не учитывает факторы по лайкам/дизлайкам/блокировкам, нет ощущения управляемости
  • 16. Явный фидбэк • Вариант 1: большие веса для кликов/некликов, по которым имеет явный фидбэк • Вариант 2: переход к вещественной целевой переменной • Вариант 3: отбор кандидатов только на основе контентных факторов и явного фидбэка • Вариант 4: отдельная модель для каждого типа фидбэка • Как принимать такие эксперименты?
  • 18. С чего начинаются рекомендации?
  • 19. Сложности масштабирования Дзена • Мало пользовательского фидбека
  • 20. Сложности масштабирования Дзена • Мало пользовательского фидбека • Документы на разных языках
  • 21. Сложности масштабирования Дзена • Мало пользовательского фидбека • Документы на разных языках • Пользовательские интересы сильно варьируются по странам
  • 22. Сложности масштабирования Дзена • Мало пользовательского фидбека • Документы на разных языках • Пользовательские интересы сильно варьируются по странам • Время жизни документа в ленте рекомендаций 3-5 дней
  • 23. • Существуют разные виды контента: • Тексты • Картинки • Видео • Метаданные
  • 24. Текстовые представления • Sparse: • Bag of words, Bag of n-grams, Skip-grams
  • 25. Текстовые представления • Sparse: • Bag of words, Bag of n-grams, Skip-grams • Topic models: • LDA, PLSA
  • 26. Текстовые представления • Sparse: • Bag of words, Bag of n-grams, Skip-grams • Topic models: • LDA, PLSA • Neural Network Based: • Word2vec, Paragraph2vec
  • 27. Как объединить векторные представления, полученные по текстам и SVD?
  • 29. Контентные факторы • Разные векторные представления текста: LDA, w2v и др. • Разный пользовательский фидбек: клики, лайки, дизлайки • Разные части документа: заголовок, сниппет, текст
  • 31. Контентные факторы v2.0 • Представления для документов учатся независимо от представлений пользователей
  • 32. Контентные факторы v2.0 • Представления для документов учатся независимо от представлений пользователей • При обучении представлений не используется знание о поведении пользователей в ленте
  • 33. Контентные факторы v2.0 • Представления для документов учатся независимо от представлений пользователей • При обучении представлений не используется знание о поведении пользователей в ленте • Разные виды контента: URL, картинки, видео, html и т.д.
  • 34.
  • 35. Резюме • Глобальные кликовые факторы — много качества и высокий риск переобучения • Существуют методы для быстрого переноса кликовой статистики на новые и непопулярные документы • Учёт явного фидбэка — много вариантов и сложности с приёмкой • Хорошие масштабируемые факторы получаются на основе представлений слов и текстов • Представления и SVD позволяют совместить контентную и кликовую информацию esky@yandex-team.ru tddy@yandex-team.ru