Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Машинное обучение 
в рекламной системе 
MAIL.RU 
Игорь Кретинин
Данные и признаки 
• Пользователь: поток энергии и информации 
• Интернет: среда распространения и хранения данных (текст,...
Матрицы признаков 
• Корзина токенов как документ 
• Выборка данных о пользователях как корпус документов 
• Разреженные (...
Тематическое моделирование 
game*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013 
igrydljadevochek2...
Машинное обучение 
• Классификация, регрессия, кластеризация (LogisticRegressor, SVM, 
RandomForest, RBM, NeuralNets) 
● Ф...
Бинарная классификация пользователей 
● LDA-преобразование признаков: 
уменьшение размерности 
● T-SNE сжатие в 2D 
● Клас...
Бинарная классификация: AUC ~ 0.75
Распределение пользователей h h.ru
Мультиклассовая задача
Заключение 
• Данные — признаки — классификатор — ансамбль 
• «Хорошие данные» лучше «хорошего классификатора» 
• Признаки...
Спасибо за внимание!
Upcoming SlideShare
Loading in …5
×

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

2,124 views

Published on

Доклад Игоря Кретинина на HighLoad++ 2014.

Published in: Internet
  • Be the first to comment

  • Be the first to like this

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

  1. 1. Машинное обучение в рекламной системе MAIL.RU Игорь Кретинин
  2. 2. Данные и признаки • Пользователь: поток энергии и информации • Интернет: среда распространения и хранения данных (текст, картинки, видео) • Наши данные: логи активности пользователей в Интернете • Извлекаемая информация: посещённые url • Признаки: токены в представлении bag-of-words {token: count} • Трансформация TF-IDF • Разметка: специальные социологические исследования, контрольные группы пользователей, анкетирование, слежение в соц. сетях
  3. 3. Матрицы признаков • Корзина токенов как документ • Выборка данных о пользователях как корпус документов • Разреженные (sparse) матрицы большой размерности • Словарь токенов ~106 • (пользователи x признаки) ~ (105 x 106) • Тематическое моделирование (Latent Dirichlet Allocation) сжимает размерность пространства признаков из словарной (~106) в тематическую (~103)
  4. 4. Тематическое моделирование game*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013 igrydljadevochek2.ru*0.025 play*0.017 igroflot.ru*0.016 flashdozor.ru*0.013 playpack.ru*0.008 … irkutsk.drom.ru*0.346 nirvana.fm*0.105 bratsk.drom.ru*0.091 badanga.ru*0.055 angarsk.drom.ru*0.031 ust-ilimsk.drom.ru*0.016 agentstvo-prazdnik.com*0.016 auto*0.014 … superjob.ru*0.353 vacancy*0.127 rabota*0.109 resume*0.065 myupdate.ru*0.051 clients*0.031 vacancies*0.011 menedzher*0.009 services.fms.gov.ru*0.007 views*0.007 newsdoor.ru*0.007 … odezhda*0.174 obuv*0.141 aksessuary*0.090 detskaya*0.041 plate*0.020 zhenskaya*0.018 tufli*0.009 kurtka*0.009 novye*0.008 shuba*0.007 sapogi*0.006 verhnyaya*0.006 … soccer.ru*0.211 api.oktools.ru*0.045 gooool.org*0.036 footballhd.ru*0.035 vk.flirchi.ru*0.025 euro-football. ru*0.024 translyaciya*0.019 players*0.019 loveradio.ru*0.018 pryamaya*0.015 … dojki.com*0.650 порно*0.039 женщины*0.013 зрелые*0.013 секс*0.011 жены*0.009 мамки*0.009 чужие*0.009 молодые*0.008 девочки*0.008 домашнее*0.007 …
  5. 5. Машинное обучение • Классификация, регрессия, кластеризация (LogisticRegressor, SVM, RandomForest, RBM, NeuralNets) ● Функция потерь (log, hinge, zero-one, huber) и регуляризация (L1, L2, ElasticNet) ● Метрика качества (AUC, Precision/Recall, ConfusionMatrix) ● Кросс-валидация ● Тестирование
  6. 6. Бинарная классификация пользователей ● LDA-преобразование признаков: уменьшение размерности ● T-SNE сжатие в 2D ● Классы не разделимы: нужны дополнительные признаки ● Логистическая регрессия в пространстве токенов
  7. 7. Бинарная классификация: AUC ~ 0.75
  8. 8. Распределение пользователей h h.ru
  9. 9. Мультиклассовая задача
  10. 10. Заключение • Данные — признаки — классификатор — ансамбль • «Хорошие данные» лучше «хорошего классификатора» • Признаки (фичи) и их семантические связи — ключ к решению проблемы • Не все модели одинаково полезны • Важно: кросс-валидация, холд-аут, тестовая выборка • Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей
  11. 11. Спасибо за внимание!

×