Научно-технический семинар «Ретвит-каскады: предсказываем популярность контента» в московском офисе Яндекса, 14 февраля 2013 г.
Андрей Купавский, исследователь группы теории, Яндекс.
6. Зачем предсказывать популярность
контента?
1. Реклама, продвижение брендов
2. Социальный журнализм
3. Улучшение качества и свежести выдачи
7. Твиттер
• 500 млн. пользователей
• 150 млн. пользователей активны раз в месяц
• 340 млн сообщений в день
• теория 4-х рукопожатий
• среднее количество читателей – 150
• у 80% пользователей менее 50 читателей
8. Авторитетность пользователей
• Из топ-20 пользователей по числу читателей только
четверо есть в топе по числу ретвитов
• Практически отсутствует корреляция (0.1) между
списками топ-10% по этим ранжированиям
13. Ретвит-каскады
• ретвиты получает 5-6 % всех сообщений
• ретвиты составляют около 15 % сообщений
• за первый час происходит 90 % всех ретвитов
14. Ретвит-каскады
• Лента среднего пользователя наполовину состоит
из сообщений, написанных топ-20000
пользователями по числу читателей
• Популярность распределена в соответствии со
степенным законом
19. Модификации модели
• Вероятность заражения может зависеть от
времени.
• Вероятность заражения может зависеть от
пользователя.
• Вероятность заражения во второй раз может
быть ненулевой.
20. Анализ
+:
• простота
• имеет физический смысл
–:
• слишком мало или слишком много параметров
• нужно обрабатывать данные о структуре сети
• подбор параметров?
• зависимость от контента?
23. Линейная модель влияния
• Зная распространение на момент i, предсказываем
объем на момент i+1
• Фиксированные источники с функцией
влиятельности, зависящей от времени
• Объем – сумма влиятельностей зараженных до
этого источников
24. Анализ
+:
• влияние источников явно вычисляется
• влияние зависит от времени
• не требуется структура сети
–:
• фиксированные источники
• вычислительная сложность
• не учитывается структура сети
• предсказание только на следующий момент
25. Анализ
• Подходит для моделирования распространения в
блогах и СМИ
• Для нашей задачи не очень подходит: мало
источников, краткосрочное предсказание
26. Машинное обучение
• Есть целевая функция
• Есть обучающая выборка, на ней вычисляются
факторы
• Алгоритм оптимальным образом разбивает твиты
на классы. В каждом классе предсказанная
популярность постоянна
28. Анализ
+:
• малая вычислительная сложность
• дают хороший результат
• можно улучшать за счет новых факторов
–:
• отсутствие физической модели
• непонятно, как именно распространяется
сообщение
33. Экспериментальные результаты
• Предсказание точнее на короткие промежутки
• Предсказание на 20-30% точнее с данными за
первые 30 секунд
• Текстовые факторы почти не играют роли
• Предсказанное число ретвитов отличается от
реального в 2-3 раза.
35. Важность факторов
• Популярность твита в первую очередь зависит от
авторитетности пользователя
• Начальное распространение определяет, насколько
удачен этот твит для пользователя
38. Анализ
• Пусть стоимость одного читателя – 10 копеек
• При a = 10 рублей наиболее эффективны
пользователи, получающие менее одного ретвита
• Даже при а = 1000 рублей оптимальны
пользователи, получающие по несколько ретвитов
39. Дальнейшие исследования
• Предсказание других характеристик: клики по
ссылкам, просмотры видео и т.п.
• Учитывать контекст, тренды
• Применение в различных сервисах Яндекса
40. Литература
• E. Bakshy et. al., “Identifying 'Influencers' on Twitter”,
WWW'11
• A. Kupavskii et. al., “Prediction of Retweet Cascade
Size over Time”, CIKM'12
• H. Kwak et. al., “What is Twitter, a Social Network or a
News Media?”, WWW'10
• G.V. Steeg, R. Ghosh, K. Lerman, “What Stops Social
Epidemics?”, ICWSM’11
• J. Yang, J. Leskovec, “Modeling Information Diffusion
in Implicit Networks”, IEEE'10