Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады:
предсказываем популярность
контента в социальных сетях

Андрей Купавский
Исследователь, группа теории

Содержание доклада

1. Зачем?
2. Каскады в Твиттере
3. Модели распространения информации
4. Модель, которая нам подошла =)
5. Рекламная стратегия

Отслеживание мнения о брендах

Персонализация сервисов

Зачем предсказывать популярность
контента?

1. Реклама, продвижение брендов
2. Социальный журнализм
3. Улучшение качества и свежести выдачи

Твиттер

• 500 млн. пользователей
• 150 млн. пользователей активны раз в месяц
• 340 млн сообщений в день
• теория 4-х рукопожатий
• среднее количество читателей – 150
• у 80% пользователей менее 50 читателей

Авторитетность пользователей

• Из топ-20 пользователей по числу читателей только
четверо есть в топе по числу ретвитов
• Практически отсутствует корреляция (0.1) между
списками топ-10% по этим ранжированиям

Ретвит-каскады

• ретвиты получает 5-6 % всех сообщений
• ретвиты составляют около 15 % сообщений
• за первый час происходит 90 % всех ретвитов

Ретвит-каскады

• Лента среднего пользователя наполовину состоит
из сообщений, написанных топ-20000
пользователями по числу читателей
• Популярность распределена в соответствии со
степенным законом

Распределение популярности

Модели распространения информации

1. Эпидемиологические
2. Линейная модель влияния
3. Машинное обучение

Эпидемиологическая модель

Модификации модели

• Вероятность заражения может зависеть от
времени.
• Вероятность заражения может зависеть от
пользователя.
• Вероятность заражения во второй раз может
быть ненулевой.

Анализ

+:
• простота
• имеет физический смысл

–:
• слишком мало или слишком много параметров
• нужно обрабатывать данные о структуре сети
• подбор параметров?
• зависимость от контента?

Анализ

• Математическая модель, подходит для
качественного анализа распространения
• Слабо применима на практике

Линейная модель влияния

Линейная модель влияния

• Зная распространение на момент i, предсказываем
объем на момент i+1
• Фиксированные источники с функцией
влиятельности, зависящей от времени
• Объем – сумма влиятельностей зараженных до
этого источников

Анализ

+:
• влияние источников явно вычисляется
• влияние зависит от времени
• не требуется структура сети

–:
• фиксированные источники
• вычислительная сложность
• не учитывается структура сети
• предсказание только на следующий момент

Анализ

• Подходит для моделирования распространения в
блогах и СМИ
• Для нашей задачи не очень подходит: мало
источников, краткосрочное предсказание

Машинное обучение

• Есть целевая функция
• Есть обучающая выборка, на ней вычисляются
факторы
• Алгоритм оптимальным образом разбивает твиты
на классы. В каждом классе предсказанная
популярность постоянна

Анализ

+:
• малая вычислительная сложность
• дают хороший результат
• можно улучшать за счет новых факторов

–:
• отсутствие физической модели
• непонятно, как именно распространяется
сообщение


1. Факторы
2. Экспериментальные результаты
3. Важность факторов

Социальные факторы

• Число читателей
• Число читаемых
• Среднее число ретвитов
• Дата создания аккаунта
• …

Контентные факторы

• Длина сообщения
• Наличие хештегов
• Наличие ссылок
• Является ли сообщение ответом
• Настроение
• …

Начальное распространение

• Число ретвитов за начальный период
• Авторитетность пользователей, сделавших ретвит
•…

Экспериментальные результаты

• Предсказание точнее на короткие промежутки
• Предсказание на 20-30% точнее с данными за
первые 30 секунд
• Текстовые факторы почти не играют роли
• Предсказанное число ретвитов отличается от
реального в 2-3 раза.

Важность факторов

Важность факторов

• Популярность твита в первую очередь зависит от
авторитетности пользователя
• Начальное распространение определяет, насколько
удачен этот твит для пользователя

Модель рекламной стратегии

Модель рекламной стратегии

• Линейная стоимость сообщения
• Цель – набрать как можно больше ретвитов

Анализ

• Пусть стоимость одного читателя – 10 копеек
• При a = 10 рублей наиболее эффективны
пользователи, получающие менее одного ретвита
• Даже при а = 1000 рублей оптимальны
пользователи, получающие по несколько ретвитов

Дальнейшие исследования

• Предсказание других характеристик: клики по
ссылкам, просмотры видео и т.п.
• Учитывать контекст, тренды
• Применение в различных сервисах Яндекса

Литература

• E. Bakshy et. al., “Identifying 'Influencers' on Twitter”,
WWW'11
• A. Kupavskii et. al., “Prediction of Retweet Cascade
Size over Time”, CIKM'12
• H. Kwak et. al., “What is Twitter, a Social Network or a
News Media?”, WWW'10
• G.V. Steeg, R. Ghosh, K. Lerman, “What Stops Social
Epidemics?”, ICWSM’11
• J. Yang, J. Leskovec, “Modeling Information Diffusion
in Implicit Networks”, IEEE'10

Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Recommended

Recommended

More Related Content

Similar to Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Similar to Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях» (20)

More from Yandex

More from Yandex (20)

Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»