κρυπτή

Математика таргетинга
Таргетинги в интернете
    способ ограничить коммуникацию
    интерактивность позволяет принимать
     решение по каждому контакту
    география, сайт, формат и технология
     баннера, слова на странице, слова из
     поиска, броузер, провайдер
    параметры контакта c ID(регистрация,
     частота)
    знание о пользователе
           Самоцензура рекламы в Интернете ;)
κρυπτή
Аффинити

  каждый человек ведет себя по разному в
     разное время
    при анализе статистики- данные
     объединяются и усредняются
    у рекламодателя нет точного знания как
     говорить с каждым потребителем, только со
     статистической группой

                     Большая часть из нас еще не
                     определилась с соц.демом ;)
κρυπτή
Идея проекта
  собрать статистику в разрезе
     пользователя/ID
    проанализировать выборку, про которую что-
     либо точно известно
    найти закономерности отличающие одну
     целевую группу от другой
    анализируем статистику каждого ID и
     приводим к вероятности попадания в группу
                 Применяем дедуктивный метод ;)

κρυπτή
Источник знания (data)

  privacy и сбор данных
  уникальный ID и время его жизни
  контекстность, как идеал
  майнинг информации
  данные о любых действиях
    пользователя и их взаимосвязях
                   Логи и Размышления. Т. 2-128

κρυπτή
Вероятностный подход

 противоречивость и неполнота данных
 степень достоверности
 возможность перевзвешивания под
  внешние факторы
 100% аудитории
 выбираем лучшиххарактерных при
  использовании
                  Оптимизируем монетку ;)
Выделение факторов

  анализируем зависимости между целевой
     группой и поведением
    вычисляем метрики из любой известной
     информации
    отбираем сильные факторы для конкретной
     классификации
    несколько наборов факторов для разных
     аудиторий
         для соц.дема используется 300 факторов
                              никто их не знает)
κρυπτή
Машинное обучение

  обучающая
   выборка
  алгоритм ищет
   закономерности
   между признаком и
   логами
  применяем
   формулу ко всем
   пользователей
κρυπτή
Классификация

берем внешние категории
смотрим похожее «поведение»
предполагаем, что этому пользователю
 это свойственно
оцениваем достоверность
 предположения

           Можно вычислить людей, которые
              живут в нечетных квартирах ;)
Цифры и факты

          объем                 технологии
o   35 дней
                           o Map&Reduce
o   3 млрд. событий
o   3,4 Tb в день          o Machine learning
o   235 млн. ID
                             o Matrixnet
o   730 тыс. обучающая
    выборка                  o SVD (cингуля́ рное
o   490 тыс. проверочная
                               разложение)
o   7,5Tb данные
Результат и применение
 проверяем TNS
     Корреляция с группой (пол- 78%)
 выбираем лучших
 повышаем аффинитивность
 соц.дем таргетинг на страницах
  Яндекса
 математический подход- как это
  объяснить рынку?
                   У нас есть такие приборы ;)
κρυπτή
Планы

 мультипрофили
 audience extension
 долгосрочные интересы
 тематический таргетинг
 модели потребительского поведения
 API для внешнего использования
         Автоматически отделять копытных от
                                  хищников ;)
κρυπτή
Почему это революция?
 не на базе регистраций
 все пользователи
 каждый пользователь- уникален
 классификаторы могут быть по чему угодно
 регенерация информации, которой никогда
  не было
 данные собираются и пересчитываются
  постоянно
                 Почта не работает, телеграф
                     отменен, но вот мосты?
κρυπτή
Снятся ли андроидам
          электрические овцы?

         распределение пола среди роботов:
               60% роботы мальчики
                40% роботы девочки




κρυπτή
Спасибо
lev@yandex-team.ru

Математика таргетинга. #izso2011. Лев Глейзер

  • 1.
  • 2.
    Таргетинги в интернете  способ ограничить коммуникацию  интерактивность позволяет принимать решение по каждому контакту  география, сайт, формат и технология баннера, слова на странице, слова из поиска, броузер, провайдер  параметры контакта c ID(регистрация, частота)  знание о пользователе Самоцензура рекламы в Интернете ;) κρυπτή
  • 3.
    Аффинити  каждыйчеловек ведет себя по разному в разное время  при анализе статистики- данные объединяются и усредняются  у рекламодателя нет точного знания как говорить с каждым потребителем, только со статистической группой Большая часть из нас еще не определилась с соц.демом ;) κρυπτή
  • 4.
    Идея проекта собрать статистику в разрезе пользователя/ID  проанализировать выборку, про которую что- либо точно известно  найти закономерности отличающие одну целевую группу от другой  анализируем статистику каждого ID и приводим к вероятности попадания в группу Применяем дедуктивный метод ;) κρυπτή
  • 5.
    Источник знания (data)  privacy и сбор данных  уникальный ID и время его жизни  контекстность, как идеал  майнинг информации  данные о любых действиях пользователя и их взаимосвязях Логи и Размышления. Т. 2-128 κρυπτή
  • 6.
    Вероятностный подход  противоречивостьи неполнота данных  степень достоверности  возможность перевзвешивания под внешние факторы  100% аудитории  выбираем лучшиххарактерных при использовании Оптимизируем монетку ;)
  • 7.
    Выделение факторов анализируем зависимости между целевой группой и поведением  вычисляем метрики из любой известной информации  отбираем сильные факторы для конкретной классификации  несколько наборов факторов для разных аудиторий для соц.дема используется 300 факторов никто их не знает) κρυπτή
  • 8.
    Машинное обучение обучающая выборка  алгоритм ищет закономерности между признаком и логами  применяем формулу ко всем пользователей κρυπτή
  • 9.
    Классификация берем внешние категории смотримпохожее «поведение» предполагаем, что этому пользователю это свойственно оцениваем достоверность предположения Можно вычислить людей, которые живут в нечетных квартирах ;)
  • 10.
    Цифры и факты объем технологии o 35 дней o Map&Reduce o 3 млрд. событий o 3,4 Tb в день o Machine learning o 235 млн. ID o Matrixnet o 730 тыс. обучающая выборка o SVD (cингуля́ рное o 490 тыс. проверочная разложение) o 7,5Tb данные
  • 11.
    Результат и применение проверяем TNS Корреляция с группой (пол- 78%) выбираем лучших повышаем аффинитивность соц.дем таргетинг на страницах Яндекса математический подход- как это объяснить рынку? У нас есть такие приборы ;) κρυπτή
  • 12.
    Планы мультипрофили audienceextension долгосрочные интересы тематический таргетинг модели потребительского поведения API для внешнего использования Автоматически отделять копытных от хищников ;) κρυπτή
  • 13.
    Почему это революция? не на базе регистраций все пользователи каждый пользователь- уникален классификаторы могут быть по чему угодно регенерация информации, которой никогда не было данные собираются и пересчитываются постоянно Почта не работает, телеграф отменен, но вот мосты? κρυπτή
  • 14.
    Снятся ли андроидам электрические овцы? распределение пола среди роботов: 60% роботы мальчики 40% роботы девочки κρυπτή
  • 15.