SlideShare a Scribd company logo
1 of 21
Алексей Токарь
Руководитель группы разработки в
направлении медиасервисов
Когда тексты –
не только слова
2
Типы повседневных задач
Алгоритмические
ТехнологическиеИнфраструктурные
3
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
4
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
5
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
Проблема:
• вручную это займет год ежедневной работы
Классификация
7
Популярные способы классификации
• нейронные сети
8
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
9
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
10
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• наивный байесовский классификатор
11
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• наивный байесовский классификатор
• кластеризация
12
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель
• Удобен, так как не требует эвристик в виде
черных списков
• Эффективен при достаточной обученности
• Отлично подходит для текстовых данных
13
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение,
при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях,
отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях,
если они к этому тегу не относятся
14
От сайта  к индексу
Crawler
Splitter Lemmer
INDEX
15
Наиболее значащие слова
мультик
Смотреть с детьми
детям
белка
дочь
пираты
Злодеи
злодей
хулиганы
орангутанг
ёж
Животные
животные
белка
обезьяна
16
Предложенные роботом:
• животные
• дружба
• смотреть с детьми
• цирк
• злодеи
• проклятия
• разные страны
Не предложены:
• пираты
• Земля
• природные катаклизмы
Ледниковый период 4
Предложенные роботом:
• наши дни
• романтика
• расследования
• любовь
• Франция
• смотреть с девушкой
Не предложены:
• криминал
• флирт
Девушка из Монако
19
Результаты
• Полнота прогнозирования
– робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации
– робот ошибается на 1-2 тега
• Время работы всего несколько часов
20
Что можно сделать в будущем
• Исключение редких слов
• Удаление предлогов и местоимений
• Отсечение слов, составляющих шум
• Распараллеливание
Алексей Токарь
Руководитель группы разработки
в направлении медиасервисов
azazeltap@yandex-team.ru
Спасибо :)

More Related Content

More from Alexey Tokar

Graph theory basics
Graph theory basicsGraph theory basics
Graph theory basicsAlexey Tokar
 
Fantastic caches and where to find them
Fantastic caches and where to find themFantastic caches and where to find them
Fantastic caches and where to find themAlexey Tokar
 
Conway's transformation
Conway's transformationConway's transformation
Conway's transformationAlexey Tokar
 
Bug prediction + sdlc automation
Bug prediction + sdlc automationBug prediction + sdlc automation
Bug prediction + sdlc automationAlexey Tokar
 
Bots on guard of sdlc
Bots on guard of sdlcBots on guard of sdlc
Bots on guard of sdlcAlexey Tokar
 
Bug prediction based on your code history
Bug prediction based on your code historyBug prediction based on your code history
Bug prediction based on your code historyAlexey Tokar
 
Extend your REST API
Extend your REST APIExtend your REST API
Extend your REST APIAlexey Tokar
 
MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?Alexey Tokar
 

More from Alexey Tokar (8)

Graph theory basics
Graph theory basicsGraph theory basics
Graph theory basics
 
Fantastic caches and where to find them
Fantastic caches and where to find themFantastic caches and where to find them
Fantastic caches and where to find them
 
Conway's transformation
Conway's transformationConway's transformation
Conway's transformation
 
Bug prediction + sdlc automation
Bug prediction + sdlc automationBug prediction + sdlc automation
Bug prediction + sdlc automation
 
Bots on guard of sdlc
Bots on guard of sdlcBots on guard of sdlc
Bots on guard of sdlc
 
Bug prediction based on your code history
Bug prediction based on your code historyBug prediction based on your code history
Bug prediction based on your code history
 
Extend your REST API
Extend your REST APIExtend your REST API
Extend your REST API
 
MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?
 

когда тексты не только слова

Editor's Notes

  1. Одной из моих задач в Яндексе является проведение собеседований на технические позиции. Часто спрашивают про типы задач, с которыми приходится работать. Сегодня я хочу предложить к рассмотрению одну из таких задач и возможный способ ее решения
  2. 1 мин
  3. Чем кластеризация отличается от классификации
  4. Чем кластеризация отличается от классификации
  5. Чем кластеризация отличается от классификации
  6. Чем кластеризация отличается от классификации
  7. Чем кластеризация отличается от классификации
  8. Как, сложив вероятности каждого слова, получить общую оценку спамовости
  9. Просто пример того что получилось
  10. Рассказать про сбор комментариев, сопоставление их с фильмами, лемматизация текста, нормализация и построение индекса
  11. 1 мин
  12. 1 мин
  13. 2 мин
  14. 3 мин