когда тексты не только слова

Алексей Токарь
Руководитель группы разработки в
направлении медиасервисов
Когда тексты –
не только слова

2
Типы повседневных задач
Алгоритмические
ТехнологическиеИнфраструктурные

3
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов

4
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами

5
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
Проблема:
• вручную это займет год ежедневной работы

7
Популярные способы классификации
• нейронные сети

8
• генетические алгоритмы

9
• деревья принятия решений

10
• наивный байесовский классификатор

11
• наивный байесовский классификатор
• кластеризация

12
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель
• Удобен, так как не требует эвристик в виде
черных списков
• Эффективен при достаточной обученности
• Отлично подходит для текстовых данных

13
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение,
при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях,
отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях,
если они к этому тегу не относятся

14
От сайта  к индексу
Crawler
Splitter Lemmer
INDEX

15
Наиболее значащие слова
мультик
Смотреть с детьми
детям
белка
дочь
пираты
Злодеи
злодей
хулиганы
орангутанг
ёж
Животные
животные
белка
обезьяна

Предложенные роботом:
• животные
• дружба
• смотреть с детьми
• цирк
• злодеи
• проклятия
• разные страны
Не предложены:
• пираты
• Земля
• природные катаклизмы
Ледниковый период 4

Предложенные роботом:
• наши дни
• романтика
• расследования
• любовь
• Франция
• смотреть с девушкой
Не предложены:
• криминал
• флирт
Девушка из Монако

19
Результаты
• Полнота прогнозирования
– робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации
– робот ошибается на 1-2 тега
• Время работы всего несколько часов

20
Что можно сделать в будущем
• Исключение редких слов
• Удаление предлогов и местоимений
• Отсечение слов, составляющих шум
• Распараллеливание

Алексей Токарь
Руководитель группы разработки
в направлении медиасервисов
azazeltap@yandex-team.ru
Спасибо :)

когда тексты не только слова

Recommended

Recommended

More Related Content

More from Alexey Tokar

More from Alexey Tokar (8)

когда тексты не только слова

Editor's Notes