5. 5
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
Проблема:
• вручную это займет год ежедневной работы
11. 11
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• наивный байесовский классификатор
• кластеризация
12. 12
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель
• Удобен, так как не требует эвристик в виде
черных списков
• Эффективен при достаточной обученности
• Отлично подходит для текстовых данных
13. 13
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение,
при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях,
отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях,
если они к этому тегу не относятся
14. 14
От сайта к индексу
Crawler
Splitter Lemmer
INDEX
17. Предложенные роботом:
• животные
• дружба
• смотреть с детьми
• цирк
• злодеи
• проклятия
• разные страны
Не предложены:
• пираты
• Земля
• природные катаклизмы
Ледниковый период 4
18. Предложенные роботом:
• наши дни
• романтика
• расследования
• любовь
• Франция
• смотреть с девушкой
Не предложены:
• криминал
• флирт
Девушка из Монако
19. 19
Результаты
• Полнота прогнозирования
– робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации
– робот ошибается на 1-2 тега
• Время работы всего несколько часов
20. 20
Что можно сделать в будущем
• Исключение редких слов
• Удаление предлогов и местоимений
• Отсечение слов, составляющих шум
• Распараллеливание
Одной из моих задач в Яндексе является проведение собеседований на технические позиции. Часто спрашивают про типы задач, с которыми приходится работать. Сегодня я хочу предложить к рассмотрению одну из таких задач и возможный способ ее решения
1 мин
Чем кластеризация отличается от классификации
Чем кластеризация отличается от классификации
Чем кластеризация отличается от классификации
Чем кластеризация отличается от классификации
Чем кластеризация отличается от классификации
Как, сложив вероятности каждого слова, получить общую оценку спамовости
Просто пример того что получилось
Рассказать про сбор комментариев, сопоставление их с фильмами, лемматизация текста, нормализация и построение индекса