SlideShare a Scribd company logo
1 of 16
Машинное обучение в ранжировании поиска
У нас есть свой поиск!
   •   Веб
   •   Картинки
   •   Видео
   •   Новости
   •   Обсуждения
   •   Ответы
   •   Словари
Архитектура
               Оценка
              качества


 Машинное             Поисковый              Фронтенды
 обучение              кластер


   Фетчер
                    Индексаторы
     ы

HDFS                                                     Вычислительный
       Таблица документов                                        кластер
       10 миллиардов документов, один петабайт
Анализ запроса
Оценка страницы
                  Обязательно      4
                  Точный ответ     3
                  Полезно          2
                  Малополезно      1
                  Не по теме       0
                  Нельзя оценить
Оценка качества поиска

                    №    Оценка         CG   DCG
                    1    Точный ответ   3    3
                    2    Точный ответ   3    3
                    3    Полезно        2    1,26
                    4    Точный ответ   3    1,5
                    5    Полезно        2    0,86
                    6    Малополезно    1    0,38
                    7    Полезно        2    0,71
                    8    Малополезно    1    0,33
                         Итого          17   11,04
Общий набор оценок

  Запрос                         Документ                                        Оценка
  специальная мышца ёжика        http://digest-news.ru/833-Zachemezhikuigolki-   1
                                 Interesniefakti.html
  одноклассники                  http://www.odnoklassniki.ru/                    4
  …                              …                                               …


                  Извлечение факторов


  tf         tf*idf      иц       …            …                …          …     Оценка
  4          12          8        4            3                7          …     1
  …          …           …        …            …                …          …     …
Задача ранжирования

                Сотни факторов


       500                           300
      тысяч                         тысяч

              Обучение   Проверка

Цель – максимум NDCG на проверочной выборке
Фильтрация оценок
Как получаем выдачу?

• Релевантность документа.
• Сравнение двух




                                       Фактор-2
  документов.
• Всю десятку сразу.


        Если бы факторов было мало,
        то можно было бы делать так:

                                                  Фактор-1
Многомерность

                ε = 0,13




                           объём   ε
Деревья решений

                                              F3
                    F7 > 2



       F3 > 1                    F3 > 2



   2            1            4            3


Есть проблема переобучения.
Нужны ограничения на размер и вид деревьев.
                                                   F7
Бустинг



              F5 > 7             3



     F7 > 1            F3 > 11   2   Результат: 3


                                 3
Бэггинг


Обучающее множество:     1    2     3     4    5     6    7     8      9   10



                       Создаём случайные подмножества:
Подмножество #1          1    3     5     7    9    10

Подмножество #2          2    3     6     7    8     9

Подмножество #3          1    2     3     8    9    10



                       Каждый раз обучаемся на одном из подмножеств.
Что в итоге
                                      И не только ранжирование:
                                      • Разбиение на предложения.
                                      • Детектор порнографии.
                           Поиск      • Антиспам.




                                   Машинное
   Инструкция   Асессоры                           Алгоритмы
                                   обучение
СПАСИБО! ВОПРОСЫ?
       Андрей Калинин
руководитель разработки поиска
      kalinin@corp.mail.ru

More Related Content

Viewers also liked

Tech forum 2011-почта
Tech forum 2011-почтаTech forum 2011-почта
Tech forum 2011-почта
tfmailru
 
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущееПлатформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущее
tfmailru
 
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru GroupЭволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
tfmailru
 
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...
tfmailru
 
Разработка социальных игр «из первых рук»: ваш путь в топ!
	Разработка социальных игр «из первых рук»: ваш путь в топ!	Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!
tfmailru
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
 
Создание мобильных приложений: платформы, тренды, тонкости
	Создание мобильных приложений: платформы, тренды, тонкости	Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкости
tfmailru
 
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
tfmailru
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystem
tfmailru
 
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
 

Viewers also liked (17)

Tech forum 2011-почта
Tech forum 2011-почтаTech forum 2011-почта
Tech forum 2011-почта
 
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущееПлатформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущее
 
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru GroupЭволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
 
Alekseev
AlekseevAlekseev
Alekseev
 
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...
 
Разработка социальных игр «из первых рук»: ваш путь в топ!
	Разработка социальных игр «из первых рук»: ваш путь в топ!	Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерства
 
Создание мобильных приложений: платформы, тренды, тонкости
	Создание мобильных приложений: платформы, тренды, тонкости	Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкости
 
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузкиКак мы в Почте@Mail.Ru выдерживаем высокие нагрузки
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
 
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
 
Типичные проблемы с массовыми рассылками и как их избежать
Типичные проблемы с массовыми рассылками и как их избежатьТипичные проблемы с массовыми рассылками и как их избежать
Типичные проблемы с массовыми рассылками и как их избежать
 
Андрей Калинин — Mail.Ru Group — ICBDA2016
Андрей Калинин — Mail.Ru Group — ICBDA2016Андрей Калинин — Mail.Ru Group — ICBDA2016
Андрей Калинин — Mail.Ru Group — ICBDA2016
 
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.RuФорум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
 
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
		Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...		Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystem
 
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
 
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
 

More from tfmailru

к форуму технологий вступление Last
к форуму технологий   вступление Lastк форуму технологий   вступление Last
к форуму технологий вступление Last
tfmailru
 
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.RuПартнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
tfmailru
 
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
 
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайныРазвитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайны
tfmailru
 
Типичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежатьТипичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежать
tfmailru
 
Как избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проектеКак избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проекте
tfmailru
 
Платежные системы и мошенники в Сети
Платежные системы и мошенники в СетиПлатежные системы и мошенники в Сети
Платежные системы и мошенники в Сети
tfmailru
 
Технологии поиска
Технологии поискаТехнологии поиска
Технологии поиска
tfmailru
 
Как не утонуть в мегабайтах JS-кода
Как не утонуть в мегабайтах JS-кодаКак не утонуть в мегабайтах JS-кода
Как не утонуть в мегабайтах JS-кода
tfmailru
 
Программа форума
Программа форумаПрограмма форума
Программа форума
tfmailru
 

More from tfmailru (11)

к форуму технологий вступление Last
к форуму технологий   вступление Lastк форуму технологий   вступление Last
к форуму технологий вступление Last
 
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.RuПартнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
 
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерства
 
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайныРазвитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайны
 
Типичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежатьТипичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежать
 
Как избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проектеКак избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проекте
 
Платежные системы и мошенники в Сети
Платежные системы и мошенники в СетиПлатежные системы и мошенники в Сети
Платежные системы и мошенники в Сети
 
Технологии поиска
Технологии поискаТехнологии поиска
Технологии поиска
 
Как не утонуть в мегабайтах JS-кода
Как не утонуть в мегабайтах JS-кодаКак не утонуть в мегабайтах JS-кода
Как не утонуть в мегабайтах JS-кода
 
Программа форума
Программа форумаПрограмма форума
Программа форума
 

Машинное обучение в ранжировании поиска

  • 1. Машинное обучение в ранжировании поиска
  • 2. У нас есть свой поиск! • Веб • Картинки • Видео • Новости • Обсуждения • Ответы • Словари
  • 3. Архитектура Оценка качества Машинное Поисковый Фронтенды обучение кластер Фетчер Индексаторы ы HDFS Вычислительный Таблица документов кластер 10 миллиардов документов, один петабайт
  • 5. Оценка страницы Обязательно 4 Точный ответ 3 Полезно 2 Малополезно 1 Не по теме 0 Нельзя оценить
  • 6. Оценка качества поиска № Оценка CG DCG 1 Точный ответ 3 3 2 Точный ответ 3 3 3 Полезно 2 1,26 4 Точный ответ 3 1,5 5 Полезно 2 0,86 6 Малополезно 1 0,38 7 Полезно 2 0,71 8 Малополезно 1 0,33 Итого 17 11,04
  • 7. Общий набор оценок Запрос Документ Оценка специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki- 1 Interesniefakti.html одноклассники http://www.odnoklassniki.ru/ 4 … … … Извлечение факторов tf tf*idf иц … … … … Оценка 4 12 8 4 3 7 … 1 … … … … … … … …
  • 8. Задача ранжирования Сотни факторов 500 300 тысяч тысяч Обучение Проверка Цель – максимум NDCG на проверочной выборке
  • 10. Как получаем выдачу? • Релевантность документа. • Сравнение двух Фактор-2 документов. • Всю десятку сразу. Если бы факторов было мало, то можно было бы делать так: Фактор-1
  • 11. Многомерность ε = 0,13 объём ε
  • 12. Деревья решений F3 F7 > 2 F3 > 1 F3 > 2 2 1 4 3 Есть проблема переобучения. Нужны ограничения на размер и вид деревьев. F7
  • 13. Бустинг F5 > 7 3 F7 > 1 F3 > 11 2 Результат: 3 3
  • 14. Бэггинг Обучающее множество: 1 2 3 4 5 6 7 8 9 10 Создаём случайные подмножества: Подмножество #1 1 3 5 7 9 10 Подмножество #2 2 3 6 7 8 9 Подмножество #3 1 2 3 8 9 10 Каждый раз обучаемся на одном из подмножеств.
  • 15. Что в итоге И не только ранжирование: • Разбиение на предложения. • Детектор порнографии. Поиск • Антиспам. Машинное Инструкция Асессоры Алгоритмы обучение
  • 16. СПАСИБО! ВОПРОСЫ? Андрей Калинин руководитель разработки поиска kalinin@corp.mail.ru