SlideShare a Scribd company logo
1 of 16
Машинное обучение в ранжировании поиска
У нас есть свой поиск!
   •   Веб
   •   Картинки
   •   Видео
   •   Новости
   •   Обсуждения
   •   Ответы
   •   Словари
Архитектура
               Оценка
              качества


 Машинное             Поисковый              Фронтенды
 обучение              кластер


   Фетчер
                    Индексаторы
     ы

HDFS                                                     Вычислительный
       Таблица документов                                        кластер
       10 миллиардов документов, один петабайт
Анализ запроса
Оценка страницы
                  Обязательно      4
                  Точный ответ     3
                  Полезно          2
                  Малополезно      1
                  Не по теме       0
                  Нельзя оценить
Оценка качества поиска

                    №    Оценка         CG   DCG
                    1    Точный ответ   3    3
                    2    Точный ответ   3    3
                    3    Полезно        2    1,26
                    4    Точный ответ   3    1,5
                    5    Полезно        2    0,86
                    6    Малополезно    1    0,38
                    7    Полезно        2    0,71
                    8    Малополезно    1    0,33
                         Итого          17   11,04
Общий набор оценок

  Запрос                         Документ                                        Оценка
  специальная мышца ёжика        http://digest-news.ru/833-Zachemezhikuigolki-   1
                                 Interesniefakti.html
  одноклассники                  http://www.odnoklassniki.ru/                    4
  …                              …                                               …


                  Извлечение факторов


  tf         tf*idf      иц       …            …                …          …     Оценка
  4          12          8        4            3                7          …     1
  …          …           …        …            …                …          …     …
Задача ранжирования

                Сотни факторов


       500                           300
      тысяч                         тысяч

              Обучение   Проверка

Цель – максимум NDCG на проверочной выборке
Фильтрация оценок
Как получаем выдачу?

• Релевантность документа.
• Сравнение двух




                                       Фактор-2
  документов.
• Всю десятку сразу.


        Если бы факторов было мало,
        то можно было бы делать так:

                                                  Фактор-1
Многомерность

                ε = 0,13




                           объём   ε
Деревья решений

                                              F3
                    F7 > 2



       F3 > 1                    F3 > 2



   2            1            4            3


Есть проблема переобучения.
Нужны ограничения на размер и вид деревьев.
                                                   F7
Бустинг



              F5 > 7             3



     F7 > 1            F3 > 11   2   Результат: 3


                                 3
Бэггинг


Обучающее множество:     1    2     3     4    5     6    7     8      9   10



                       Создаём случайные подмножества:
Подмножество #1          1    3     5     7    9    10

Подмножество #2          2    3     6     7    8     9

Подмножество #3          1    2     3     8    9    10



                       Каждый раз обучаемся на одном из подмножеств.
Что в итоге
                                      И не только ранжирование:
                                      • Разбиение на предложения.
                                      • Детектор порнографии.
                           Поиск      • Антиспам.




                                   Машинное
   Инструкция   Асессоры                           Алгоритмы
                                   обучение
СПАСИБО! ВОПРОСЫ?
       Андрей Калинин
руководитель разработки поиска
      kalinin@corp.mail.ru

More Related Content

Viewers also liked

Чудаков, ВАО АЭС
Чудаков, ВАО АЭСЧудаков, ВАО АЭС
Чудаков, ВАО АЭСUNFA
 
что можно делать осенью гаяне
что можно делать осенью гаянечто можно делать осенью гаяне
что можно делать осенью гаянеJanna Hakobyan
 
Medical Records as a Defense to Your License
Medical Records as a Defense to Your LicenseMedical Records as a Defense to Your License
Medical Records as a Defense to Your LicenseJustin Hein
 
Seriies:Charmed
Seriies:CharmedSeriies:Charmed
Seriies:Charmedannuca
 
Urology Group of Athens Newsletter: Spring 2014
Urology Group of Athens Newsletter: Spring 2014Urology Group of Athens Newsletter: Spring 2014
Urology Group of Athens Newsletter: Spring 2014UrologyGroupofAthens
 
демос. введение.
демос. введение.демос. введение.
демос. введение.Rosvertol
 
Презентация Крымского центра
Презентация Крымского центраПрезентация Крымского центра
Презентация Крымского центраcpk_tso
 
Правда жизни №14
Правда жизни №14Правда жизни №14
Правда жизни №14DimOK AD
 
Cloud and Russian regulation
Cloud and Russian regulationCloud and Russian regulation
Cloud and Russian regulationCisco Russia
 
ярмарка на петропавловке
ярмарка на петропавловкеярмарка на петропавловке
ярмарка на петропавловкеIlia Malkov
 
Obc 11 (11 12) - mozart, r. strauss (pa)
Obc 11 (11 12) - mozart, r. strauss (pa)Obc 11 (11 12) - mozart, r. strauss (pa)
Obc 11 (11 12) - mozart, r. strauss (pa)Apuntador
 
улица в честь э. н. свечникова
улица в честь э. н. свечниковаулица в честь э. н. свечникова
улица в честь э. н. свечниковаKatya05078
 
U R G E N C I A S E N D O C R I N A S
U R G E N C I A S  E N D O C R I N A SU R G E N C I A S  E N D O C R I N A S
U R G E N C I A S E N D O C R I N A SHMEMYN
 

Viewers also liked (17)

Чудаков, ВАО АЭС
Чудаков, ВАО АЭСЧудаков, ВАО АЭС
Чудаков, ВАО АЭС
 
что можно делать осенью гаяне
что можно делать осенью гаянечто можно делать осенью гаяне
что можно делать осенью гаяне
 
Medical Records as a Defense to Your License
Medical Records as a Defense to Your LicenseMedical Records as a Defense to Your License
Medical Records as a Defense to Your License
 
Seriies:Charmed
Seriies:CharmedSeriies:Charmed
Seriies:Charmed
 
Urology Group of Athens Newsletter: Spring 2014
Urology Group of Athens Newsletter: Spring 2014Urology Group of Athens Newsletter: Spring 2014
Urology Group of Athens Newsletter: Spring 2014
 
демос. введение.
демос. введение.демос. введение.
демос. введение.
 
Презентация Крымского центра
Презентация Крымского центраПрезентация Крымского центра
Презентация Крымского центра
 
Правда жизни №14
Правда жизни №14Правда жизни №14
Правда жизни №14
 
Cloud and Russian regulation
Cloud and Russian regulationCloud and Russian regulation
Cloud and Russian regulation
 
мдс 33
мдс 33мдс 33
мдс 33
 
RST2014_Yaroslavl_MyDiagnosis
RST2014_Yaroslavl_MyDiagnosisRST2014_Yaroslavl_MyDiagnosis
RST2014_Yaroslavl_MyDiagnosis
 
ярмарка на петропавловке
ярмарка на петропавловкеярмарка на петропавловке
ярмарка на петропавловке
 
Obc 11 (11 12) - mozart, r. strauss (pa)
Obc 11 (11 12) - mozart, r. strauss (pa)Obc 11 (11 12) - mozart, r. strauss (pa)
Obc 11 (11 12) - mozart, r. strauss (pa)
 
His m02t18
His m02t18His m02t18
His m02t18
 
улица в честь э. н. свечникова
улица в честь э. н. свечниковаулица в честь э. н. свечникова
улица в честь э. н. свечникова
 
кп инструмент
кп инструменткп инструмент
кп инструмент
 
U R G E N C I A S E N D O C R I N A S
U R G E N C I A S  E N D O C R I N A SU R G E N C I A S  E N D O C R I N A S
U R G E N C I A S E N D O C R I N A S
 

More from tfmailru

Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?tfmailru
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерстваtfmailru
 
Создание мобильных приложений: платформы, тренды, тонкости
	Создание мобильных приложений: платформы, тренды, тонкости	Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкостиtfmailru
 
Tech forum 2011-почта
Tech forum 2011-почтаTech forum 2011-почта
Tech forum 2011-почтаtfmailru
 
Разработка социальных игр «из первых рук»: ваш путь в топ!
	Разработка социальных игр «из первых рук»: ваш путь в топ!	Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!tfmailru
 
к форуму технологий вступление Last
к форуму технологий   вступление Lastк форуму технологий   вступление Last
к форуму технологий вступление Lasttfmailru
 
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.RuПартнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Rutfmailru
 
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущееПлатформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущееtfmailru
 
Машинное обучение в ранжировании поиска
Машинное обучение в ранжировании поискаМашинное обучение в ранжировании поиска
Машинное обучение в ранжировании поискаtfmailru
 
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Grouptfmailru
 
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?tfmailru
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystemtfmailru
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерстваtfmailru
 
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...tfmailru
 
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...tfmailru
 
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайныРазвитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайныtfmailru
 
Типичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежатьТипичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежатьtfmailru
 
Как избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проектеКак избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проектеtfmailru
 

More from tfmailru (20)

Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерства
 
Создание мобильных приложений: платформы, тренды, тонкости
	Создание мобильных приложений: платформы, тренды, тонкости	Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкости
 
Tech forum 2011-почта
Tech forum 2011-почтаTech forum 2011-почта
Tech forum 2011-почта
 
Разработка социальных игр «из первых рук»: ваш путь в топ!
	Разработка социальных игр «из первых рук»: ваш путь в топ!	Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!
 
к форуму технологий вступление Last
к форуму технологий   вступление Lastк форуму технологий   вступление Last
к форуму технологий вступление Last
 
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.RuПартнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
 
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущееПлатформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущее
 
Sumin
SuminSumin
Sumin
 
Машинное обучение в ранжировании поиска
Машинное обучение в ранжировании поискаМашинное обучение в ранжировании поиска
Машинное обучение в ранжировании поиска
 
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
 
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystem
 
Стабильность — признак мастерства
Стабильность — признак мастерстваСтабильность — признак мастерства
Стабильность — признак мастерства
 
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
 
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...
 
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайныРазвитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайны
 
Типичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежатьТипичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежать
 
Alekseev
AlekseevAlekseev
Alekseev
 
Как избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проектеКак избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проекте
 

Технологии поиска

  • 1. Машинное обучение в ранжировании поиска
  • 2. У нас есть свой поиск! • Веб • Картинки • Видео • Новости • Обсуждения • Ответы • Словари
  • 3. Архитектура Оценка качества Машинное Поисковый Фронтенды обучение кластер Фетчер Индексаторы ы HDFS Вычислительный Таблица документов кластер 10 миллиардов документов, один петабайт
  • 5. Оценка страницы Обязательно 4 Точный ответ 3 Полезно 2 Малополезно 1 Не по теме 0 Нельзя оценить
  • 6. Оценка качества поиска № Оценка CG DCG 1 Точный ответ 3 3 2 Точный ответ 3 3 3 Полезно 2 1,26 4 Точный ответ 3 1,5 5 Полезно 2 0,86 6 Малополезно 1 0,38 7 Полезно 2 0,71 8 Малополезно 1 0,33 Итого 17 11,04
  • 7. Общий набор оценок Запрос Документ Оценка специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki- 1 Interesniefakti.html одноклассники http://www.odnoklassniki.ru/ 4 … … … Извлечение факторов tf tf*idf иц … … … … Оценка 4 12 8 4 3 7 … 1 … … … … … … … …
  • 8. Задача ранжирования Сотни факторов 500 300 тысяч тысяч Обучение Проверка Цель – максимум NDCG на проверочной выборке
  • 10. Как получаем выдачу? • Релевантность документа. • Сравнение двух Фактор-2 документов. • Всю десятку сразу. Если бы факторов было мало, то можно было бы делать так: Фактор-1
  • 11. Многомерность ε = 0,13 объём ε
  • 12. Деревья решений F3 F7 > 2 F3 > 1 F3 > 2 2 1 4 3 Есть проблема переобучения. Нужны ограничения на размер и вид деревьев. F7
  • 13. Бустинг F5 > 7 3 F7 > 1 F3 > 11 2 Результат: 3 3
  • 14. Бэггинг Обучающее множество: 1 2 3 4 5 6 7 8 9 10 Создаём случайные подмножества: Подмножество #1 1 3 5 7 9 10 Подмножество #2 2 3 6 7 8 9 Подмножество #3 1 2 3 8 9 10 Каждый раз обучаемся на одном из подмножеств.
  • 15. Что в итоге И не только ранжирование: • Разбиение на предложения. • Детектор порнографии. Поиск • Антиспам. Машинное Инструкция Асессоры Алгоритмы обучение
  • 16. СПАСИБО! ВОПРОСЫ? Андрей Калинин руководитель разработки поиска kalinin@corp.mail.ru