Поисковая технология         «Спектр»Андрей ПлаховСтарший разработчикYaC, Москва, 19 сентября 2011 года
Немного истории
Немного истории
Немного истории
Немного истории
Что такое «хороший поиск»?      Наивный подход
Что такое «хороший поиск»?      Наивный подходНаходить больше правильных ответов
Что такое «хороший поиск»?      Наивный подходНаходить больше правильных ответовПоказывать их выше
Что такое «хороший поиск»? Discounted cumulative gain (DCG)pRelj – вероятность того,что j-й результат релевантенposwj – ве...
Что такое «хороший поиск»? Discounted cumulative gain (DCG)Проблема: как правильновыбрать веса poswj?
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Как пользователипросматривают выдачу?                       Старт:                        j=1          Смотрим на j-й резу...
Основная метрика Яндекса:           pFoundMatrixNet отлично строит выдачу,   максимизирующую pFound
Основная метрика Яндекса:            pFoundПроблема: максимум достигается,     когда топ однороден
Неоднозначные запросы[МГУ]Фото главного здания?Приемная комиссия?Список факультетов?История?         Что и в каких пропорц...
Неоднозначные запросы[Ягуар] – автомобиль? Животное? Напиток?10 результатов об автомобилях хорошо выглядятна метриках, но ...
Что же такое «Спектр»Метод, используемый поискомЯндексана неоднозначных запросах:   [МГУ]   [Иоанн Павел II]   [Черепахи] ...
Метрика качества: wide              pFoundWi – процент i-той поисковой потребностиpfoundi – вероятность найти ответ на i-т...
Метрика качества: wide              pFoundWi – процент i-той поисковой потребностиpfoundi – вероятность найти ответ на i-т...
Метрика качества: wide              pFoundWi – процент i-той поисковой потребностиpfoundi – вероятность найти ответ на i-т...
Поток запросов  Их миллиарды!
Поток запросов          Их миллиарды!  И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок]
Поток запросов          Их миллиарды!  И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в те...
Поток запросов          Их миллиарды!  И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в те...
Поток запросов          Их миллиарды!  И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в те...
Поток запросов          Их миллиарды!  И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в те...
Поток запросов: примеры…турбаза старый замок алтайтурбаза старый замок астраханьтурбаза старый замок на телецкомтурбаза ст...
Поток запросов: примеры…audi a8 4.2 quattro расход топливаaudi a8 4.2 quattro расходaudi a8 4.2 quattro киевaudi a8 4.2 qu...
Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…
Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…Не ...
Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…Не ...
Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…Не ...
Зачем нам «семантика»?Не все расширения полезны   [москва]   и   [москва тула]   [минута]   и   [минута славы]   [время]  ...
Зачем нам «семантика»?Не все расширения полезны    [москва]   и   [москва тула]    [минута]   и   [минута славы]    [время...
Использование семантикиСосредоточимся на запросах о том, что нампонятно  Фильмы  Книги  Люди  Гаджеты  Автомобили  Болезни...
Технология «Спектр»
Технология «Спектр»выясняем, в какие категории попадает запрос
Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих катег...
Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих катег...
Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих катег...
Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих катег...
Но всѐ сложнеесодержательные сложности       Сложности классификации       Неклассифицированные запросы       Непонятные р...
И ещѐ сложнее         технологические сложностиОбрабатывать миллиарды запросов,классифицировать, устанавливать взаимосвязи...
Хорошие новостиМеньше популярных запросов без кликов   CTR отдельных результатов растѐт
Хорошие новости: подсветкапоисковых потребностей в снипетах
И ещѐ сложнееПростыми методами давно уже не обойтись
И ещѐ сложнее Простыми методами давно уже не обойтись               Нам нужно:больше знать об окружающем мире
И ещѐ сложнее Простыми методами давно уже не обойтись               Нам нужно:больше знать об окружающем мирелучше понимат...
И ещѐ сложнее Простыми методами давно уже не обойтись               Нам нужно:больше знать об окружающем мирелучше понимат...
И мы с этимсправимся!
Андрей ПлаховСтарший разработчикfinder@yandex-team.ru
Поисковая технология "Спектр". Андрей Плахов, Яндекс
Поисковая технология "Спектр". Андрей Плахов, Яндекс
Upcoming SlideShare
Loading in...5
×

Поисковая технология "Спектр". Андрей Плахов, Яндекс

10,676

Published on

Андрей Плахов, Яндекс

Закончил с отличием механико-математический факультет МГУ в 2002 году. Защитил кандидатскую диссертацию по программированию в Институте прикладной математики им. Келдыша РАН. В Яндексе – три года, всё это время занимается повышением качества веб-поиска. Автор поискового релиза «Спектр». До Яндекса в течение семи лет делал компьютерные видеоигры. Внерабочие интересы: P-NP проблема, квантовые вычисления, структурная лингвистика, системная биология, рисование слонов шариковой ручкой.

Тема доклада
Поисковая технология «Спектр».

Тезисы
Большое количество запросов, отправленных в поиск Яндекса, формулируются неоднозначно. Например, по запросу [наполеон] кто-то хочет найти французского императора, а кто-то – рецепт торта. А задавая вопрос [пицца], человек может искать и ресторан с доставкой на дом, и рецепты, и даже фотографии пиццы. В основе работы «Спектра» лежит статистика поисковых запросов. Система исследует запросы всех пользователей Яндекса и выделяет в них различные объекты. Далее объекты распределяются по категориям: имена людей, названия фильмов и книг, города, модели автомобилей и т.д. «Спектр» учитывает, в какую категорию попадает объект, что обычно люди про него спрашивают, что пишут в интернете, и оценивает, какой процент людей ищут этот объект с каждой из возможных целей. Результаты поиска по многозначным запросам ранжируются с помощью вероятностной модели восприятия страницы результатов, при этом максимизируемой характеристикой является вероятность того, что пользователь получит нужный ему ответ.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
10,676
On Slideshare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
32
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Поисковая технология "Спектр". Андрей Плахов, Яндекс

  1. 1. Поисковая технология «Спектр»Андрей ПлаховСтарший разработчикYaC, Москва, 19 сентября 2011 года
  2. 2. Немного истории
  3. 3. Немного истории
  4. 4. Немного истории
  5. 5. Немного истории
  6. 6. Что такое «хороший поиск»? Наивный подход
  7. 7. Что такое «хороший поиск»? Наивный подходНаходить больше правильных ответов
  8. 8. Что такое «хороший поиск»? Наивный подходНаходить больше правильных ответовПоказывать их выше
  9. 9. Что такое «хороший поиск»? Discounted cumulative gain (DCG)pRelj – вероятность того,что j-й результат релевантенposwj – вес j-й позиции
  10. 10. Что такое «хороший поиск»? Discounted cumulative gain (DCG)Проблема: как правильновыбрать веса poswj?
  11. 11. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  12. 12. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  13. 13. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  14. 14. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  15. 15. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  16. 16. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  17. 17. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  18. 18. Как пользователипросматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinuej:=j+1 Ответ не найден
  19. 19. Основная метрика Яндекса: pFoundMatrixNet отлично строит выдачу, максимизирующую pFound
  20. 20. Основная метрика Яндекса: pFoundПроблема: максимум достигается, когда топ однороден
  21. 21. Неоднозначные запросы[МГУ]Фото главного здания?Приемная комиссия?Список факультетов?История? Что и в каких пропорциях
  22. 22. Неоднозначные запросы[Ягуар] – автомобиль? Животное? Напиток?10 результатов об автомобилях хорошо выглядятна метриках, но устраивают далеко не всехЧто бы ещё показать?
  23. 23. Что же такое «Спектр»Метод, используемый поискомЯндексана неоднозначных запросах: [МГУ] [Иоанн Павел II] [Черепахи] [Аспирин] [Ягуар]Запущен в конце 2010 годаРаботает на 15-20% запросов к Яндексу
  24. 24. Метрика качества: wide pFoundWi – процент i-той поисковой потребностиpfoundi – вероятность найти ответ на i-тую потребносПроблема: максимум, когда топ однороде
  25. 25. Метрика качества: wide pFoundWi – процент i-той поисковой потребностиpfoundi – вероятность найти ответ на i-тую потребносПроблема: максимум, когда топ однороде
  26. 26. Метрика качества: wide pFoundWi – процент i-той поисковой потребностиpfoundi – вероятность найти ответ на i-тую потребносПроблема: откуда мы узнаем потребност
  27. 27. Поток запросов Их миллиарды!
  28. 28. Поток запросов Их миллиарды! И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок]
  29. 29. Поток запросов Их миллиарды! И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в темноте]
  30. 30. Поток запросов Их миллиарды! И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в темноте][взрыв в индии сегодня]
  31. 31. Поток запросов Их миллиарды! И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в темноте][взрыв в индии сегодня][оральный секс у летучих мышей]
  32. 32. Поток запросов Их миллиарды! И вот лишь некоторые примеры:[как сделать мотоцикл из двух зажигалок][ресторан в темноте][взрыв в индии сегодня][оральный секс у летучих мышей][изменения в ст 290 ук рф]
  33. 33. Поток запросов: примеры…турбаза старый замок алтайтурбаза старый замок астраханьтурбаза старый замок на телецкомтурбаза старый замок святогорсктурбаза старый замок телецкоетурбаза старый замок телецкое озеротурбаза старый замок телецкое адрестурбаза старый замок телецкое телефон
  34. 34. Поток запросов: примеры…audi a8 4.2 quattro расход топливаaudi a8 4.2 quattro расходaudi a8 4.2 quattro киевaudi a8 4.2 quattro ценыaudi a8 4.2 quattro комплектацияaudi a8 4.2 quattro комплектация 2003audi a8 4.2 quattro обзорaudi a8 4.2 quattro отзывы владельцевaudi a8 4.2 quattro характеристики…
  35. 35. Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…
  36. 36. Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…Не все уточнения – «потребности»
  37. 37. Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…Не все уточнения – «потребности»Они отличаются не только весами
  38. 38. Итак, что будем делать?Используем лог запросов, и узнаем,какие потребности есть у пользователей!Увы, не всѐ так просто…Не все уточнения – «потребности»Они отличаются не только весамиРазные уточнения – но одна и та жепотребность
  39. 39. Зачем нам «семантика»?Не все расширения полезны [москва] и [москва тула] [минута] и [минута славы] [время] и [время намаза] [юбки] и [юбки порно]
  40. 40. Зачем нам «семантика»?Не все расширения полезны [москва] и [москва тула] [минута] и [минута славы] [время] и [время намаза] [юбки] и [юбки порно]Нужно отобрать «правильные»расширения
  41. 41. Использование семантикиСосредоточимся на запросах о том, что нампонятно Фильмы Книги Люди Гаджеты Автомобили Болезни и лекарства …Будем распознавать объекты этих категорий.Для каждой из них - свои поисковые
  42. 42. Технология «Спектр»
  43. 43. Технология «Спектр»выясняем, в какие категории попадает запрос
  44. 44. Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих категорий
  45. 45. Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих категорийназначаем им веса
  46. 46. Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих категорийназначаем им весаполучаем лучшие документы для каждойпотребности
  47. 47. Технология «Спектр»выясняем, в какие категории попадает запрособъединяем поисковые потребности, имеющиесмыслдля этих категорийназначаем им весаполучаем лучшие документы для каждойпотребности
  48. 48. Но всѐ сложнеесодержательные сложности Сложности классификации Неклассифицированные запросы Непонятные результаты Геолокальность Временная зависимость Опасные ответы …и многие, многие другие
  49. 49. И ещѐ сложнее технологические сложностиОбрабатывать миллиарды запросов,классифицировать, устанавливать взаимосвязиПолучать ответы по всем поисковым потребностям(не задавая 15 запросов вместо одного) На каждый запросрешать по NP-полной задаче• ѐ …и многие, многиедругие
  50. 50. Хорошие новостиМеньше популярных запросов без кликов CTR отдельных результатов растѐт
  51. 51. Хорошие новости: подсветкапоисковых потребностей в снипетах
  52. 52. И ещѐ сложнееПростыми методами давно уже не обойтись
  53. 53. И ещѐ сложнее Простыми методами давно уже не обойтись Нам нужно:больше знать об окружающем мире
  54. 54. И ещѐ сложнее Простыми методами давно уже не обойтись Нам нужно:больше знать об окружающем мирелучше понимать пользовательские сессии
  55. 55. И ещѐ сложнее Простыми методами давно уже не обойтись Нам нужно:больше знать об окружающем мирелучше понимать пользовательские сессиилучше понимать естественные языки
  56. 56. И мы с этимсправимся!
  57. 57. Андрей ПлаховСтарший разработчикfinder@yandex-team.ru
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×