22 мая 2013, КиевУспешные корпоративныепоисковые порталы наоснове SharePoint 2013Алексей Кожемякин
22 мая 2013, КиевКак сделать крутой поискАлексей Кожемякин
Обо мне• Solution Architect @epam• Focusing on search• Sharepoint Search FAST/2010/2013• ApacheLucene, Solr, elasticsearch...
О чем будем говорить• Корпоративный поисковый портал• Как «работает» поиск в SP2013• Ключевые изменения• Магия – расчет ре...
Типичные сценариипоиска• Я знаю что я ищу и я знаю где это найти• Я знаю что я ищу, но НЕ знаю где это найти• Я НЕ знаю чт...
• Предпосылки:• Компания растет• Зоопарк из систем• Решение:• поисковый портал, «маленький гугл»• Быстрая бизнес польза от...
Но после внедрения…• «Поиск плохо ищет»• Из коробки поиск ничего не знает про вас• «Но…• … Microsoft позаботились о хороше...
Почему это сложно• Неоднозначные короткие запросы• Разнородный неоптимизированный контент• Разная терминология составителе...
Архитектура поиска вSP20139
Поиск - двухфазныйпроцесс• Матчинг – все документы с ключ.словами• Лингвистика: стемминг, фонетика• Синонимы• Ранжирование...
Ранжирование в FAST• Линейная комбинация фич11
Ранжирование в FAST• Вклад отдельных компонент в результат120100020003000400050006000700080001st 2nd 3rd 4thterm:fast term...
Миграция FAST->SP201313
Ранжирование в SP201314
Ранжирование в SP2013• Основная модель релевантности• Две последовательные нейронные сети• Дата документа не учитывается• ...
Ранжирование в SP201316• Основная модель релевантности
Расшифровкарелевантности• /_layout/15/explainrank.aspx• rankdetail property17
Расшифровкарелевантности• Ручная проверка в екселе18
19
Успешные практики1. Поисковая аналитика2. Тонкая настройка и адаптация3. Регулярное тестирование4. Анализ проблем с конфид...
1. Поисковая аналитика• Поисковая аналитика• Поисковая аналитика• Поисковая аналитика21
1. Поисковая аналитика• Стандартно в SP2013• Наиболее популярные запросы• «Неудачные» запросы• Сторонние системы (Google A...
Сегментация запросов• Анализировать не только самые популярные, аклассы запросов23
2. Тонкая настройка• Authoritative Pages• Быстрая выгода – приоритет источников контент• Query Rules• Поиск становится умн...
Authoritative Pages• Влияет на ClickDistance• ClickDistance, UrlDepth имеют сильное влияниена итоговую релевантность• Конф...
Query Rules (Rule +Action)• Основной инструмент имитации разума• Интерактивная реакция на запросы• Пост обработка запроса•...
Условия для QueryRules• Query Matches Keyword Exactly• Advanced Query Text Match• Query Matches Dictionary Exactly• Query ...
Действия для QueryRules• Create and display a result block• Change ranked search results• Best Bets• XRANK• Работает аддит...
Шаблоны дляQueryRules• Типичные комбинации из нашего портала• Software, soft, download, install• How to• Policy, Blog• Por...
Custom Rank Models• Сбор Query Judgments• Настройка коэффициентов нейронной сетимашинным обучением• Gradient Descent, Lamb...
Custom Rank Models• Модифицируйте простую модель сделаннуюруками• A/B тестирование весов• Измерение, метрики : Precision, ...
Custom Rank Models• Пример – модель поиска людей32
3. Тестирование поиска• Зачем? Это компас.• «Юнит тестирование»• Ручное тестирование, периодически33
4. Аудит«безопасности»• Внедрение поиска выявляет проблемы справами доступа• Security by obscurity• Например:• «конфиденци...
5. Адаптация контента• Работа с подразделениями• Помощь в мониторинге аналитики• Гайдлайн по оформлению контента• Базовый ...
6. Популяризация• Имидж – «здесь найдется все»• Интеграция с другими системами• Поиск как сервис• Виджет «поискать во всех...
Популяризация• Социальные Best-bets37
Понимать естественныйязык• В общем виде задача не решается• Аналитика + кропотливая работа• см выше набор практик• NLP – q...
«Литература»• Patents - http://goo.gl/20sbR• Explain Rank page - http://goo.gl/o3ZmN• How SP2013 relevancy models works - ...
22 мая 2013, КиевСпасибо за вниманиеSkype: Alexey_KozhemiakinEmail: Alexey.Kozhemiakin@gmail.comBlog: http://powersearchin...
Upcoming SlideShare
Loading in …5
×

Spcua 2013 кожемякин-алексей

2,927 views

Published on

SharePoint 2013 конференция Киев поиск Sharepoint Search

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,927
On SlideShare
0
From Embeds
0
Number of Embeds
2,427
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Spcua 2013 кожемякин-алексей

  1. 1. 22 мая 2013, КиевУспешные корпоративныепоисковые порталы наоснове SharePoint 2013Алексей Кожемякин
  2. 2. 22 мая 2013, КиевКак сделать крутой поискАлексей Кожемякин
  3. 3. Обо мне• Solution Architect @epam• Focusing on search• Sharepoint Search FAST/2010/2013• ApacheLucene, Solr, elasticsearch, OracleEndeca…• http://powersearching.wordpress.com3
  4. 4. О чем будем говорить• Корпоративный поисковый портал• Как «работает» поиск в SP2013• Ключевые изменения• Магия – расчет релевантности• Полезные практики4
  5. 5. Типичные сценариипоиска• Я знаю что я ищу и я знаю где это найти• Я знаю что я ищу, но НЕ знаю где это найти• Я НЕ знаю что я ищу5http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199
  6. 6. • Предпосылки:• Компания растет• Зоопарк из систем• Решение:• поисковый портал, «маленький гугл»• Быстрая бизнес польза от внедрения:• Единая точка поиска информации• Сокращение времени на поиск информации• Улучшение климата внутри компании6Поисковый портал
  7. 7. Но после внедрения…• «Поиск плохо ищет»• Из коробки поиск ничего не знает про вас• «Но…• … Microsoft позаботились о хорошем алгоритме»• … мы не уверены что сделаем лучше»• ... нам не нужен поиск, у нас все знают что где лежит»• … сделайте нам как в ГуглБинг»7
  8. 8. Почему это сложно• Неоднозначные короткие запросы• Разнородный неоптимизированный контент• Разная терминология составителей ипотребителей контента• Ограниченность ресурсов, в то время как винтернет-поисковиках• Ручное и автоматическое измерение качества(асессоры)• Постоянное улучшение8
  9. 9. Архитектура поиска вSP20139
  10. 10. Поиск - двухфазныйпроцесс• Матчинг – все документы с ключ.словами• Лингвистика: стемминг, фонетика• Синонимы• Ранжирование• «Фичи»• TF-IDF, BM25• Вес полей• Тип файла• Дата изменения• Популярность• …10
  11. 11. Ранжирование в FAST• Линейная комбинация фич11
  12. 12. Ранжирование в FAST• Вклад отдельных компонент в результат120100020003000400050006000700080001st 2nd 3rd 4thterm:fast term:search freshness static rank proximity
  13. 13. Миграция FAST->SP201313
  14. 14. Ранжирование в SP201314
  15. 15. Ранжирование в SP2013• Основная модель релевантности• Две последовательные нейронные сети• Дата документа не учитывается• Фичи15Type InstanceBM25 BM25Static UrlDepthBucketedStatic InternalFileTypeBucketedStatic LanguageStatic ClickDistanceStatic QueryLogClicksStatic QueryLogSkipsStatic LastClicksStatic EventRateMinSpan - soft TitleMinSpan - soft TitleMinSpan - soft TitleMinSpan - soft Content
  16. 16. Ранжирование в SP201316• Основная модель релевантности
  17. 17. Расшифровкарелевантности• /_layout/15/explainrank.aspx• rankdetail property17
  18. 18. Расшифровкарелевантности• Ручная проверка в екселе18
  19. 19. 19
  20. 20. Успешные практики1. Поисковая аналитика2. Тонкая настройка и адаптация3. Регулярное тестирование4. Анализ проблем с конфиденциальностью5. Популяризация6. Адаптация контента20
  21. 21. 1. Поисковая аналитика• Поисковая аналитика• Поисковая аналитика• Поисковая аналитика21
  22. 22. 1. Поисковая аналитика• Стандартно в SP2013• Наиболее популярные запросы• «Неудачные» запросы• Сторонние системы (Google Analytics, Omniture,WebTrends)• Измерение качества поиска• % кликов на результаты• на какие результаты• обратные переходы• Анализ сессии• Сегментация запросов22
  23. 23. Сегментация запросов• Анализировать не только самые популярные, аклассы запросов23
  24. 24. 2. Тонкая настройка• Authoritative Pages• Быстрая выгода – приоритет источников контент• Query Rules• Поиск становится умным в глазах пользователей• Synonyms• Отдельный маппинг файл• Только экспансия• Синонимы термсетов не работают• Модели релевантности24
  25. 25. Authoritative Pages• Влияет на ClickDistance• ClickDistance, UrlDepth имеют сильное влияниена итоговую релевантность• Конфигурируются в CA, CSOM25
  26. 26. Query Rules (Rule +Action)• Основной инструмент имитации разума• Интерактивная реакция на запросы• Пост обработка запроса• Навигационные ключевые слова• …26
  27. 27. Условия для QueryRules• Query Matches Keyword Exactly• Advanced Query Text Match• Query Matches Dictionary Exactly• Query Contains Action Term• Query More Common in Source• Result Type Commonly Clicked27
  28. 28. Действия для QueryRules• Create and display a result block• Change ranked search results• Best Bets• XRANK• Работает аддитивно• Не отображается в rankdetail• Правильный выбор веса?28
  29. 29. Шаблоны дляQueryRules• Типичные комбинации из нашего портала• Software, soft, download, install• How to• Policy, Blog• Portal• Music, Video• Presentation, Documents, Report• Training, tutorial• Book, ebook• У вас будут другие!29
  30. 30. Custom Rank Models• Сбор Query Judgments• Настройка коэффициентов нейронной сетимашинным обучением• Gradient Descent, Lambda Rank• Microsoft.Office.Server.Search.RankerTuning30
  31. 31. Custom Rank Models• Модифицируйте простую модель сделаннуюруками• A/B тестирование весов• Измерение, метрики : Precision, NDCG31
  32. 32. Custom Rank Models• Пример – модель поиска людей32
  33. 33. 3. Тестирование поиска• Зачем? Это компас.• «Юнит тестирование»• Ручное тестирование, периодически33
  34. 34. 4. Аудит«безопасности»• Внедрение поиска выявляет проблемы справами доступа• Security by obscurity• Например:• «конфиденциально»• Зарплаты, подробности интервью• Решение – автоматический мониторингчувствительных запросов34
  35. 35. 5. Адаптация контента• Работа с подразделениями• Помощь в мониторинге аналитики• Гайдлайн по оформлению контента• Базовый SEO• Оформление заголовков• Оформление урлов• Мета тэги <meta name=…• Title, description• Автоматически протянутся в crawled properties35
  36. 36. 6. Популяризация• Имидж – «здесь найдется все»• Интеграция с другими системами• Поиск как сервис• Виджет «поискать во всех системах»• Бэджи, гемификация36
  37. 37. Популяризация• Социальные Best-bets37
  38. 38. Понимать естественныйязык• В общем виде задача не решается• Аналитика + кропотливая работа• см выше набор практик• NLP – question answering• Rocket science• English only• Part of speech tagging, dependency parsing• Stanford NLP, Open NLP, IR38
  39. 39. «Литература»• Patents - http://goo.gl/20sbR• Explain Rank page - http://goo.gl/o3ZmN• How SP2013 relevancy models works - http://goo.gl/arf0P• MS Enterprise Search approach - http://goo.gl/x8SDO• Customizing ranking models in SP 2013 - http://goo.gl/lBJAp39
  40. 40. 22 мая 2013, КиевСпасибо за вниманиеSkype: Alexey_KozhemiakinEmail: Alexey.Kozhemiakin@gmail.comBlog: http://powersearching.wordpress.com40

×