Your SlideShare is downloading. ×
Spcua 2013 кожемякин-алексей
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Spcua 2013 кожемякин-алексей

1,595
views

Published on

SharePoint 2013 конференция Киев поиск Sharepoint Search

SharePoint 2013 конференция Киев поиск Sharepoint Search


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,595
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 22 мая 2013, КиевУспешные корпоративныепоисковые порталы наоснове SharePoint 2013Алексей Кожемякин
  • 2. 22 мая 2013, КиевКак сделать крутой поискАлексей Кожемякин
  • 3. Обо мне• Solution Architect @epam• Focusing on search• Sharepoint Search FAST/2010/2013• ApacheLucene, Solr, elasticsearch, OracleEndeca…• http://powersearching.wordpress.com3
  • 4. О чем будем говорить• Корпоративный поисковый портал• Как «работает» поиск в SP2013• Ключевые изменения• Магия – расчет релевантности• Полезные практики4
  • 5. Типичные сценариипоиска• Я знаю что я ищу и я знаю где это найти• Я знаю что я ищу, но НЕ знаю где это найти• Я НЕ знаю что я ищу5http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199
  • 6. • Предпосылки:• Компания растет• Зоопарк из систем• Решение:• поисковый портал, «маленький гугл»• Быстрая бизнес польза от внедрения:• Единая точка поиска информации• Сокращение времени на поиск информации• Улучшение климата внутри компании6Поисковый портал
  • 7. Но после внедрения…• «Поиск плохо ищет»• Из коробки поиск ничего не знает про вас• «Но…• … Microsoft позаботились о хорошем алгоритме»• … мы не уверены что сделаем лучше»• ... нам не нужен поиск, у нас все знают что где лежит»• … сделайте нам как в ГуглБинг»7
  • 8. Почему это сложно• Неоднозначные короткие запросы• Разнородный неоптимизированный контент• Разная терминология составителей ипотребителей контента• Ограниченность ресурсов, в то время как винтернет-поисковиках• Ручное и автоматическое измерение качества(асессоры)• Постоянное улучшение8
  • 9. Архитектура поиска вSP20139
  • 10. Поиск - двухфазныйпроцесс• Матчинг – все документы с ключ.словами• Лингвистика: стемминг, фонетика• Синонимы• Ранжирование• «Фичи»• TF-IDF, BM25• Вес полей• Тип файла• Дата изменения• Популярность• …10
  • 11. Ранжирование в FAST• Линейная комбинация фич11
  • 12. Ранжирование в FAST• Вклад отдельных компонент в результат120100020003000400050006000700080001st 2nd 3rd 4thterm:fast term:search freshness static rank proximity
  • 13. Миграция FAST->SP201313
  • 14. Ранжирование в SP201314
  • 15. Ранжирование в SP2013• Основная модель релевантности• Две последовательные нейронные сети• Дата документа не учитывается• Фичи15Type InstanceBM25 BM25Static UrlDepthBucketedStatic InternalFileTypeBucketedStatic LanguageStatic ClickDistanceStatic QueryLogClicksStatic QueryLogSkipsStatic LastClicksStatic EventRateMinSpan - soft TitleMinSpan - soft TitleMinSpan - soft TitleMinSpan - soft Content
  • 16. Ранжирование в SP201316• Основная модель релевантности
  • 17. Расшифровкарелевантности• /_layout/15/explainrank.aspx• rankdetail property17
  • 18. Расшифровкарелевантности• Ручная проверка в екселе18
  • 19. 19
  • 20. Успешные практики1. Поисковая аналитика2. Тонкая настройка и адаптация3. Регулярное тестирование4. Анализ проблем с конфиденциальностью5. Популяризация6. Адаптация контента20
  • 21. 1. Поисковая аналитика• Поисковая аналитика• Поисковая аналитика• Поисковая аналитика21
  • 22. 1. Поисковая аналитика• Стандартно в SP2013• Наиболее популярные запросы• «Неудачные» запросы• Сторонние системы (Google Analytics, Omniture,WebTrends)• Измерение качества поиска• % кликов на результаты• на какие результаты• обратные переходы• Анализ сессии• Сегментация запросов22
  • 23. Сегментация запросов• Анализировать не только самые популярные, аклассы запросов23
  • 24. 2. Тонкая настройка• Authoritative Pages• Быстрая выгода – приоритет источников контент• Query Rules• Поиск становится умным в глазах пользователей• Synonyms• Отдельный маппинг файл• Только экспансия• Синонимы термсетов не работают• Модели релевантности24
  • 25. Authoritative Pages• Влияет на ClickDistance• ClickDistance, UrlDepth имеют сильное влияниена итоговую релевантность• Конфигурируются в CA, CSOM25
  • 26. Query Rules (Rule +Action)• Основной инструмент имитации разума• Интерактивная реакция на запросы• Пост обработка запроса• Навигационные ключевые слова• …26
  • 27. Условия для QueryRules• Query Matches Keyword Exactly• Advanced Query Text Match• Query Matches Dictionary Exactly• Query Contains Action Term• Query More Common in Source• Result Type Commonly Clicked27
  • 28. Действия для QueryRules• Create and display a result block• Change ranked search results• Best Bets• XRANK• Работает аддитивно• Не отображается в rankdetail• Правильный выбор веса?28
  • 29. Шаблоны дляQueryRules• Типичные комбинации из нашего портала• Software, soft, download, install• How to• Policy, Blog• Portal• Music, Video• Presentation, Documents, Report• Training, tutorial• Book, ebook• У вас будут другие!29
  • 30. Custom Rank Models• Сбор Query Judgments• Настройка коэффициентов нейронной сетимашинным обучением• Gradient Descent, Lambda Rank• Microsoft.Office.Server.Search.RankerTuning30
  • 31. Custom Rank Models• Модифицируйте простую модель сделаннуюруками• A/B тестирование весов• Измерение, метрики : Precision, NDCG31
  • 32. Custom Rank Models• Пример – модель поиска людей32
  • 33. 3. Тестирование поиска• Зачем? Это компас.• «Юнит тестирование»• Ручное тестирование, периодически33
  • 34. 4. Аудит«безопасности»• Внедрение поиска выявляет проблемы справами доступа• Security by obscurity• Например:• «конфиденциально»• Зарплаты, подробности интервью• Решение – автоматический мониторингчувствительных запросов34
  • 35. 5. Адаптация контента• Работа с подразделениями• Помощь в мониторинге аналитики• Гайдлайн по оформлению контента• Базовый SEO• Оформление заголовков• Оформление урлов• Мета тэги <meta name=…• Title, description• Автоматически протянутся в crawled properties35
  • 36. 6. Популяризация• Имидж – «здесь найдется все»• Интеграция с другими системами• Поиск как сервис• Виджет «поискать во всех системах»• Бэджи, гемификация36
  • 37. Популяризация• Социальные Best-bets37
  • 38. Понимать естественныйязык• В общем виде задача не решается• Аналитика + кропотливая работа• см выше набор практик• NLP – question answering• Rocket science• English only• Part of speech tagging, dependency parsing• Stanford NLP, Open NLP, IR38
  • 39. «Литература»• Patents - http://goo.gl/20sbR• Explain Rank page - http://goo.gl/o3ZmN• How SP2013 relevancy models works - http://goo.gl/arf0P• MS Enterprise Search approach - http://goo.gl/x8SDO• Customizing ranking models in SP 2013 - http://goo.gl/lBJAp39
  • 40. 22 мая 2013, КиевСпасибо за вниманиеSkype: Alexey_KozhemiakinEmail: Alexey.Kozhemiakin@gmail.comBlog: http://powersearching.wordpress.com40