1. Полезный vs Релевантный.
2. Поведенческие факторы контента.
3. Влияние информационных запросов на продвижение коммерческих.
4. Текстовое ранжирование. Ретроспектива.
Доклад на конференции Optimization 2016.
6. ….
2. Оценка по шкале релевантности
Шкала релевантности содержит семь оценок: "Витальны", "Полезный",
"Релевантный+", "Релевантный-", "Нерелевантный", "Спам", "Не про то".
…
2.2. Полезный ресурс не только отвечает на запрос, но кроме этого дает
пользователю дополнительную информацию по его запросу. Также оценку
"Полезный" заслуживают тематические сайты, с большим количеством
информации по интересующей теме, а еще поддомены витального сайта,
сайты филиалов искомой фирмы или факультетов искомого вуза.
2.3. Релевантный+ - документ отвечает на запрос пользователя.
…
https://yandex.ru/blog/yasubbotnik/388
Инструкция асессора Яндекс
7. ….
4.0 High Quality Pages
High quality pages are satisfying and achieve their purpose well.
...
A High quality page may have the following characteristics:
• High level of Expertise, Authoritativeness, and Trustworthiness (E-A-T)
• A satisfying amount of high quality MC.
• Satisfying website information and/or information about who is responsible for
the website or satisfying customer service information, if the page is primarily for
shopping or includes financial transactions.
• Positive website reputation for a website that is responsible for the MC on the
page.…
https://static.googleusercontent.com/media/www.google.com/en//insidesearch/howsearc
hworks/assets/searchqualityevaluatorguidelines.pdf
Инструкция асессора Google
9. {В настоящее время | Сегодня | Сейчас} { многие | практически все |
подавляющее большинство} {понимают | осознают | чувствуют}
{необходимость | неизбежность | неотвратимость} {изменения |
корректировки | уточнения} {курса | направления | вектора} {развития |
движения | роста}.
В настоящее время подавляющее большинство понимают неизбежность
уточнения курса движения.
Сегодня многие чувствуют необходимость изменения направления развития.
Сейчас практически все осознают неотвратимость корректировки вектора
роста.
Уникальность?!?
19. Session-based Query Performance Prediction
https://research.yandex.ru/lib/researches/50/
Through-the-Looking Glass: Utilizing Rich Post-Search Trail Statistics for Web Search 2013
https://research.yandex.ru/lib/researches/75/
Click Model-Based Information Retrieval Metrics 2013
https://research.yandex.ru/lib/researches/59/
Любознательным и пытливым
20. Информационные запросы для продвижения коммерческих
http://www.slideshare.net/yandex/ss-26755584
https://events.yandex.ru/lib/talks/1145/
Анализ поведения пользователей и персонализация
поисковой выдачи, Юрий Устиновский, Яндекс
21. Проверка гипотезы
Проблемы стоящие при проверке:
- отложенная транзакция;
-оценка персонализированной выдачи.
Но:
- общий трафик на сайт рос;
- трафик по коммерческим запросам рос;
- конверсия на сайте росла – клиент был доволен.
24. Какие еще есть факторы?
http://www.slideshare.net/yandex/ss-26776032
https://events.yandex.ru/lib/talks/1144/
Анализ неявных предпочтений пользователей
Михаил Агеев, Яндекс
25. Встречаемость слов в документе
Учитывается наличие слова в первом предложении, во втором предложении, внутри
выделяющих html тегов
Пара учитывается, когда слова запроса встречаются в тексте подряд (+1), через слово
(+0.5) или в обратном порядке (+0.5). Плюс еще специальный случай, когда слова,
идущие в запросе через одно, в тексте встречаются подряд (+0.1).
р1 и р2 здесь – р для первого и второго слова пары из слагаемого .
TF – количество вхождений пары в текст с учетом весов вхождений.
За наличие всех слов запроса дополнительный «бонус»
Если в документе присутствуют не все слова, то за каждое отсутствующее слово
домножается на коэффициэнт 0.03
где Nmiss – количество отсутствующих в документе слов запроса.
Слишком много
http://romip.ru/romip2006/03_yandex.pdf
26. 1. Классификация строится по каждой теме независимо друг от друга.
2. Тему документа можно определить по списку встреченных слов (bag of words).
3. Для каждой темы есть слова, характерные для темы, и слова, которые в теме не
встречаются.
4. Множество характерных для темы слов можно разбить на 2 части:
a. Характеристические слова – множество слов, без которых невозможно раскрыть тему.
Если в документе нет ни одного слова из этого множества, то документ к теме не
относится.
b. Остальные слова, характерные для темы. Нельзя определить только по наличию или
отсутствию этих слов в документе, в теме документ или нет.
Для каждой темы собирается статистика:
сколько раз слово встретилось в теме w N и не в теме w N , а также сколько всего слов во всех документах в
теме tot и не в теме .
- вероятность встретить данное слово.
- вероятность того, что в тесте длиной L есть данное слово для
документов, которые относятся к заданной теме.
– вес слова, логарифм вероятности того, что документ относится к
заданной теме, при условии, что в документе длиной L
встретилось данное слово
Точно так же считается w PL – вероятность того, что в тесте длиной L есть данное слово для
документов, которые не относятся к заданной теме.
Не о том
http://rcdl.ru/doc/2008/230_235_paper27.pdf
37. Капитан Очевидность
1. Ключевой фразы должно быть столько, сколько нужно.
2. Использование терминов повышает качество текста и позиции
3. Расширенное семядро улучшает ПФ и позиции естественным способом
4. Монотематичный текст лучше политематичного.
5. Текст должен быть про ключевую фразу
✔
✔
✔
✔
✔
39. СПАСИБО ЗА ВНИМАНИЕ!
Сергей Лысенко
Руководитель отдела аналитики Webcom Group
ДЕНЬ ОТКРЫТЫХ ДВЕРЕЙ
КОНТАКТНЫЕ ДАННЫЕ
+ 7 (495) 308-82-51
serhei-lysenko@webcom-media.ru
www.webcom-media.ru
facebook.com/WebcomMedia
ФОТО