Your SlideShare is downloading. ×
0
Текстовые факторы
ранжирования: от анализа до
разработки сайта
Трофименко Евгений Александрович
trofimenko.evgeny@rbscorp....
Длина запросов
• Много информации в рунете
• Средняя длина запроса – 2.5—3 слова
• Масса длинных запросов велика
• Контекс...
Банальщина и не только
Неиндексируемые зоны
документа
• <head> (кроме <meta>)
• <script>
• <frames>
• <noindex> (Яндекс и
...
Бан сайта по текстовым
факторам – обычные критерии
• Невидимый или слабовидимый для посетителя
текст на странице
• Клоакин...
Бан сайта – нововведения и
частые ошибки модераторов
• Размещение текстов в невидимых слоях документа
• Излишнее использов...
Факторы влияния на
ранжирование
• Нахождение слов запроса в особо
важных зонах документа:
title, h1-h4, b, strong, I, em…....
Особенности Яндекса
• Небольшие документы
• Быстроробот для обновления
информации
• Большее влияние ссылочных факторов
• …...
Особенности Рамблера
• Большие документы
• Большее влияние числа найденных
слов
• Общая релевантность сайта
(найденные стр...
Ограничения контекста при
поиске
Переформулирование поискового
запроса:
• Яндекс: «колдунщик»
• Рамблер: «клей»
Реально от...
Примеры контекстных
ограничений (Яндекс)
Был запрос:
пластиковые окна в москве
Стало:
(пластиковые::21485 & окна::5689 &
в...
Примеры контекстных
ограничений (Яндекс)
Поиск в пределах
документа &&
В пределах нескольких
предложений &&/(-3 3)
В преде...
Разделители предложений для
Яндекса
Если слова запроса «ищутся» в пределах
предложения или ближе:
Разделителями являются:
...
Особенности обработки
поискового запроса (Яндекс)
1. Переформулирование запроса
2. Выбор пассажей по огр. контекста
3. Выб...
Частоты, слова
или все вместе?
1. Исходно – частоты (tf=n/N)
2. Перенормировка по размеру
документа (/N), например
3. Сумм...
Частоты в Яндексе-1
• Поиск по цитате из романа «Война и Мир» - одно вхождение:
размер документа в выдаче
…есть ли нормиро...
Частоты в Яндексе-2
• Запрос
$anchor(сайт) –
поиск похож на
чисто текстовый
(отличается от
поиска по запросу
сайт) – больш...
Частоты Яндекса-2
• Число найденных слов vs. число слов в документе
…есть ли зависимость (т.е., «частота»)?
всего слов в д...
Частоты в Яндексе-2
• Частоты vs. позиция в выдаче $anchor(сайт)
% в тексте (доля)
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.1...
Частоты в Яндексе-2
• Первые 300 результатов из 17.000
• Частота vs. число найденных слов
% (доля) слова в тексте
0
0.02
0...
Практическое применение
• На этапе создания семант-ядра
• На этапе распределения слов по
страницам
• Не попасть впросак с ...
Учет контекстных
ограничений при
оптимизации и продвижении
сайта
Запрос Переколдованный запрос
ноутбук Fujitsu-Siemens
Lif...
Вот, собственно, и всё.
Текстовые факторы ранжирования: от
анализа до разработки сайта
Трофименко Евгений Александрович
tr...
Upcoming SlideShare
Loading in...5
×

2 01-trofimenko

226

Published on

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
226
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "2 01-trofimenko"

  1. 1. Текстовые факторы ранжирования: от анализа до разработки сайта Трофименко Евгений Александрович trofimenko.evgeny@rbscorp.ru (495) 232-05-91 Корпорация РБС/ BDBD.ru http://www.bdbd.ru начальник отдела продвижения
  2. 2. Длина запросов • Много информации в рунете • Средняя длина запроса – 2.5—3 слова • Масса длинных запросов велика • Контекстные ограничения при поиске • Чувствительность длинных запросов к текстовой (контентной) оптимизации • …текстовые факторы рулят! (в своей области…)
  3. 3. Банальщина и не только Неиндексируемые зоны документа • <head> (кроме <meta>) • <script> • <frames> • <noindex> (Яндекс и Рамблер) • Поля форм (кроме <textarea>) Ограничение индексации документов: • robots.txt • 4ХХ и 5ХХ HTTP- заголовки • 304 Not Modified
  4. 4. Бан сайта по текстовым факторам – обычные критерии • Невидимый или слабовидимый для посетителя текст на странице • Клоакинг (cloaking) – выдача разного контента для поисковика и посетителя • Мгновенные перенаправления посетителя на другую страницу (редирект) • Наличие на сайте входных страниц (дорвеев), не несущих пользователю искомой информации • Сгенерированный текст на страницах
  5. 5. Бан сайта – нововведения и частые ошибки модераторов • Размещение текстов в невидимых слоях документа • Излишнее использование тегов выделения (Hx) • Сайт состоит из «плохого, нетематического, немодерируемого» каталога ссылок • Подмена страницы поисковика после захода на нее посетителя с помощью javascript • Контент сайта, состоящий на большую долю из рекламы (Бегун, фиды PPC) или партнерских программ (Мамба, интернет-магазины) • «отсутствие добавленной ценности или сервиса»
  6. 6. Факторы влияния на ранжирование • Нахождение слов запроса в особо важных зонах документа: title, h1-h4, b, strong, I, em….. • Естественность текста (… варианты) • Общая релевантность сайта и его структуры • … и соответствие контекстным ограничениям
  7. 7. Особенности Яндекса • Небольшие документы • Быстроробот для обновления информации • Большее влияние ссылочных факторов • …ограничения контекста
  8. 8. Особенности Рамблера • Большие документы • Большее влияние числа найденных слов • Общая релевантность сайта (найденные страницы+внутренние ссылки) • …ограничения контекста
  9. 9. Ограничения контекста при поиске Переформулирование поискового запроса: • Яндекс: «колдунщик» • Рамблер: «клей» Реально отрабатывается запрос, отличный от введенного, с добавлением расстояний и весов
  10. 10. Примеры контекстных ограничений (Яндекс) Был запрос: пластиковые окна в москве Стало: (пластиковые::21485 & окна::5689 & в::0 &/(-1 3) москве::895)//6 (веса, расстояния, мягкость, изменения)
  11. 11. Примеры контекстных ограничений (Яндекс) Поиск в пределах документа && В пределах нескольких предложений &&/(-3 3) В пределах предложения & В пределах нескольких слов &/(-1 3)
  12. 12. Разделители предложений для Яндекса Если слова запроса «ищутся» в пределах предложения или ближе: Разделителями являются: • Теги TABLE, TD, BR, P, H1-H6, DIV… • Точка, знаки (!?...) и двоеточие перед Текстом Как это выяснить? Найти модельный документ и использовать «подсветку»
  13. 13. Особенности обработки поискового запроса (Яндекс) 1. Переформулирование запроса 2. Выбор пассажей по огр. контекста 3. Выбор «найденных» пассажей по сумме весов слов (вес^0.38) 4. Расчет контрастности слов по позициям в найденных пассажах с перенормировкой по (размеру документа, частотным словам и др.) 5. Позиции взвешиваются по сходству окружения слова с запросом 6. Веса найденных словопозиций суммируются 7. Дополнительный учет форматирования
  14. 14. Частоты, слова или все вместе? 1. Исходно – частоты (tf=n/N) 2. Перенормировка по размеру документа (/N), например 3. Суммирование по позициям (*n) =>есть зависимость и от tf и от n Большие документы – ближе к частоте Маленькие – ближе к числу слов
  15. 15. Частоты в Яндексе-1 • Поиск по цитате из романа «Война и Мир» - одно вхождение: размер документа в выдаче …есть ли нормировка по размеру документа (в словах)? Размер документа (КБ) 0 100 200 300 400 500 600 700 800 900 1 2 3 4 5 6 7 8 9 10 Место в выдаче
  16. 16. Частоты в Яндексе-2 • Запрос $anchor(сайт) – поиск похож на чисто текстовый (отличается от поиска по запросу сайт) – большие документы и т.п. Число слов "сайт*" в найденных документах 0 100 200 300 400 500 600 0 50 100 150 200 250 300 Место в выдаче
  17. 17. Частоты Яндекса-2 • Число найденных слов vs. число слов в документе …есть ли зависимость (т.е., «частота»)? всего слов в документе 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 0 100 200 300 400 500 600 Число найденных слов
  18. 18. Частоты в Яндексе-2 • Частоты vs. позиция в выдаче $anchor(сайт) % в тексте (доля) 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 205 217 229 241 253 Место в выдаче
  19. 19. Частоты в Яндексе-2 • Первые 300 результатов из 17.000 • Частота vs. число найденных слов % (доля) слова в тексте 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 100 200 300 400 500 600 Число найденных слов
  20. 20. Практическое применение • На этапе создания семант-ядра • На этапе распределения слов по страницам • Не попасть впросак с точными формулировками …учет контекстных ограничений при оптимизации и продвижении сайта
  21. 21. Учет контекстных ограничений при оптимизации и продвижении сайта Запрос Переколдованный запрос ноутбук Fujitsu-Siemens Lifebook P1510 (ноутбук::8544 && Fujitsu::60128 &/(1 1) Siemens::6150 & Lifebook::1971845 && P1510::1819103916)//6 ноутбук Fujitsu Siemens Lifebook P1510 (ноутбук::8544 && Fujitsu::60128 & Siemens::6150 & Lifebook::1971845 && P1510::1819103916)//6 ноутбук Fujitsu-Siemens (ноутбук::8544 &&/(-3 3) Fujitsu::60128 &/ (1 1) Siemens::6150)//6
  22. 22. Вот, собственно, и всё. Текстовые факторы ранжирования: от анализа до разработки сайта Трофименко Евгений Александрович trofimenko.evgeny@rbscorp.ru (495) 232-05-91 Корпорация РБС/ BDBD.ru http://www.bdbd.ru начальник отдела продвижения
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×