Содержание:
- Основа работы поиска
- Базовые алгоритмы поиска
- Алгоритм HITS
- Построение подграфа Веб
- Построение RootSet
- Построение BaseSet
- Недостатки HITS
Более подробную информацию Вы можете получить на полном курсе SEO: http://www.topexpert.pro/seo-kurs.html
2. Евгений Федулов
Евгений Федулов
В SEO с 2008 года
Опыт работы – как на стороне клиента, так и на
стороне исполнителя.
Поисковое продвижение сети магазинов
спортивного питания POWER-WAY, организация
внутреннего отдела продвижения группы компаний
RESTEC
Выпускник второго потока курсов ТопЭксперт
3. ТопЭксперт – это
Учебный центр по SEO с
эффективной программой
обучения.
Образовательный сайт,
содержащий справочную
информацию.
Группа экспертов,
оказывающих услуги аудита,
консультаций и продвижения
сайтов.
Евгений Федулов
4. Миссия
Повышать квалификацию участников отрасли интернет-маркетинга,
соединяя специалистов, экспертов и работодателей в образовательную
среду и упорядочивая и структурируя информацию в доступные
масштабируемые образовательные продукты, адаптированные для
дистанционного обучения.
• Для специалистов: предоставить возможность получения доступного
дистанционного профессионального образования в сфере IT.
• Для компаний: поставлять квалифицированные кадры, обучать
сотрудников.
• Для экспертов: предоставить возможность экспертам быть понятыми и
услышанными, способствовать повышению дохода и востребованности.
• Для технологий: создать среду для роста специалистов, способных
создавать новые технологии.
Евгений Федулов
5. Разобрать основы работы алгоритма HITS
Расширить представления слушателей о работе поисковой
системы
Цели вебинара
Евгений Федулов
6. Кому будет полезен этот вебинар
Начинающим SEO оптимизаторам
Евгений Федулов
7. Евгений Федулов
Основные проблемы поиска
• Огромный объем доступной информации
• Расплывчатость большинства запросов пользователей
• Неготовность пользователей долго анализировать результаты поиска
8. Основа работы поиска
Задачей ядра поисковых роботов
является обход Веб-графа
определенным образом с целью сбора
информации, выявление
структуры и вычисление полезности
информационных ресурсов в
Веб-пространстве, а также передача
собранной информации для
анализа другим приложениям поисковых
систем.
Евгений Федулов
То есть можно сказать что информация собирается и анализируется по ряду
факторов, которые можно отметить как внешние, то есть зависящие от
положения сайта некоем ссылочном графе пространства Веба.
Внутренние обусловленные содержанием самих веб ресурсов, а также поведение
пользователей на них.
9. Базовые алгоритмы поиска
Page Rank
Евгений Федулов
PageRank — это алгоритм, позволяющий оценить, насколько данная
интернет-страница популярна, то
есть это функция от интернет-страницы, которую можно сосчитать заранее.
Сергей Брин в 1998 году предложил следующую идею: определять рейтинг
страницы через количество
ведущих на нее ссылок и рейтинг ссылающихся страниц.
Google PageRank учитывает не все ссылки. Поисковая система
отфильтровывает ссылки с искусственно созданных сайтов, специально
предназначенных для скопления ссылок. Некоторые ссылки могут не
только не учитываться, но и отрицательно сказаться на ранжировании
ссылающегося сайта.
Основным недостатком PageRank является отсутствие учёта тематичности
ссылающихся друг на друга документов.
10. Алгоритм HITS
Евгений Федулов
В алгоритме HITS появляется возможность анализировать граф ссылок
между Web-документами и выделять два типа наиболее значимых
документов.
Определение значимости документа базируется на следующем
предположении о семантике ссылок между документами: когда человек
размещает в своем документе p ссылку на другой документ q, то он
отмечает значимость документа q в контексте документа p и то,
что читателю документа p возможно будет интересен документ q.
Отличие HITS от PageRank
PageRank подсчитывает общий "авторитет" документа, в то
время как HITS определяет "авторитет" документа для
конкретной темы.
12. Алгоритм HITS
Евгений Федулов
Как уже было отмечено выше, в HITS мы рассматриваем две разные роли страниц
Первая это роль первоисточника, характеризующую ценность информации на
этой странице, и роль посредника, характеризующую ценность информации на
страницах, доступных по ссылкам с этой страницы.
Такой подход мотивирован наличием в Веб большого числа тематических
сообществ, т.е. наборов страниц близкой тематики, которые
сильно связаны друг с другом ссылками.
Типичный вид такого сообщества приведен на следующем слайде.
13. Алгоритм HITS
Евгений Федулов
Структура тематического
сообщества. Слева – ярко
выраженные посредники, справа –
хорошие первоисточники.
Выделение ролей наиболее
осмыслено в рамках некоторого
локального тематического контекста
(т.е. полезность страницы как
первоисточника)
14. Построение подграфа Веб
Евгений Федулов
Процедура построения подграфа Веб опирается на использование
какой-нибудь поисковой системы для Веб с относительно хорошим покрытием
индекса. По исходному запросу подграф строится следующим образом:
Построение Root set и построение base set.
15. Построение RootSet
Евгений Федулов
Это множество формируется из k (обычно порядка 200) первых
результатов, возвращенных используемой поисковой системой для
исходного запроса.
16. Построение Base set
Евгений Федулов
Это множество получается при помощи расширения RootSet за счет
окрестностей страниц из RootSet. Таким образом добавляются страницы,
которые содержат ссылки на страницы из RootSet или, наоборот, ссылки на
которые содержатся в каких-нибудь страницах из RootSet. Для обнаружения
страниц первого вида (т.е. страниц с входящими ссылками) также используются
возможности поисковой системы общего назначения. При этом из
вычислительных соображений обычно ограничивают максимальное число d
учитываемых.
Искомый подграф Веб, который далее используется для вычисления
рангов страниц, получается сужением полного графа Веб на BaseSet, из
которого удалены все внутридоменные ссылки. Удаление внутридоменных
ссылок – это простейшая эвристика для подавления навигационных и
протекционных ссылок, которые вызывают искажение результатов
ранжирования.
Взаимосвязь между множествами BaseSet и RootSet проиллюстрирована на
следующем слайде.
17. Построение Base set
Евгений Федулов
BaseSet. Жирные стрелки –
ссылки, которые участвовали в его
образовании.
Неформально понятно, что
страница является хорошим
посредником, если
она содержит ссылки на ценные
первоисточники, и наоборот,
страница является хорошим
первоисточником, если она
упоминается хорошими
посредниками.
18. Вычисление рангов страниц Веб
Евгений Федулов
Нахождение наиболее значимых страниц осуществляется следующим
образом. Наиболее значимыми страницами предложено считать те, на которые
больше всего ссылаются другие значимые страницы, такие страницы будем
называть авторитетными страницами
Авторитетные страницы являются наиболее значимыми в рамках
заданной темы запроса, поэтому на них часто ссылаются другие страницы,
относящиеся к данной теме. Это свойство позволяет выявить
страницы которые ссылаются на несколько авторитетных страниц,
относящихся к одной теме. Вместе оба типа значимых страниц образуют
взаимно усиливающееся отношение (mutually reinforcing relationship), т.е.
хорошая авторитетная страница ссылается на много индексных страниц и
хорошая индексная страница ссылается на много авторитетных страниц.
19. Недостатки Hits
Евгений Федулов
Проблема смещения тематики
Алгоритм Клейнберга он же hits может повысить качество ранжирования не
только за счет переупорядочивания страниц, которые обнаружила поиско-
вая система. При построении BaseSet в него могут попасть (и затем быть
высоко ранжированными) страницы, которые поисковая система вообще
не считает релевантными из-за того, что они по тем или иным причинам не
содержат слова из запроса.
Однако, именно эта особенность алгоритма обуславливает и отсутствие
стабильности качества результатов HITS.
В том случае, когда в BaseSet попадает много страниц на другие
темы, и сообщество, соответствующее исходной теме, не является доминирующим,
это свойство обуславливает присвоение наивысших рангов страницам на другую
тему.
Такой эффект получил название смещения тематики (topic drift).
Обычно такое смещение происходит в направлении более широкой
предметной области (или лучше представленной в Веб). Например, запрос
«WWW conferences» имеет тенденцию смещаться к теме «WWW».
20. Модификации HITS
Евгений Федулов
На сегодняшний день известно довольно много модификаций HITS,
которые условно можно разделить на три группы. К первой относятся над-
стройки над HITS, которые, например, предлагают изменить построение связей, но
не меняют принцип ранжирования.
Ко второй группе относятся попытки изменить сам алгоритм – на-
пример, используя вероятностный подход .
Последнюю группу составляют методы, которые допускают, что
самое крупное обнаруженное сообщество не является самым ценным, и
пытаются автоматически определить наиболее полезное сообщество среди
всех обнаруженных. Так, например, Клейнберг пробовал оценивать ценность
сообщества как суммарную близость нескольких наиболее важных
документов из сообщества к исходному запросу.