• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Zyabrev -
 

Zyabrev -

on

  • 845 views

 

Statistics

Views

Total Views
845
Views on SlideShare
665
Embed Views
180

Actions

Likes
0
Downloads
3
Comments
0

7 Embeds 180

http://www.seomodule.ru 112
http://www.rookee.ru 53
http://seomodule.ru 7
http://192.168.104.19 5
http://192.168.2.106 1
http://www.google.com 1
http://l.lj-toys.com 1
More...

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Zyabrev - Zyabrev - Presentation Transcript

    • Оптимизация сайтов под MatrixNet на основе метрического анализа
      Зябрев Илья Николаевич
      генеральный директор, AlterTrader Research Ltd.
    • Ранжирующая формула поискового алгоритма Яндекса
      • Функция релевантности
      fr(q,d) – релевантность документа d относительно запроса q.
    • Функции, заданные деревьями решений
      Начинаем из корня дерева, условие x<4 выполняется? Да. Следовательно, спускаемся по левой ветке.
      Условие x<2 выполняется? Да. Опять спускаемся по левой ветке.
      Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1)=1.
    • Особенности функций заданных деревьями решений
      Кусочная постоянность. Т.е. на некоторых интервалах при изменении х, значение самой функции не меняется. Например, при 2<=х<4 (т.е. при х от 2 до 3,999999999....) f(x)=2
      При переходе х через условие ветвления, функция меняется скачком. Например, f(3,9999999)=2, f(4)=3.
    • Функция от двух аргументов, заданная деревом решений
      Вычислим значение функции для х1=1 х2=1.
      Начинаем из корня дерева, условие x1<3 выполняется? Да. Следовательно, спускаемся по левой ветке.
      Условие x2<2 выполняется? Да. Опять спускаемся по левой ветке.
      Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1,1)=1.
    • Пример функции hk(q,d)
      f1(q,d) – количество вхождений лемм слов запроса в тег body
      f2(q,d) – плотность лемм запроса в теге body
      f3(q,d)- количество вхождений лемм запроса в заголовок документа
    • Таблица 1. Значение функции h(q,d)
    • Особенности функций заданных деревомрешений
      Документы со значительно отличающимися значениями свойств могут иметь одинаковые значения функции hk(q,d), а документы с малыми отличиями в свойствах –очень сильно отличающиеся значения.
      Непрямая зависимость функций от свойств документа, которая делает поведение функций hk и в конечном итоге функции релевантности в зависимости от fi(q,d) слабоподдающимся внешнему анализу.
    • Особенности построения деревьев на основе MatrixNet
      Реальные деревья решений, полученные при помощиалгоритма MatrixNet, обладают следующими свойствами:
      Глубина (т.е. число горизонтальных уровней или число ветвлений) дерева – число ограниченное. По некоторым данным это ограничение равно 10, т.е. на нижнем (10-м) уровне имеется 2**10 узлов, соответствующих значениям фунции h(q,d).
      На каждом уровне ветвление происходит только по одному и тому же условию (собственно именно только такие примеры мы и рассматривали). Т.е. всего в каждой функции может использоваться не более 10 свойств документа.
    • Корреляционный анализ ранжирующих алгоритмов до запуска Снежинска
      1. Делается подборка запросов, максимально исключающая влияние ссылочного фактора.
      2. Для различных числовых метрик (свойств) документа строятся ранговые коэффициенты парной корреляции
      3. Находятся свойства, сильно коррелирующие с рангами сайтов.
      4. На их основе строится методика оптимизации структуры документа, позволяющая улучшить позиции продвигаемого сайта исключительно за счет изменения его текстового содержания.
    • Таблица 2. Коэффициенты корреляции для различных свойств до запуска Снежинска
    • MatrixNet и корреляционный анализ
      С приходом МатриксНета ситуация изменилась: числовые характеристики, выделенные при помощи простого корреляционного анализа стали работать существенно хуже.
      Это связано с тем, что корреляционный анализ направлен преимущественно на выявление линейных связей, а функции заданные деревьями решений нелинейные.
      Ни одна из простых метрик не дает хорошего коэффициента корреляции.
    • Таблица 3. Коэффициенты корреляции для различных свойств после запуска Снежинска
    • Использование множественного корреляционного анализа
      Можно исследовать одновременное влияние групп факторов.
      На сегодня пока не сложно найти характеристики, работающие при некоторых довольно жестких условиях, например:
      • Метрика действует лишь в рамках топов для ограниченной группы регионов.
      • Метрика действует лишь тогда, когда ряд других числовых характеристик сайта принимает значения из некоторой области.
    • Основные этапы создания модели на основе МатриксНет
      Создается подборка запросов, максимально исключающая влияние ссылочного фактора. Например, запросы из непопулярных слов или запросы, задающие поиск по одному сайту. Чем больше различных запросов используется для проведения анализа, тем выше будет адекватность построенной модели.
      Подбираются свойства (числовые характеристики) документов, которые предположительно влияют на ранжирование сайтов. Обычно это делается на основе проведенных предварительных наблюдений или возникающих в процессе исследования поисковых систем гипотез. Далее для каждого сайта из топа Яндекса по выбранным запросам вычисляются значения каждого из свойств.
      Синтез ранжирующей функции по жадному алгоритму на основе MatrixNet.
    • Наиболее значимые метрики документов
      TF(L,d) – вхождение леммы L в документ d
      CF(L) – число вхождений леммы L в коллекцию
      D – общее количество документов в коллекции
      DocLen(d) – длина документа d
      Сумма производится по всем лемма запроса q
      • L1+L2-пара лемм из запроса
      • TF(L1+L2,d) – вхождение пары лемм в документ
    • Наиболее значимые метрики документов
      Суммирование производится по всем леммам запроса, присутствующим в документе.
      Nmiss –число лемм запроса, отсутствующих в документе
      • TF(q,d) –вхождение запроса q целиком в документ d
    • Наиболее значимые метрики документов
      DF(L) – количество документов коллекции, в которых встречается лемма L
      ADL – средняя длина документа коллекции
    • Наиболее значимые метрики документов
      P(L,d) – позиция леммы L в документе d
      LMD(p, L, d) – расстояние от позиции p до ближайшей слева леммы L в документе d.
      RMD(p, L, d) – расстояние от позиции p до ближайшей справа леммы L в документе d.
    • Наиболее значимые метрики документов
      Pr – предложение документа d
      |Pr| - длина предложения Pr
      ICLF(L,v) – обратная условная частота леммы
      CLF(L,v) – число документов коллекции, в которое лемма L входит v раз.
    • Наиболее значимые метрики документов
      %CLF – число документов коллекции, в которых лемма L имеет плотность v
      Метрики применяются к различным областям документа, размеченных тегами: title, body, h1-h6, a и т.д., а также к информационной областитекста.
    • Характеристика полученной модели
      Полученная модель не будет иметь ничего общего с той, которая используется Яндексом.
      При этом модель может оказаться вполне адекватной относительно решаемой задачи.
      Мы оценили построенную модель при помощи парного корреляционного анализа, где в качестве единственного фактора, влияющего на ранжирование, выступала наша функция релевантности.
    • Таблица 4. Результаты корреляционного анализа построенной модели
    • Возможности подхода
      Преимущества:
      • Исследование влияния различных свойств документа на его положение в топе.
      • Оценка внесенных в документ изменений с точки зрения влияния на ранжирование.
      Недостатки:
      • Модель не является точной копией МатриксНет и работает не всегда.
    • Ваши вопросы