Оптимизация сайтов под MatrixNet на основе метрического анализаЗябрев Илья Николаевичгенеральный директор, AlterTrader Research Ltd.
Ранжирующая формула поискового алгоритма ЯндексаФункция релевантностиfr(q,d) – релевантность документа d относительно запроса q.
Функции, заданные деревьями решенийНачинаем из корня дерева, условие x<4 выполняется? Да. Следовательно, спускаемся по левой ветке.Условие x<2 выполняется? Да. Опять спускаемся по левой ветке.Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1)=1.
Особенности функций заданных деревьями решенийКусочная постоянность. Т.е. на некоторых интервалах при изменении х, значение самой функции не меняется. Например, при 2<=х<4 (т.е. при х от 2 до 3,999999999....) f(x)=2При переходе х через условие ветвления, функция меняется скачком. Например, f(3,9999999)=2, f(4)=3.
Функция от двух аргументов, заданная деревом решенийВычислим значение функции для х1=1 х2=1. Начинаем из корня дерева, условие x1<3 выполняется? Да. Следовательно, спускаемся по левой ветке.Условие x2<2 выполняется? Да. Опять спускаемся по левой ветке.Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1,1)=1.
Пример функции hk(q,d)f1(q,d) – количество вхождений лемм слов запроса в тег body f2(q,d) – плотность лемм запроса в теге bodyf3(q,d)- количество вхождений лемм запроса в заголовок документа
Таблица 1. Значение функции h(q,d)
Особенности функций заданных деревомрешений Документы со значительно отличающимися значениями свойств могут иметь одинаковые значения функции hk(q,d), а документы с малыми отличиями в свойствах –очень сильно отличающиеся значения. Непрямая зависимость функций от свойств документа, которая делает поведение функций hk и в конечном итоге функции релевантности в зависимости от fi(q,d) слабоподдающимся внешнему анализу.
Особенности построения деревьев на основе MatrixNetРеальные деревья решений, полученные при помощиалгоритма MatrixNet, обладают следующими свойствами:Глубина (т.е. число горизонтальных уровней или число ветвлений) дерева – число ограниченное. По некоторым данным это ограничение равно 10, т.е. на нижнем  (10-м) уровне имеется 2**10 узлов, соответствующих значениям фунции h(q,d). На каждом уровне ветвление происходит только по одному и тому же условию (собственно именно только такие примеры мы и рассматривали). Т.е. всего в каждой функции может использоваться не более 10 свойств документа.
Корреляционный анализ ранжирующих алгоритмов до запуска Снежинска1.  Делается подборка запросов, максимально исключающая влияние ссылочного фактора. 2. Для различных числовых метрик (свойств) документа строятся ранговые коэффициенты парной корреляции3. Находятся свойства, сильно коррелирующие с рангами сайтов.4. На их основе строится методика оптимизации структуры документа, позволяющая улучшить позиции продвигаемого сайта исключительно за счет изменения его текстового содержания.
Таблица 2. Коэффициенты корреляции для различных свойств до запуска Снежинска
 MatrixNet и корреляционный анализС приходом МатриксНета ситуация изменилась: числовые характеристики, выделенные при помощи простого корреляционного анализа стали работать существенно хуже.Это связано с тем, что корреляционный анализ направлен преимущественно на выявление линейных связей, а функции заданные деревьями решений нелинейные. Ни одна из простых метрик не дает хорошего коэффициента корреляции.
Таблица 3. Коэффициенты корреляции для различных свойств после запуска Снежинска
Использование множественного корреляционного анализаМожно исследовать одновременное влияние групп факторов.На сегодня пока не сложно найти характеристики, работающие при некоторых довольно жестких условиях, например:	Метрика действует лишь в рамках топов для ограниченной группы регионов.
	Метрика действует лишь тогда, когда ряд других числовых характеристик сайта принимает значения из некоторой области.Основные этапы создания модели на основе МатриксНет Создается подборка запросов, максимально исключающая влияние ссылочного фактора. Например, запросы из непопулярных слов или запросы, задающие поиск по одному сайту. Чем больше различных запросов используется для проведения анализа, тем выше будет адекватность построенной модели.Подбираются свойства (числовые характеристики) документов, которые предположительно влияют на ранжирование сайтов. Обычно это делается на основе проведенных предварительных наблюдений или возникающих в процессе исследования поисковых систем гипотез. Далее для каждого сайта из топа Яндекса по выбранным запросам вычисляются значения каждого из свойств.Синтез ранжирующей функции по жадному алгоритму на основе MatrixNet.
Наиболее значимые метрики документовTF(L,d) – вхождение леммы L в документ dCF(L) – число вхождений леммы L в коллекциюD – общее количество документов в коллекцииDocLen(d) – длина документа dСумма производится по всем лемма запроса qL1+L2-пара лемм из запроса
TF(L1+L2,d) – вхождение пары лемм в документНаиболее значимые метрики документовСуммирование производится по всем леммам запроса, присутствующим в документе.Nmiss –число лемм запроса, отсутствующих в документеTF(q,d) –вхождение запроса q целиком в документ dНаиболее значимые метрики документовDF(L) – количество документов коллекции, в которых встречается лемма LADL – средняя длина документа коллекции
Наиболее значимые метрики документовP(L,d) – позиция леммы L в документе dLMD(p, L, d) – расстояние от позиции p до ближайшей слева леммы L в документе d. RMD(p, L, d) – расстояние от позиции p до ближайшей справа леммы L в документе d.
Наиболее значимые метрики документовPr – предложение документа d|Pr| - длина предложения PrICLF(L,v) – обратная условная частота леммы CLF(L,v) – число документов коллекции, в которое лемма L входит v раз.
Наиболее значимые метрики документов%CLF – число документов коллекции, в которых лемма L имеет плотность v		Метрики применяются к различным областям документа, размеченных тегами: title, body, h1-h6, a и т.д., а также к информационной областитекста.
Характеристика полученной моделиПолученная модель не будет иметь ничего общего с той, которая используется Яндексом.При этом модель может оказаться вполне адекватной относительно решаемой задачи.Мы оценили построенную модель при помощи парного корреляционного анализа, где в качестве единственного фактора, влияющего на ранжирование, выступала наша функция релевантности.
Таблица 4. Результаты корреляционного анализа построенной модели
Возможности подходаПреимущества: Исследование влияния различных свойств документа на его положение в топе.
 Оценка внесенных в документ изменений с точки зрения влияния на ранжирование.Недостатки: Модель не является точной копией МатриксНет и работает не всегда.Ваши вопросы
Zyabrev -

Zyabrev -

  • 1.
    Оптимизация сайтов подMatrixNet на основе метрического анализаЗябрев Илья Николаевичгенеральный директор, AlterTrader Research Ltd.
  • 2.
    Ранжирующая формула поисковогоалгоритма ЯндексаФункция релевантностиfr(q,d) – релевантность документа d относительно запроса q.
  • 3.
    Функции, заданные деревьямирешенийНачинаем из корня дерева, условие x<4 выполняется? Да. Следовательно, спускаемся по левой ветке.Условие x<2 выполняется? Да. Опять спускаемся по левой ветке.Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1)=1.
  • 4.
    Особенности функций заданныхдеревьями решенийКусочная постоянность. Т.е. на некоторых интервалах при изменении х, значение самой функции не меняется. Например, при 2<=х<4 (т.е. при х от 2 до 3,999999999....) f(x)=2При переходе х через условие ветвления, функция меняется скачком. Например, f(3,9999999)=2, f(4)=3.
  • 5.
    Функция от двухаргументов, заданная деревом решенийВычислим значение функции для х1=1 х2=1. Начинаем из корня дерева, условие x1<3 выполняется? Да. Следовательно, спускаемся по левой ветке.Условие x2<2 выполняется? Да. Опять спускаемся по левой ветке.Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1,1)=1.
  • 6.
    Пример функции hk(q,d)f1(q,d)– количество вхождений лемм слов запроса в тег body f2(q,d) – плотность лемм запроса в теге bodyf3(q,d)- количество вхождений лемм запроса в заголовок документа
  • 7.
  • 8.
    Особенности функций заданныхдеревомрешений Документы со значительно отличающимися значениями свойств могут иметь одинаковые значения функции hk(q,d), а документы с малыми отличиями в свойствах –очень сильно отличающиеся значения. Непрямая зависимость функций от свойств документа, которая делает поведение функций hk и в конечном итоге функции релевантности в зависимости от fi(q,d) слабоподдающимся внешнему анализу.
  • 9.
    Особенности построения деревьевна основе MatrixNetРеальные деревья решений, полученные при помощиалгоритма MatrixNet, обладают следующими свойствами:Глубина (т.е. число горизонтальных уровней или число ветвлений) дерева – число ограниченное. По некоторым данным это ограничение равно 10, т.е. на нижнем (10-м) уровне имеется 2**10 узлов, соответствующих значениям фунции h(q,d). На каждом уровне ветвление происходит только по одному и тому же условию (собственно именно только такие примеры мы и рассматривали). Т.е. всего в каждой функции может использоваться не более 10 свойств документа.
  • 10.
    Корреляционный анализ ранжирующихалгоритмов до запуска Снежинска1. Делается подборка запросов, максимально исключающая влияние ссылочного фактора. 2. Для различных числовых метрик (свойств) документа строятся ранговые коэффициенты парной корреляции3. Находятся свойства, сильно коррелирующие с рангами сайтов.4. На их основе строится методика оптимизации структуры документа, позволяющая улучшить позиции продвигаемого сайта исключительно за счет изменения его текстового содержания.
  • 11.
    Таблица 2. Коэффициентыкорреляции для различных свойств до запуска Снежинска
  • 12.
    MatrixNet икорреляционный анализС приходом МатриксНета ситуация изменилась: числовые характеристики, выделенные при помощи простого корреляционного анализа стали работать существенно хуже.Это связано с тем, что корреляционный анализ направлен преимущественно на выявление линейных связей, а функции заданные деревьями решений нелинейные. Ни одна из простых метрик не дает хорошего коэффициента корреляции.
  • 13.
    Таблица 3. Коэффициентыкорреляции для различных свойств после запуска Снежинска
  • 14.
    Использование множественного корреляционногоанализаМожно исследовать одновременное влияние групп факторов.На сегодня пока не сложно найти характеристики, работающие при некоторых довольно жестких условиях, например: Метрика действует лишь в рамках топов для ограниченной группы регионов.
  • 15.
    Метрика действует лишьтогда, когда ряд других числовых характеристик сайта принимает значения из некоторой области.Основные этапы создания модели на основе МатриксНет Создается подборка запросов, максимально исключающая влияние ссылочного фактора. Например, запросы из непопулярных слов или запросы, задающие поиск по одному сайту. Чем больше различных запросов используется для проведения анализа, тем выше будет адекватность построенной модели.Подбираются свойства (числовые характеристики) документов, которые предположительно влияют на ранжирование сайтов. Обычно это делается на основе проведенных предварительных наблюдений или возникающих в процессе исследования поисковых систем гипотез. Далее для каждого сайта из топа Яндекса по выбранным запросам вычисляются значения каждого из свойств.Синтез ранжирующей функции по жадному алгоритму на основе MatrixNet.
  • 16.
    Наиболее значимые метрикидокументовTF(L,d) – вхождение леммы L в документ dCF(L) – число вхождений леммы L в коллекциюD – общее количество документов в коллекцииDocLen(d) – длина документа dСумма производится по всем лемма запроса qL1+L2-пара лемм из запроса
  • 17.
    TF(L1+L2,d) – вхождениепары лемм в документНаиболее значимые метрики документовСуммирование производится по всем леммам запроса, присутствующим в документе.Nmiss –число лемм запроса, отсутствующих в документеTF(q,d) –вхождение запроса q целиком в документ dНаиболее значимые метрики документовDF(L) – количество документов коллекции, в которых встречается лемма LADL – средняя длина документа коллекции
  • 18.
    Наиболее значимые метрикидокументовP(L,d) – позиция леммы L в документе dLMD(p, L, d) – расстояние от позиции p до ближайшей слева леммы L в документе d. RMD(p, L, d) – расстояние от позиции p до ближайшей справа леммы L в документе d.
  • 19.
    Наиболее значимые метрикидокументовPr – предложение документа d|Pr| - длина предложения PrICLF(L,v) – обратная условная частота леммы CLF(L,v) – число документов коллекции, в которое лемма L входит v раз.
  • 20.
    Наиболее значимые метрикидокументов%CLF – число документов коллекции, в которых лемма L имеет плотность v Метрики применяются к различным областям документа, размеченных тегами: title, body, h1-h6, a и т.д., а также к информационной областитекста.
  • 21.
    Характеристика полученной моделиПолученнаямодель не будет иметь ничего общего с той, которая используется Яндексом.При этом модель может оказаться вполне адекватной относительно решаемой задачи.Мы оценили построенную модель при помощи парного корреляционного анализа, где в качестве единственного фактора, влияющего на ранжирование, выступала наша функция релевантности.
  • 22.
    Таблица 4. Результатыкорреляционного анализа построенной модели
  • 23.
    Возможности подходаПреимущества: Исследованиевлияния различных свойств документа на его положение в топе.
  • 24.
    Оценка внесенныхв документ изменений с точки зрения влияния на ранжирование.Недостатки: Модель не является точной копией МатриксНет и работает не всегда.Ваши вопросы