SlideShare a Scribd company logo
Оптимизация сайтов под MatrixNet на основе метрического анализа Зябрев Илья Николаевич генеральный директор, AlterTrader Research Ltd.
Ранжирующая формула поискового алгоритма Яндекса ,[object Object],fr(q,d) – релевантность документа d относительно запроса q.
Функции, заданные деревьями решений Начинаем из корня дерева, условие x<4 выполняется? Да. Следовательно, спускаемся по левой ветке. Условие x<2 выполняется? Да. Опять спускаемся по левой ветке. Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1)=1.
Особенности функций заданных деревьями решений Кусочная постоянность. Т.е. на некоторых интервалах при изменении х, значение самой функции не меняется. Например, при 2<=х<4 (т.е. при х от 2 до 3,999999999....) f(x)=2 При переходе х через условие ветвления, функция меняется скачком. Например, f(3,9999999)=2, f(4)=3.
Функция от двух аргументов, заданная деревом решений Вычислим значение функции для х1=1 х2=1.  Начинаем из корня дерева, условие x1<3 выполняется? Да. Следовательно, спускаемся по левой ветке. Условие x2<2 выполняется? Да. Опять спускаемся по левой ветке. Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1,1)=1.
Пример функции hk(q,d) f1(q,d) – количество вхождений лемм слов запроса в тег body  f2(q,d) – плотность лемм запроса в теге body f3(q,d)- количество вхождений лемм запроса в заголовок документа
Таблица 1. Значение функции h(q,d)
Особенности функций заданных деревомрешений  Документы со значительно отличающимися значениями свойств могут иметь одинаковые значения функции hk(q,d), а документы с малыми отличиями в свойствах –очень сильно отличающиеся значения.  Непрямая зависимость функций от свойств документа, которая делает поведение функций hk и в конечном итоге функции релевантности в зависимости от fi(q,d) слабоподдающимся внешнему анализу.
Особенности построения деревьев на основе MatrixNet Реальные деревья решений, полученные при помощиалгоритма MatrixNet, обладают следующими свойствами: Глубина (т.е. число горизонтальных уровней или число ветвлений) дерева – число ограниченное. По некоторым данным это ограничение равно 10, т.е. на нижнем  (10-м) уровне имеется 2**10 узлов, соответствующих значениям фунции h(q,d).  На каждом уровне ветвление происходит только по одному и тому же условию (собственно именно только такие примеры мы и рассматривали). Т.е. всего в каждой функции может использоваться не более 10 свойств документа.
Корреляционный анализ ранжирующих алгоритмов до запуска Снежинска 1.  Делается подборка запросов, максимально исключающая влияние ссылочного фактора.  2. Для различных числовых метрик (свойств) документа строятся ранговые коэффициенты парной корреляции 3. Находятся свойства, сильно коррелирующие с рангами сайтов. 4. На их основе строится методика оптимизации структуры документа, позволяющая улучшить позиции продвигаемого сайта исключительно за счет изменения его текстового содержания.
Таблица 2. Коэффициенты корреляции для различных свойств до запуска Снежинска
 MatrixNet и корреляционный анализ С приходом МатриксНета ситуация изменилась: числовые характеристики, выделенные при помощи простого корреляционного анализа стали работать существенно хуже. Это связано с тем, что корреляционный анализ направлен преимущественно на выявление линейных связей, а функции заданные деревьями решений нелинейные.  Ни одна из простых метрик не дает хорошего коэффициента корреляции.
Таблица 3. Коэффициенты корреляции для различных свойств после запуска Снежинска
Использование множественного корреляционного анализа Можно исследовать одновременное влияние групп факторов. На сегодня пока не сложно найти характеристики, работающие при некоторых довольно жестких условиях, например: ,[object Object]
	Метрика действует лишь тогда, когда ряд других числовых характеристик сайта принимает значения из некоторой области.,[object Object]
Наиболее значимые метрики документов TF(L,d) – вхождение леммы L в документ d CF(L) – число вхождений леммы L в коллекцию D – общее количество документов в коллекции DocLen(d) – длина документа d Сумма производится по всем лемма запроса q ,[object Object]
TF(L1+L2,d) – вхождение пары лемм в документ,[object Object],[object Object]
Наиболее значимые метрики документов P(L,d) – позиция леммы L в документе d LMD(p, L, d) – расстояние от позиции p до ближайшей слева леммы L в документе d.  RMD(p, L, d) – расстояние от позиции p до ближайшей справа леммы L в документе d.
Наиболее значимые метрики документов Pr – предложение документа d |Pr| - длина предложения Pr ICLF(L,v) – обратная условная частота леммы  CLF(L,v) – число документов коллекции, в которое лемма L входит v раз.
Наиболее значимые метрики документов %CLF – число документов коллекции, в которых лемма L имеет плотность v 		Метрики применяются к различным областям документа, размеченных тегами: title, body, h1-h6, a и т.д., а также к информационной областитекста.
Характеристика полученной модели Полученная модель не будет иметь ничего общего с той, которая используется Яндексом. При этом модель может оказаться вполне адекватной относительно решаемой задачи. Мы оценили построенную модель при помощи парного корреляционного анализа, где в качестве единственного фактора, влияющего на ранжирование, выступала наша функция релевантности.
Таблица 4. Результаты корреляционного анализа построенной модели
Возможности подхода Преимущества: ,[object Object]
 Оценка внесенных в документ изменений с точки зрения влияния на ранжирование.Недостатки: ,[object Object],[object Object]
Zyabrev -

More Related Content

What's hot

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
Netpeak
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
Vladimir Krylov
 
О.В. Сухорослов "Разбор ДЗ №3,4"
О.В. Сухорослов "Разбор ДЗ №3,4"О.В. Сухорослов "Разбор ДЗ №3,4"
О.В. Сухорослов "Разбор ДЗ №3,4"
Yandex
 
переменные в Python
переменные в Pythonпеременные в Python
переменные в Python
Александр Радченко
 
WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...
WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...
WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...
GeeksLab Odessa
 
Java. Массивы. Многомерные массивы.
Java. Массивы. Многомерные массивы.Java. Массивы. Многомерные массивы.
Java. Массивы. Многомерные массивы.
Unguryan Vitaliy
 
презентация3
презентация3презентация3
презентация3
Suchkov
 

What's hot (8)

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
О.В. Сухорослов "Разбор ДЗ №3,4"
О.В. Сухорослов "Разбор ДЗ №3,4"О.В. Сухорослов "Разбор ДЗ №3,4"
О.В. Сухорослов "Разбор ДЗ №3,4"
 
переменные в Python
переменные в Pythonпеременные в Python
переменные в Python
 
WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...
WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...
WebCamp: Developer Day: SQL Server Full-Text Search - это не для меня, или по...
 
Java. Массивы. Многомерные массивы.
Java. Массивы. Многомерные массивы.Java. Массивы. Многомерные массивы.
Java. Массивы. Многомерные массивы.
 
презентация3
презентация3презентация3
презентация3
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 

Viewers also liked

Edu4change4development mktpage-20130818-v oep
Edu4change4development mktpage-20130818-v oepEdu4change4development mktpage-20130818-v oep
Edu4change4development mktpage-20130818-v oep
Christian A. Estay-Niculcar
 
Snel aan de slag met een geïntegreerde webshop
Snel aan de slag met een geïntegreerde webshop Snel aan de slag met een geïntegreerde webshop
Snel aan de slag met een geïntegreerde webshop
valantic NL
 
презентация позойский
презентация позойскийпрезентация позойский
презентация позойскийAnna
 
презентация гроховский
презентация гроховскийпрезентация гроховский
презентация гроховскийAnna
 
Eremeev fix
Eremeev  fixEremeev  fix
Eremeev fixAnna
 
Insights from PISA for Schools and Local Educators
Insights from PISA for Schools and Local EducatorsInsights from PISA for Schools and Local Educators
Insights from PISA for Schools and Local Educators
EduSkills OECD
 

Viewers also liked (6)

Edu4change4development mktpage-20130818-v oep
Edu4change4development mktpage-20130818-v oepEdu4change4development mktpage-20130818-v oep
Edu4change4development mktpage-20130818-v oep
 
Snel aan de slag met een geïntegreerde webshop
Snel aan de slag met een geïntegreerde webshop Snel aan de slag met een geïntegreerde webshop
Snel aan de slag met een geïntegreerde webshop
 
презентация позойский
презентация позойскийпрезентация позойский
презентация позойский
 
презентация гроховский
презентация гроховскийпрезентация гроховский
презентация гроховский
 
Eremeev fix
Eremeev  fixEremeev  fix
Eremeev fix
 
Insights from PISA for Schools and Local Educators
Insights from PISA for Schools and Local EducatorsInsights from PISA for Schools and Local Educators
Insights from PISA for Schools and Local Educators
 

Similar to Zyabrev -

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
Netpeak
 
Начало работы в R
Начало работы в RНачало работы в R
Начало работы в R
Vladimir Bakhrushin
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
Grigory Sapunov
 
20111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture220111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture2Computer Science Club
 
Clojure: Lisp for the modern world (русская версия)
Clojure: Lisp for the modern world (русская версия)Clojure: Lisp for the modern world (русская версия)
Clojure: Lisp for the modern world (русская версия)
Alex Ott
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Реляционные базы данных
Реляционные базы данныхРеляционные базы данных
Реляционные базы данных
Levon Avakyan
 
Уровни проектирования информационной системы (обзор материалов портала wiki....
Уровни проектирования информационной системы  (обзор материалов портала wiki....Уровни проектирования информационной системы  (обзор материалов портала wiki....
Уровни проектирования информационной системы (обзор материалов портала wiki....Media Gorod
 
2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров????? ????????
 
Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данных
Alex Polorotov
 
паттерны проектирования источников данных
паттерны проектирования источников данныхпаттерны проектирования источников данных
паттерны проектирования источников данныхVitaliy Trenkenshu
 
реляционная модель данных
реляционная модель данныхреляционная модель данных
реляционная модель данныхSai_17
 
Диаграмма классов
Диаграмма классовДиаграмма классов
Диаграмма классов
DEVTYPE
 
Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...
Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...
Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...7bits
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
Yandex
 
Классы и объекты в Java
Классы и объекты в JavaКлассы и объекты в Java
Классы и объекты в Javametaform
 

Similar to Zyabrev - (20)

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Начало работы в R
Начало работы в RНачало работы в R
Начало работы в R
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
20111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture220111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture2
 
Clojure: Lisp for the modern world (русская версия)
Clojure: Lisp for the modern world (русская версия)Clojure: Lisp for the modern world (русская версия)
Clojure: Lisp for the modern world (русская версия)
 
Matrixnet
MatrixnetMatrixnet
Matrixnet
 
Rgsu04
Rgsu04Rgsu04
Rgsu04
 
Rgsu04
Rgsu04Rgsu04
Rgsu04
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Реляционные базы данных
Реляционные базы данныхРеляционные базы данных
Реляционные базы данных
 
Уровни проектирования информационной системы (обзор материалов портала wiki....
Уровни проектирования информационной системы  (обзор материалов портала wiki....Уровни проектирования информационной системы  (обзор материалов портала wiki....
Уровни проектирования информационной системы (обзор материалов портала wiki....
 
2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров
 
Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данных
 
паттерны проектирования источников данных
паттерны проектирования источников данныхпаттерны проектирования источников данных
паттерны проектирования источников данных
 
реляционная модель данных
реляционная модель данныхреляционная модель данных
реляционная модель данных
 
Диаграмма классов
Диаграмма классовДиаграмма классов
Диаграмма классов
 
Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...
Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...
Стажировка-2013, разработчики, занятие 3. Абстракции, контракты, соглашения (...
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
 
Классы и объекты в Java
Классы и объекты в JavaКлассы и объекты в Java
Классы и объекты в Java
 

More from Anna

презентация Rookee
презентация Rookeeпрезентация Rookee
презентация RookeeAnna
 
презентация Rookee
презентация Rookeeпрезентация Rookee
презентация RookeeAnna
 
презентация Rookee 2
презентация Rookee 2презентация Rookee 2
презентация Rookee 2Anna
 
вводная презентация
вводная презентациявводная презентация
вводная презентацияAnna
 
вводная презентация
вводная презентациявводная презентация
вводная презентацияAnna
 
презентация гроховский
презентация гроховскийпрезентация гроховский
презентация гроховскийAnna
 
презентация яресько
презентация яреськопрезентация яресько
презентация яреськоAnna
 
эффективность продвижения в Google в сравнении с яндексом яресько
эффективность продвижения в Google в сравнении с яндексом яреськоэффективность продвижения в Google в сравнении с яндексом яресько
эффективность продвижения в Google в сравнении с яндексом яреськоAnna
 
презентация позойский
презентация позойскийпрезентация позойский
презентация позойскийAnna
 
люстик
люстиклюстик
люстикAnna
 
яресько продажа позиций продажа трафика-продажа действий
яресько продажа позиций продажа трафика-продажа действийяресько продажа позиций продажа трафика-продажа действий
яресько продажа позиций продажа трафика-продажа действийAnna
 
халилов маркетинг в социальных сетях
халилов маркетинг в социальных сетяххалилов маркетинг в социальных сетях
халилов маркетинг в социальных сетяхAnna
 
Mueller presentation at proofseo
Mueller presentation at proofseoMueller presentation at proofseo
Mueller presentation at proofseo
Anna
 
Optimism.ru основы регионального продвижения в яндекс
Optimism.ru   основы регионального продвижения в яндексOptimism.ru   основы регионального продвижения в яндекс
Optimism.ru основы регионального продвижения в яндексAnna
 
Trinet региональное продвижение 2010 rookee
Trinet  региональное продвижение 2010 rookeeTrinet  региональное продвижение 2010 rookee
Trinet региональное продвижение 2010 rookeeAnna
 
от Rookee
от Rookeeот Rookee
от RookeeAnna
 
Suvorov seoquaketeam
Suvorov   seoquaketeamSuvorov   seoquaketeam
Suvorov seoquaketeamAnna
 
Kuzmin rookee
Kuzmin  rookeeKuzmin  rookee
Kuzmin rookeeAnna
 
Khalilov green pr
Khalilov  green prKhalilov  green pr
Khalilov green prAnna
 
Golopolosov rotapost
Golopolosov   rotapostGolopolosov   rotapost
Golopolosov rotapostAnna
 

More from Anna (20)

презентация Rookee
презентация Rookeeпрезентация Rookee
презентация Rookee
 
презентация Rookee
презентация Rookeeпрезентация Rookee
презентация Rookee
 
презентация Rookee 2
презентация Rookee 2презентация Rookee 2
презентация Rookee 2
 
вводная презентация
вводная презентациявводная презентация
вводная презентация
 
вводная презентация
вводная презентациявводная презентация
вводная презентация
 
презентация гроховский
презентация гроховскийпрезентация гроховский
презентация гроховский
 
презентация яресько
презентация яреськопрезентация яресько
презентация яресько
 
эффективность продвижения в Google в сравнении с яндексом яресько
эффективность продвижения в Google в сравнении с яндексом яреськоэффективность продвижения в Google в сравнении с яндексом яресько
эффективность продвижения в Google в сравнении с яндексом яресько
 
презентация позойский
презентация позойскийпрезентация позойский
презентация позойский
 
люстик
люстиклюстик
люстик
 
яресько продажа позиций продажа трафика-продажа действий
яресько продажа позиций продажа трафика-продажа действийяресько продажа позиций продажа трафика-продажа действий
яресько продажа позиций продажа трафика-продажа действий
 
халилов маркетинг в социальных сетях
халилов маркетинг в социальных сетяххалилов маркетинг в социальных сетях
халилов маркетинг в социальных сетях
 
Mueller presentation at proofseo
Mueller presentation at proofseoMueller presentation at proofseo
Mueller presentation at proofseo
 
Optimism.ru основы регионального продвижения в яндекс
Optimism.ru   основы регионального продвижения в яндексOptimism.ru   основы регионального продвижения в яндекс
Optimism.ru основы регионального продвижения в яндекс
 
Trinet региональное продвижение 2010 rookee
Trinet  региональное продвижение 2010 rookeeTrinet  региональное продвижение 2010 rookee
Trinet региональное продвижение 2010 rookee
 
от Rookee
от Rookeeот Rookee
от Rookee
 
Suvorov seoquaketeam
Suvorov   seoquaketeamSuvorov   seoquaketeam
Suvorov seoquaketeam
 
Kuzmin rookee
Kuzmin  rookeeKuzmin  rookee
Kuzmin rookee
 
Khalilov green pr
Khalilov  green prKhalilov  green pr
Khalilov green pr
 
Golopolosov rotapost
Golopolosov   rotapostGolopolosov   rotapost
Golopolosov rotapost
 

Zyabrev -

  • 1. Оптимизация сайтов под MatrixNet на основе метрического анализа Зябрев Илья Николаевич генеральный директор, AlterTrader Research Ltd.
  • 2.
  • 3. Функции, заданные деревьями решений Начинаем из корня дерева, условие x<4 выполняется? Да. Следовательно, спускаемся по левой ветке. Условие x<2 выполняется? Да. Опять спускаемся по левой ветке. Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1)=1.
  • 4. Особенности функций заданных деревьями решений Кусочная постоянность. Т.е. на некоторых интервалах при изменении х, значение самой функции не меняется. Например, при 2<=х<4 (т.е. при х от 2 до 3,999999999....) f(x)=2 При переходе х через условие ветвления, функция меняется скачком. Например, f(3,9999999)=2, f(4)=3.
  • 5. Функция от двух аргументов, заданная деревом решений Вычислим значение функции для х1=1 х2=1. Начинаем из корня дерева, условие x1<3 выполняется? Да. Следовательно, спускаемся по левой ветке. Условие x2<2 выполняется? Да. Опять спускаемся по левой ветке. Текущий узел конечный, и значение функции в нем равно 1, следовательно f(1,1)=1.
  • 6. Пример функции hk(q,d) f1(q,d) – количество вхождений лемм слов запроса в тег body f2(q,d) – плотность лемм запроса в теге body f3(q,d)- количество вхождений лемм запроса в заголовок документа
  • 7. Таблица 1. Значение функции h(q,d)
  • 8. Особенности функций заданных деревомрешений Документы со значительно отличающимися значениями свойств могут иметь одинаковые значения функции hk(q,d), а документы с малыми отличиями в свойствах –очень сильно отличающиеся значения. Непрямая зависимость функций от свойств документа, которая делает поведение функций hk и в конечном итоге функции релевантности в зависимости от fi(q,d) слабоподдающимся внешнему анализу.
  • 9. Особенности построения деревьев на основе MatrixNet Реальные деревья решений, полученные при помощиалгоритма MatrixNet, обладают следующими свойствами: Глубина (т.е. число горизонтальных уровней или число ветвлений) дерева – число ограниченное. По некоторым данным это ограничение равно 10, т.е. на нижнем (10-м) уровне имеется 2**10 узлов, соответствующих значениям фунции h(q,d). На каждом уровне ветвление происходит только по одному и тому же условию (собственно именно только такие примеры мы и рассматривали). Т.е. всего в каждой функции может использоваться не более 10 свойств документа.
  • 10. Корреляционный анализ ранжирующих алгоритмов до запуска Снежинска 1. Делается подборка запросов, максимально исключающая влияние ссылочного фактора. 2. Для различных числовых метрик (свойств) документа строятся ранговые коэффициенты парной корреляции 3. Находятся свойства, сильно коррелирующие с рангами сайтов. 4. На их основе строится методика оптимизации структуры документа, позволяющая улучшить позиции продвигаемого сайта исключительно за счет изменения его текстового содержания.
  • 11. Таблица 2. Коэффициенты корреляции для различных свойств до запуска Снежинска
  • 12. MatrixNet и корреляционный анализ С приходом МатриксНета ситуация изменилась: числовые характеристики, выделенные при помощи простого корреляционного анализа стали работать существенно хуже. Это связано с тем, что корреляционный анализ направлен преимущественно на выявление линейных связей, а функции заданные деревьями решений нелинейные. Ни одна из простых метрик не дает хорошего коэффициента корреляции.
  • 13. Таблица 3. Коэффициенты корреляции для различных свойств после запуска Снежинска
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. Наиболее значимые метрики документов P(L,d) – позиция леммы L в документе d LMD(p, L, d) – расстояние от позиции p до ближайшей слева леммы L в документе d. RMD(p, L, d) – расстояние от позиции p до ближайшей справа леммы L в документе d.
  • 19. Наиболее значимые метрики документов Pr – предложение документа d |Pr| - длина предложения Pr ICLF(L,v) – обратная условная частота леммы CLF(L,v) – число документов коллекции, в которое лемма L входит v раз.
  • 20. Наиболее значимые метрики документов %CLF – число документов коллекции, в которых лемма L имеет плотность v Метрики применяются к различным областям документа, размеченных тегами: title, body, h1-h6, a и т.д., а также к информационной областитекста.
  • 21. Характеристика полученной модели Полученная модель не будет иметь ничего общего с той, которая используется Яндексом. При этом модель может оказаться вполне адекватной относительно решаемой задачи. Мы оценили построенную модель при помощи парного корреляционного анализа, где в качестве единственного фактора, влияющего на ранжирование, выступала наша функция релевантности.
  • 22. Таблица 4. Результаты корреляционного анализа построенной модели
  • 23.
  • 24.