SlideShare a Scribd company logo
1 of 23
СтуДень, Новосибирск, 24 сентября 2010 г.
Ранжирование:
от строчки кода до Матрикснета
Илья Сегалович, Федор Романенко
Технологии и разработка
Ранжирование – что это?
— Основной алгоритм в поиске.
— С помощью факторов вычисляет релевантность
документа в виде числа.
— ыбирает топ-10.
— сложная вещь с простым результатом
— определяет долю на рынке
— самый большой секрет поисковых компаний
Ранжирование – что это?
— Основной алгоритм в поиске.
— С помощью факторов вычисляет релевантность
документа в виде числа.
— Выбирает топ-10.
— Сложная вещь с простым результатом.
— Определяет долю на рынке.
— Самый большой секрет поисковых компаний.
Бинарное ранжирование: 0 или 1?
• формируем правило отбора релевантных документов,
используя «язык запросов»
• просматриваем все найденные документы
— подходит только для специалистов
— нельзя использовать, когда найдено много
Язык запросов
(Yahoo – 1994 *)
* здесь и далее: первый пример удачного применения в интернет поиске
«Близость» текста запроса к тексту документа учитывает:
• количество слов запроса в документе (term freq.)
• обратную частоту слова в языке (inverted document freq.)
• длину документа и запроса
Текстовая релевантность также учитывает:
• слова в заголовках
• близость слов запроса
• совпадение словоформ
Текстовое ранжирование: tf * idf
(Altavista – 1995)
• морфология: ребенок шёл = дети идут
• опечатки: аднакласники = одноклассники
• расширения: МГУ = Московский Государственный
Университет
Два пути компьютерной лингвистики:
― словарный: морфология, синтаксис
― статистический: языковые модели
Лингвистика – понимание языка
(Яндекс – 1997)
Использование внешней информации о странице:
• ссылки с тематических сайтов
• переходы из каталогов
• посещаемость по счетчикам
— тИЦ Яндекса оброс мифами вебмастеров
Рейтинги сайтов
(Рамблер Тор100 – 1997, Яндекс тИЦ – 1999)
PageRank – глобальная ссылочная авторитетность:
• на страницу много ссылок
• на страницу есть ссылки с авторитетных страниц
Модель случайного «блуждателя»:
1. выбираем случайную страницу
2. с вероятностью 0.85 переходим по выходящей ссылке
3. с вероятностью 0.15 устаем и переходим к п.1
PageRank
(Google – 1998)
Текст ссылки описывает страницу, на которую ссылается
• голосование весами релевантных ссылок
• уточнение тематики страницы с помощью сопоставления
текстов ссылок
Ссылочное ранжирование
(Google – 1998)
Релевантность выше у тех страниц, на которые чаще
переходят пользователи.
Ссылочное ранжирование
(DirectHit)
Как измерить удовлетворение пользователей поиском?
• Из потока запросов пользователей строим
репрезентативную выборку.
• Асессоры (люди) оценивают отдельные результаты
поиска.
• Оценки используются в числовой метрике качества
ранжирования.
Яндекс: оценено 4 млн. документов по 100 тыс. запросов
Метрика качества поиска
Probability of User Satisfaction
pFound  (1  pBreak)r 1
pRelr (1  pReli )
i1
r 1
r 1
n

Optimization goal at Yandex since 2007
> pFound – Probability of an answer to be FOUND
> pBreak – Probability of abandonment at each position
(BREAK)
> pRel – Probability of user satisfaction at a given position
(RELevance)
Метрика качества поиска
Как учесть в ранжировании 400 параметров документов?
• Модель (формула на факторах) умеет считать
релевантность документа.
• Машинное обучение автоматически настраивает
модель, максимизируя метрику качества на примерах.
• Машина учится ранжировать и показывает поведение,
не заложенное в нее явно.
Машинное обучение
(Яндекс, Yahoo, Bing: 2006-2008)
Метрика – научить именно тому, что понадобится в бою
нужно математически измерить «счастье» пользователей.
Входные данные – органы чувств
позволяют отличить документы по качеству.
Способность к обобщению – аналитические способности
учимся на примерах, ранжируем то, что никогда не видели.
Переобучение – паранойя
мало оценок и умная модель – ложные закономерности.
Кроссвалидация – не дадим выучить контрольную
нужна не память, а умение.
Проблемы машинного обучения
Разработка Яндекса (релиз «Снежинск», ноябрь 2009)
• автоматически выбирает связанные факторы и диапазоны
их значений;
• генерирует тысячи комбинированных факторов;
• очень сложная модель без склонности к переобучению.
— извлекает неиспользованный сигнал из старых данных
— позволяет добавлять много данных в ранжирование
Матрикснет
(Яндекс – 2009)
• 20 тыс. строк на C++
• объем 3МБ
• 10 тыс. коэффициентов
...
-4025627,483990,-36437960,39979596,
-92842056,-50086892,-100233272,243162224,
-22282850,57163664,-24991620,-9889194,
...
vars[5699] = fFactorInt[376] > 1060970280 ? 1 : 0; // 0.738757
vars[5700] = fFactorInt[376] > 1061923687 ? 1 : 0; // 0.795584
vars[5701] = fFactorInt[376] > 1049721454 ? 1 : 0; // 0.284137
vars[5702] = fFactorInt[376] > 948291011 ? 1 : 0; // 6.37877e-05
...
,{376, .0f}
,{376, 0.6251018047f}
,{-1, .0}
,{376, 0.05682743713f}
,{376, 0.4546194971f}
...
Формула Матрикснет
Одна из формул
(вычисляет релевантность по факторам найденного документа)
MatrixNet
0.01
10.00
10000.00
2007 20092006 20102008
0.02 kb
1 kb
14 kb
220 kb
120 000 kb
MLR: сложность формулы ранжирования
№1 MatrixNet at Yahoo Challenge: #1, 3, 10
(Track 2), also BagBoo, AG
Yandex MLR на соревнованиях по IR
У поиска много «качеств»!
Независимые метрики
http://www.analyzethis.ru
Liveinternet: доля рынка, Россия
Русский Google
Инвестиции в поиск Матрикснет
Поиск не меняется
Замена Яндекса
на GoGo
— Поиск нельзя «доделать»: тот, кто думает, что все
сделал, проигрывает.
— Размер интернета и количество пользователей растут,
люди решают в интернете новые задачи.
— Много направлений: локальность, глобальность,
свежесть, разнообразие, скорость, представление, …
— Сильные математики и программисты имеют дело с
уникальными задачами на огромных объемах данных.
— Результаты их работы сразу видят миллионы людей.
Поиск — вечная задача
?
Илья Сегалович, Федор Романенко

More Related Content

What's hot

Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийСанкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийДмитрий Севальнев
 
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайтаSEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайтаДмитрий Севальнев
 
Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...
Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...
Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...Дмитрий Севальнев
 
Продвижение сайтов в 2016: нюансы и нововведения
Продвижение сайтов в 2016: нюансы и нововведенияПродвижение сайтов в 2016: нюансы и нововведения
Продвижение сайтов в 2016: нюансы и нововведенияSergey Yurkov
 
Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Стас Поломарь
 
Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...
Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...
Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...Александр Арсёнкин
 
ТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 годаТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 годаДмитрий Севальнев
 
Веб-аналитика и юзабилити на службе SEO
Веб-аналитика и юзабилити на службе SEOВеб-аналитика и юзабилити на службе SEO
Веб-аналитика и юзабилити на службе SEOДмитрий Севальнев
 
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаАналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаДмитрий Севальнев
 
SEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылкиSEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылкиДмитрий Севальнев
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингSergey Yurkov
 
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.SEO Conference 2014
 
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]Дмитрий Севальнев
 
Аналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 году
Аналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 годуАналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 году
Аналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 годуДмитрий Севальнев
 
SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...
SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...
SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...SEO-Интеллект
 
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и google
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и googleSeo практикум 3.0 - продвижение коммерческого портала в яндексе и google
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и googleSergey Yurkov
 
Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Дмитрий Севальнев
 
Минусинск — вчера, сегодня, завтра
Минусинск — вчера, сегодня, завтраМинусинск — вчера, сегодня, завтра
Минусинск — вчера, сегодня, завтраДмитрий Севальнев
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]Дмитрий Севальнев
 

What's hot (20)

Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийСанкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
 
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайтаSEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
 
Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...
Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...
Конференция SEO 2014 [Севальнев]: Аналитика по санкциям в Яндексе: АГС-40 и т...
 
Продвижение сайтов в 2016: нюансы и нововведения
Продвижение сайтов в 2016: нюансы и нововведенияПродвижение сайтов в 2016: нюансы и нововведения
Продвижение сайтов в 2016: нюансы и нововведения
 
Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)
 
Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...
Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...
Неочевидные причины низких позиций - Арсёнкин Александр - Пиксель Плюс - Семи...
 
ТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 годаТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 года
 
Веб-аналитика и юзабилити на службе SEO
Веб-аналитика и юзабилити на службе SEOВеб-аналитика и юзабилити на службе SEO
Веб-аналитика и юзабилити на службе SEO
 
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаАналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
 
SEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылкиSEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылки
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтинг
 
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
 
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
 
Аналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 году
Аналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 годуАналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 году
Аналитика SEO: выпуск 5. Коммерческое ранжирование в Яндексе в 2014 году
 
SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...
SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...
SEO conference, день 1, секция 1: отключение ссылок, ссылки не работают, иссл...
 
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и google
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и googleSeo практикум 3.0 - продвижение коммерческого портала в яндексе и google
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и google
 
Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?
 
Минусинск — вчера, сегодня, завтра
Минусинск — вчера, сегодня, завтраМинусинск — вчера, сегодня, завтра
Минусинск — вчера, сегодня, завтра
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
 

Similar to Ранжирование: от строчки кода до Матрикснета

Факторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринФакторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринNikolay Khivrin
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
 
Как работают поисковые системы
Как работают поисковые системыКак работают поисковые системы
Как работают поисковые системыNetpeak
 
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаSEO-Интеллект
 
20131112федорроманенко
20131112федорроманенко20131112федорроманенко
20131112федорроманенкоYandex
 
РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...
РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...
РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...Тарасов Константин
 
Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)Стас Поломарь
 
Аналитика и ее автоматизация при поисковом продвижении трафиковых проектов
Аналитика и ее автоматизация при поисковом продвижении трафиковых проектовАналитика и ее автоматизация при поисковом продвижении трафиковых проектов
Аналитика и ее автоматизация при поисковом продвижении трафиковых проектовWebit
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенкоYandex
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтовPlaytini
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтовЕвгений Летов
 
DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)
DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)
DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)it-people
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Rostislav Shorgin
 
Николай Хиврин влияние переходов по ссылкам на поисковое ранжирование
Николай Хиврин влияние переходов по ссылкам на поисковое ранжированиеНиколай Хиврин влияние переходов по ссылкам на поисковое ранжирование
Николай Хиврин влияние переходов по ссылкам на поисковое ранжированиеSEO Conference 2014
 
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринВлияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринNikolay Khivrin
 
Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"
Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"
Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"web2win
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серыйVladislav Morgun
 

Similar to Ранжирование: от строчки кода до Матрикснета (20)

Факторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринФакторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай Хиврин
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
Как работают поисковые системы
Как работают поисковые системыКак работают поисковые системы
Как работают поисковые системы
 
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
 
20131112федорроманенко
20131112федорроманенко20131112федорроманенко
20131112федорроманенко
 
1 часть
1 часть1 часть
1 часть
 
РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...
РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...
РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...
 
Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)
 
Аналитика и ее автоматизация при поисковом продвижении трафиковых проектов
Аналитика и ее автоматизация при поисковом продвижении трафиковых проектовАналитика и ее автоматизация при поисковом продвижении трафиковых проектов
Аналитика и ее автоматизация при поисковом продвижении трафиковых проектов
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Базовый курс по SEO
Базовый курс по SEOБазовый курс по SEO
Базовый курс по SEO
 
DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)
DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)
DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
 
Николай Хиврин влияние переходов по ссылкам на поисковое ранжирование
Николай Хиврин влияние переходов по ссылкам на поисковое ранжированиеНиколай Хиврин влияние переходов по ссылкам на поисковое ранжирование
Николай Хиврин влияние переходов по ссылкам на поисковое ранжирование
 
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринВлияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
 
Базовый курс SEO
Базовый курс SEOБазовый курс SEO
Базовый курс SEO
 
Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"
Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"
Юрий Софин, Sape: "Контекст и SEO. Повышаем эффективность совместной работы"
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
 

More from yaevents

Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...yaevents
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндексyaevents
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...yaevents
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексyaevents
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...yaevents
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...yaevents
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...yaevents
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндексyaevents
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндексyaevents
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmannyaevents
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...yaevents
 
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...yaevents
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндексyaevents
 
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, FacebookМасштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebookyaevents
 
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...yaevents
 
Юнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, GoogleЮнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, Googleyaevents
 
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...yaevents
 
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...yaevents
 
В поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, НигмаВ поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, Нигмаyaevents
 
Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...yaevents
 

More from yaevents (20)

Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндекс
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндекс
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmann
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
 
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
 
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, FacebookМасштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
 
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
 
Юнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, GoogleЮнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, Google
 
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
 
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
 
В поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, НигмаВ поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, Нигма
 
Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...
 

Ранжирование: от строчки кода до Матрикснета

  • 1. СтуДень, Новосибирск, 24 сентября 2010 г. Ранжирование: от строчки кода до Матрикснета Илья Сегалович, Федор Романенко Технологии и разработка
  • 2. Ранжирование – что это? — Основной алгоритм в поиске. — С помощью факторов вычисляет релевантность документа в виде числа. — ыбирает топ-10. — сложная вещь с простым результатом — определяет долю на рынке — самый большой секрет поисковых компаний
  • 3. Ранжирование – что это? — Основной алгоритм в поиске. — С помощью факторов вычисляет релевантность документа в виде числа. — Выбирает топ-10. — Сложная вещь с простым результатом. — Определяет долю на рынке. — Самый большой секрет поисковых компаний.
  • 4. Бинарное ранжирование: 0 или 1? • формируем правило отбора релевантных документов, используя «язык запросов» • просматриваем все найденные документы — подходит только для специалистов — нельзя использовать, когда найдено много Язык запросов (Yahoo – 1994 *) * здесь и далее: первый пример удачного применения в интернет поиске
  • 5. «Близость» текста запроса к тексту документа учитывает: • количество слов запроса в документе (term freq.) • обратную частоту слова в языке (inverted document freq.) • длину документа и запроса Текстовая релевантность также учитывает: • слова в заголовках • близость слов запроса • совпадение словоформ Текстовое ранжирование: tf * idf (Altavista – 1995)
  • 6. • морфология: ребенок шёл = дети идут • опечатки: аднакласники = одноклассники • расширения: МГУ = Московский Государственный Университет Два пути компьютерной лингвистики: ― словарный: морфология, синтаксис ― статистический: языковые модели Лингвистика – понимание языка (Яндекс – 1997)
  • 7. Использование внешней информации о странице: • ссылки с тематических сайтов • переходы из каталогов • посещаемость по счетчикам — тИЦ Яндекса оброс мифами вебмастеров Рейтинги сайтов (Рамблер Тор100 – 1997, Яндекс тИЦ – 1999)
  • 8. PageRank – глобальная ссылочная авторитетность: • на страницу много ссылок • на страницу есть ссылки с авторитетных страниц Модель случайного «блуждателя»: 1. выбираем случайную страницу 2. с вероятностью 0.85 переходим по выходящей ссылке 3. с вероятностью 0.15 устаем и переходим к п.1 PageRank (Google – 1998)
  • 9. Текст ссылки описывает страницу, на которую ссылается • голосование весами релевантных ссылок • уточнение тематики страницы с помощью сопоставления текстов ссылок Ссылочное ранжирование (Google – 1998)
  • 10. Релевантность выше у тех страниц, на которые чаще переходят пользователи. Ссылочное ранжирование (DirectHit)
  • 11. Как измерить удовлетворение пользователей поиском? • Из потока запросов пользователей строим репрезентативную выборку. • Асессоры (люди) оценивают отдельные результаты поиска. • Оценки используются в числовой метрике качества ранжирования. Яндекс: оценено 4 млн. документов по 100 тыс. запросов Метрика качества поиска
  • 12. Probability of User Satisfaction pFound  (1  pBreak)r 1 pRelr (1  pReli ) i1 r 1 r 1 n  Optimization goal at Yandex since 2007 > pFound – Probability of an answer to be FOUND > pBreak – Probability of abandonment at each position (BREAK) > pRel – Probability of user satisfaction at a given position (RELevance)
  • 14. Как учесть в ранжировании 400 параметров документов? • Модель (формула на факторах) умеет считать релевантность документа. • Машинное обучение автоматически настраивает модель, максимизируя метрику качества на примерах. • Машина учится ранжировать и показывает поведение, не заложенное в нее явно. Машинное обучение (Яндекс, Yahoo, Bing: 2006-2008)
  • 15. Метрика – научить именно тому, что понадобится в бою нужно математически измерить «счастье» пользователей. Входные данные – органы чувств позволяют отличить документы по качеству. Способность к обобщению – аналитические способности учимся на примерах, ранжируем то, что никогда не видели. Переобучение – паранойя мало оценок и умная модель – ложные закономерности. Кроссвалидация – не дадим выучить контрольную нужна не память, а умение. Проблемы машинного обучения
  • 16. Разработка Яндекса (релиз «Снежинск», ноябрь 2009) • автоматически выбирает связанные факторы и диапазоны их значений; • генерирует тысячи комбинированных факторов; • очень сложная модель без склонности к переобучению. — извлекает неиспользованный сигнал из старых данных — позволяет добавлять много данных в ранжирование Матрикснет (Яндекс – 2009)
  • 17. • 20 тыс. строк на C++ • объем 3МБ • 10 тыс. коэффициентов ... -4025627,483990,-36437960,39979596, -92842056,-50086892,-100233272,243162224, -22282850,57163664,-24991620,-9889194, ... vars[5699] = fFactorInt[376] > 1060970280 ? 1 : 0; // 0.738757 vars[5700] = fFactorInt[376] > 1061923687 ? 1 : 0; // 0.795584 vars[5701] = fFactorInt[376] > 1049721454 ? 1 : 0; // 0.284137 vars[5702] = fFactorInt[376] > 948291011 ? 1 : 0; // 6.37877e-05 ... ,{376, .0f} ,{376, 0.6251018047f} ,{-1, .0} ,{376, 0.05682743713f} ,{376, 0.4546194971f} ... Формула Матрикснет Одна из формул (вычисляет релевантность по факторам найденного документа)
  • 18. MatrixNet 0.01 10.00 10000.00 2007 20092006 20102008 0.02 kb 1 kb 14 kb 220 kb 120 000 kb MLR: сложность формулы ранжирования
  • 19. №1 MatrixNet at Yahoo Challenge: #1, 3, 10 (Track 2), also BagBoo, AG Yandex MLR на соревнованиях по IR
  • 20. У поиска много «качеств»! Независимые метрики http://www.analyzethis.ru
  • 21. Liveinternet: доля рынка, Россия Русский Google Инвестиции в поиск Матрикснет Поиск не меняется Замена Яндекса на GoGo
  • 22. — Поиск нельзя «доделать»: тот, кто думает, что все сделал, проигрывает. — Размер интернета и количество пользователей растут, люди решают в интернете новые задачи. — Много направлений: локальность, глобальность, свежесть, разнообразие, скорость, представление, … — Сильные математики и программисты имеют дело с уникальными задачами на огромных объемах данных. — Результаты их работы сразу видят миллионы людей. Поиск — вечная задача