SlideShare a Scribd company logo
1 of 32
Алгоритмы автоматизированного составления и 
группировки семантических ядер 
Николай Хиврин, CEO ALTWeb Group
Над чем работаем? 
1. Составление базы запросов 
2. Составление семантического ядра 
3. Группировка семантического ядра
Есть ли смысл в базе запросов 
без привязки к регионам?
Проблема регионов 
1. Страна 
2. Федеральный округ, штат и т.п. 
3. Область 
4. Город
Что важно знать о регионе 
1. В какие вышестоящие регионы входит 
2. Количество жителей и проникновение интернета 
3. Удаленность от других регионов 
4. Область на карте
Что нужно знать по каждому региону 
1. Популярность запроса в поисковых системах 
2. Наличие запроса в подсказках 
3. Доля геонезависимых результатов 
4. Доля коммерческих сайтов 
5. Доля спектральных результатов
Источники данных 
1. Статистика запросов поисковых систем 
2. Поисковые подсказки 
3. Результаты поиска 
4. Счетчики посещаемости на сайтах 
5. Данные из популярных плагинов для браузеров
Получение региональных результатов поиска 
Яндекс: таблица соответствия LR базе регионов 
Google: домен поисковой системы + IP из региона
Количество запросов 
1. Яндекс обрабатывает 200 млн запросов в сутки из 
которых 25-50% приходится на ботов 
2. Более 25% запросов являются уникальными 
(набираются менее 1 раза в месяц) 
Попадание в базу имеет смысл при статистике не 
менее 5 запросов в месяц 
Т.е. в измеряемую популярность может попасть 
не более 100 млн запросов в сутки
Количество запросов 
100 млн запросов * 30 дней = 3 млрд запросов в месяц 
Если бы запросы набирались равномерно по 5 раз в месяц, 
то их всего было бы 600 млн штук, но есть и популярные 
запросы 
Для России полная база запросов ~50 млн штук 
Англоязычные запросы ~110 млн штук
Случайные запросы (хвост) 
Для запросов без статистики можно делать вероятностные 
проверки, т.е. проводить тесты на нахождение сайта в 
поиске по случайному запросу
Составление семантического ядра 
1. Поиск запросов из видимости конкурентов 
2. Поиск запросов по маске 
3. Статистика поисковых переходов конкурентов (закрытые 
данные)
Поиск запросов по всем конкурентам
Размеры семантических ядер 
1. Крупнейшие E-Commerce проекты с широким спектром 
товаров ~1 млн запросов 
2. Крупный портал, большой E-Commerce 50-500к запросов 
3. Портал, многопрофильный бизнес 10-50к запросов 
4. Сайт в конкурентной нише 1-10к запросов 
5. Ниша с низкой конкуренцией 100-1000 запросов
Подходы к кластеризации 
1. Руками, по логической структуре сайта и морфологии 
2. Автоматически
Автоматическая кластеризация 
1. Поиск общих сайтов и страниц по запросам в результатах 
поиска 
2. Морфологический анализ запросов с учетом IDF (inverse 
document frequency) на большой коллекции документов 
купить sony vaio svl2413z1r 
sony vaio svl2413z1r 
купить sony vaio pro 13
Вычислительные сложности 
Матрица совместимости пар запросов на 1000000^2 значений 
1 2 3 4 … 1000000 
1 + - + + 
2 - 
3 
4 
… 
1000000
Транзитивность 
Если запрос A подходит B, а запрос B подходит запросу C 
То подходит ли запрос A к запросу C?
Алгоритм пошаговой кластеризации 
1. Последовательно смягчаем критерии кластеризации 
1. Последовательно выбираем запросы из семантики 
1. Относим запрос к уже существующему кластеру 
(запрос совместим со всеми или частью слов из 
кластера) 
2. Порождаем новый кластер
Есть ли смысл в кластеризации без 
последующего мониторинга?
Задачи мониторинга 
1. Поиск новых запросов и их кластеризация 
2. Многоуровневая кластеризация или фильтрация (пример: 
все запросы со словом “купить” или все запросы, по которым 
пусть страницы начинается с “/for_home/”) 
3. Изменение средневзвешенных значений по кластеру: 
позиция, трафик, конверсия
Оценка объема данных 
Запросов – 50 000 000 
Регионов – 30 
Глубина анализа – 100 позиций 
Поисковых систем – 2 
Частота обновления – 4 суток 
=== 
27 375 млрд элементов в год
Хранение позиций 
~30 байт на элемент с учетом индексации 
=== 
821 Tб в год 
Но самое сложное – хранение путей релевантных страниц (!)
Есть ли смысл в кластеризации без 
автоматизации продвижения?
Есть ли смысл в кластеризации без 
интеграции с аналитикой?
Вопросы 
Николай Хиврин 
CEO ALTWeb Group 
http://www.megaindex.org/khivrin 
http://facebook.com/khivrin

More Related Content

What's hot

Поисковая система
Поисковая системаПоисковая система
Поисковая системаlizazam
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширенийСергей Пономарев
 
Привлечение НЧ трафика
Привлечение НЧ трафикаПривлечение НЧ трафика
Привлечение НЧ трафикаPaul K
 
Низкочастотный трафик. Продвижение в Google
Низкочастотный трафик. Продвижение в GoogleНизкочастотный трафик. Продвижение в Google
Низкочастотный трафик. Продвижение в GoogleMegaIndexTV
 
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Дмитрий Севальнев
 
Новое SEO. Изменения в ранжировании Яндекса 2014. Конференция в Казани
Новое SEO. Изменения в ранжировании Яндекса 2014. Конференция в КазаниНовое SEO. Изменения в ранжировании Яндекса 2014. Конференция в Казани
Новое SEO. Изменения в ранжировании Яндекса 2014. Конференция в КазаниДмитрий Севальнев
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Текстовый анализ - теория и практика
Текстовый анализ - теория и практикаТекстовый анализ - теория и практика
Текстовый анализ - теория и практикаAlexey Chekushin
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
 
Методика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в ЯндексеМетодика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в ЯндексеSerge Ludkiewicz
 
100 миллионов страниц в индекс Google
100 миллионов страниц в индекс Google100 миллионов страниц в индекс Google
100 миллионов страниц в индекс GoogleAndrey Kapeltsov
 
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаАналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаДмитрий Севальнев
 
информационный поиск в интернет
информационный поиск в интернет информационный поиск в интернет
информационный поиск в интернет Savua
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингSergey Yurkov
 

What's hot (18)

Поисковая система
Поисковая системаПоисковая система
Поисковая система
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
Привлечение НЧ трафика
Привлечение НЧ трафикаПривлечение НЧ трафика
Привлечение НЧ трафика
 
Низкочастотный трафик. Продвижение в Google
Низкочастотный трафик. Продвижение в GoogleНизкочастотный трафик. Продвижение в Google
Низкочастотный трафик. Продвижение в Google
 
дмитрий еремеев
дмитрий еремеевдмитрий еремеев
дмитрий еремеев
 
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
 
Новое SEO. Изменения в ранжировании Яндекса 2014. Конференция в Казани
Новое SEO. Изменения в ранжировании Яндекса 2014. Конференция в КазаниНовое SEO. Изменения в ранжировании Яндекса 2014. Конференция в Казани
Новое SEO. Изменения в ранжировании Яндекса 2014. Конференция в Казани
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Текстовый анализ - теория и практика
Текстовый анализ - теория и практикаТекстовый анализ - теория и практика
Текстовый анализ - теория и практика
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
 
Методика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в ЯндексеМетодика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в Яндексе
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
100 миллионов страниц в индекс Google
100 миллионов страниц в индекс Google100 миллионов страниц в индекс Google
100 миллионов страниц в индекс Google
 
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаАналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
 
информационный поиск в интернет
информационный поиск в интернет информационный поиск в интернет
информационный поиск в интернет
 
Key Collector 2
Key Collector 2Key Collector 2
Key Collector 2
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтинг
 

Viewers also liked

Still image analysis 2 kesha
Still image analysis 2 keshaStill image analysis 2 kesha
Still image analysis 2 keshahelkin
 
Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)
Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)
Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)Smart Ammar
 
Nhóm 3: chính trị gia
Nhóm 3: chính trị giaNhóm 3: chính trị gia
Nhóm 3: chính trị gianhok_violet
 
Regulation of advertising in the uk
Regulation of advertising in the ukRegulation of advertising in the uk
Regulation of advertising in the ukJackalynWest2013
 
English cataloge
English catalogeEnglish cataloge
English catalogechan2580
 
SSR book review by: Cara LaBelle
SSR book review by: Cara LaBelleSSR book review by: Cara LaBelle
SSR book review by: Cara LaBellecarzard
 
English cat.
English cat.English cat.
English cat.chan2580
 
Conventions of music videos
Conventions of music videosConventions of music videos
Conventions of music videoshelkin
 
Новые технологии в поисковом ранжировании
Новые технологии в поисковом ранжированииНовые технологии в поисковом ранжировании
Новые технологии в поисковом ранжированииNikolay Khivrin
 
Cпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФCпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФNikolay Khivrin
 
Point and Click Horror Games
Point and Click Horror GamesPoint and Click Horror Games
Point and Click Horror Gameselizabethashley92
 
Composition teaching resource
Composition teaching resourceComposition teaching resource
Composition teaching resourceChloe_ann07
 
Shotlist (1)
Shotlist (1)Shotlist (1)
Shotlist (1)helkin
 
Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015Nikolay Khivrin
 
Quantitative media analysis homework
Quantitative media analysis homeworkQuantitative media analysis homework
Quantitative media analysis homeworkChloe_ann07
 
When availability matters the most
When availability matters the mostWhen availability matters the most
When availability matters the mostJosh Mazgelis
 

Viewers also liked (20)

Fundamental activity
Fundamental activityFundamental activity
Fundamental activity
 
Still image analysis 2 kesha
Still image analysis 2 keshaStill image analysis 2 kesha
Still image analysis 2 kesha
 
Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)
Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)
Abstract nature co_03_print_crystalgraphics.com_powerpoint_templates_trial (2)
 
Nhóm 3: chính trị gia
Nhóm 3: chính trị giaNhóm 3: chính trị gia
Nhóm 3: chính trị gia
 
Regulation of advertising in the uk
Regulation of advertising in the ukRegulation of advertising in the uk
Regulation of advertising in the uk
 
Thuyết trình
Thuyết trìnhThuyết trình
Thuyết trình
 
English cataloge
English catalogeEnglish cataloge
English cataloge
 
SSR book review by: Cara LaBelle
SSR book review by: Cara LaBelleSSR book review by: Cara LaBelle
SSR book review by: Cara LaBelle
 
English cat.
English cat.English cat.
English cat.
 
Conventions of music videos
Conventions of music videosConventions of music videos
Conventions of music videos
 
Task 31
Task 31Task 31
Task 31
 
Новые технологии в поисковом ранжировании
Новые технологии в поисковом ранжированииНовые технологии в поисковом ранжировании
Новые технологии в поисковом ранжировании
 
Cпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФCпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФ
 
Point and Click Horror Games
Point and Click Horror GamesPoint and Click Horror Games
Point and Click Horror Games
 
Composition teaching resource
Composition teaching resourceComposition teaching resource
Composition teaching resource
 
Convocation spring 2012
Convocation spring 2012Convocation spring 2012
Convocation spring 2012
 
Shotlist (1)
Shotlist (1)Shotlist (1)
Shotlist (1)
 
Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015
 
Quantitative media analysis homework
Quantitative media analysis homeworkQuantitative media analysis homework
Quantitative media analysis homework
 
When availability matters the most
When availability matters the mostWhen availability matters the most
When availability matters the most
 

Similar to Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.SEO Conference 2014
 
Семантика
Семантика Семантика
Семантика ptax
 
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийСанкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийДмитрий Севальнев
 
"Текстовая оптимизация as is" Михаил РАЙЦИН
"Текстовая оптимизация as is" Михаил РАЙЦИН"Текстовая оптимизация as is" Михаил РАЙЦИН
"Текстовая оптимизация as is" Михаил РАЙЦИНNika Stuard
 
Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»Agency for social information
 
Николай Хиврин - презентация с конференции NaZapad
Николай Хиврин - презентация с конференции NaZapadНиколай Хиврин - презентация с конференции NaZapad
Николай Хиврин - презентация с конференции NaZapadNaZapad
 
Анализ поисковой видимости (Неделя Байнета 17)
Анализ поисковой видимости (Неделя Байнета 17)Анализ поисковой видимости (Неделя Байнета 17)
Анализ поисковой видимости (Неделя Байнета 17)Стас Поломарь
 
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchoolСемантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchoolIBSchool Интернет-Бизнес школа
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросовСергей Пономарев
 
Поисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил ФедорининПоисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил ФедорининMyAcademy
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснетаyaevents
 
Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...
Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...
Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...Webcom Group
 
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSergey Yurkov
 
Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Дмитрий Севальнев
 
SEO-проектирование интернет-сайтов
SEO-проектирование интернет-сайтовSEO-проектирование интернет-сайтов
SEO-проектирование интернет-сайтовTaras Gushcha
 
SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1seo-intellect
 

Similar to Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин) (20)

-
--
-
 
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
 
Семантика
Семантика Семантика
Семантика
 
megaindex
megaindex megaindex
megaindex
 
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийСанкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
 
"Текстовая оптимизация as is" Михаил РАЙЦИН
"Текстовая оптимизация as is" Михаил РАЙЦИН"Текстовая оптимизация as is" Михаил РАЙЦИН
"Текстовая оптимизация as is" Михаил РАЙЦИН
 
1 часть
1 часть1 часть
1 часть
 
Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»
 
Николай Хиврин - презентация с конференции NaZapad
Николай Хиврин - презентация с конференции NaZapadНиколай Хиврин - презентация с конференции NaZapad
Николай Хиврин - презентация с конференции NaZapad
 
Анализ поисковой видимости (Неделя Байнета 17)
Анализ поисковой видимости (Неделя Байнета 17)Анализ поисковой видимости (Неделя Байнета 17)
Анализ поисковой видимости (Неделя Байнета 17)
 
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchoolСемантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросов
 
Поисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил ФедорининПоисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил Федоринин
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснета
 
Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...
Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...
Неделя Байнета 2017. Станислав Поломарь: "Анализ поисковой видимости проектов...
 
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пф
 
Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?
 
SEO-проектирование интернет-сайтов
SEO-проектирование интернет-сайтовSEO-проектирование интернет-сайтов
SEO-проектирование интернет-сайтов
 
Kak ustroena poiskovaya sistema
Kak ustroena poiskovaya sistemaKak ustroena poiskovaya sistema
Kak ustroena poiskovaya sistema
 
SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1
 

More from Nikolay Khivrin

Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Nikolay Khivrin
 
Скрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковкиСкрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковкиNikolay Khivrin
 
Технологии контроля за продвижением сайта
Технологии контроля за продвижением сайтаТехнологии контроля за продвижением сайта
Технологии контроля за продвижением сайтаNikolay Khivrin
 
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринВлияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринNikolay Khivrin
 
Факторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринФакторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринNikolay Khivrin
 
Автоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжированияАвтоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжированияNikolay Khivrin
 

More from Nikolay Khivrin (6)

Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
 
Скрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковкиСкрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковки
 
Технологии контроля за продвижением сайта
Технологии контроля за продвижением сайтаТехнологии контроля за продвижением сайта
Технологии контроля за продвижением сайта
 
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринВлияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
 
Факторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринФакторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай Хиврин
 
Автоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжированияАвтоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжирования
 

Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

  • 1. Алгоритмы автоматизированного составления и группировки семантических ядер Николай Хиврин, CEO ALTWeb Group
  • 2. Над чем работаем? 1. Составление базы запросов 2. Составление семантического ядра 3. Группировка семантического ядра
  • 3. Есть ли смысл в базе запросов без привязки к регионам?
  • 4. Проблема регионов 1. Страна 2. Федеральный округ, штат и т.п. 3. Область 4. Город
  • 5. Что важно знать о регионе 1. В какие вышестоящие регионы входит 2. Количество жителей и проникновение интернета 3. Удаленность от других регионов 4. Область на карте
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12. Что нужно знать по каждому региону 1. Популярность запроса в поисковых системах 2. Наличие запроса в подсказках 3. Доля геонезависимых результатов 4. Доля коммерческих сайтов 5. Доля спектральных результатов
  • 13. Источники данных 1. Статистика запросов поисковых систем 2. Поисковые подсказки 3. Результаты поиска 4. Счетчики посещаемости на сайтах 5. Данные из популярных плагинов для браузеров
  • 14. Получение региональных результатов поиска Яндекс: таблица соответствия LR базе регионов Google: домен поисковой системы + IP из региона
  • 15. Количество запросов 1. Яндекс обрабатывает 200 млн запросов в сутки из которых 25-50% приходится на ботов 2. Более 25% запросов являются уникальными (набираются менее 1 раза в месяц) Попадание в базу имеет смысл при статистике не менее 5 запросов в месяц Т.е. в измеряемую популярность может попасть не более 100 млн запросов в сутки
  • 16. Количество запросов 100 млн запросов * 30 дней = 3 млрд запросов в месяц Если бы запросы набирались равномерно по 5 раз в месяц, то их всего было бы 600 млн штук, но есть и популярные запросы Для России полная база запросов ~50 млн штук Англоязычные запросы ~110 млн штук
  • 17. Случайные запросы (хвост) Для запросов без статистики можно делать вероятностные проверки, т.е. проводить тесты на нахождение сайта в поиске по случайному запросу
  • 18. Составление семантического ядра 1. Поиск запросов из видимости конкурентов 2. Поиск запросов по маске 3. Статистика поисковых переходов конкурентов (закрытые данные)
  • 19. Поиск запросов по всем конкурентам
  • 20. Размеры семантических ядер 1. Крупнейшие E-Commerce проекты с широким спектром товаров ~1 млн запросов 2. Крупный портал, большой E-Commerce 50-500к запросов 3. Портал, многопрофильный бизнес 10-50к запросов 4. Сайт в конкурентной нише 1-10к запросов 5. Ниша с низкой конкуренцией 100-1000 запросов
  • 21. Подходы к кластеризации 1. Руками, по логической структуре сайта и морфологии 2. Автоматически
  • 22. Автоматическая кластеризация 1. Поиск общих сайтов и страниц по запросам в результатах поиска 2. Морфологический анализ запросов с учетом IDF (inverse document frequency) на большой коллекции документов купить sony vaio svl2413z1r sony vaio svl2413z1r купить sony vaio pro 13
  • 23. Вычислительные сложности Матрица совместимости пар запросов на 1000000^2 значений 1 2 3 4 … 1000000 1 + - + + 2 - 3 4 … 1000000
  • 24. Транзитивность Если запрос A подходит B, а запрос B подходит запросу C То подходит ли запрос A к запросу C?
  • 25. Алгоритм пошаговой кластеризации 1. Последовательно смягчаем критерии кластеризации 1. Последовательно выбираем запросы из семантики 1. Относим запрос к уже существующему кластеру (запрос совместим со всеми или частью слов из кластера) 2. Порождаем новый кластер
  • 26. Есть ли смысл в кластеризации без последующего мониторинга?
  • 27. Задачи мониторинга 1. Поиск новых запросов и их кластеризация 2. Многоуровневая кластеризация или фильтрация (пример: все запросы со словом “купить” или все запросы, по которым пусть страницы начинается с “/for_home/”) 3. Изменение средневзвешенных значений по кластеру: позиция, трафик, конверсия
  • 28. Оценка объема данных Запросов – 50 000 000 Регионов – 30 Глубина анализа – 100 позиций Поисковых систем – 2 Частота обновления – 4 суток === 27 375 млрд элементов в год
  • 29. Хранение позиций ~30 байт на элемент с учетом индексации === 821 Tб в год Но самое сложное – хранение путей релевантных страниц (!)
  • 30. Есть ли смысл в кластеризации без автоматизации продвижения?
  • 31. Есть ли смысл в кластеризации без интеграции с аналитикой?
  • 32. Вопросы Николай Хиврин CEO ALTWeb Group http://www.megaindex.org/khivrin http://facebook.com/khivrin