Нейросети в поиске
Алексей Чекушин
Just-magic.org
О	спикере
Алексей	Чекушин
Профессиональное	SEO
с	2010	года
Автоматизатор SEO
(just-magic.org)
Сверхспособность:	
рассказывать	сложно	о	
простом.
О	чём	сегодня
• Что	такое	нейросети и	почему	они	изменили	
текстовый	ранж.
• Действительно	ли	они	влияют?
• Подумаем,	как	можно	применить.
Как	поиск	определяет	тематику?
Нейросети в	2	слайда
F(A+B)
A
B Нейрон	Петя
Нейросети в	2	слайда
A
B
A
B
Входной	
слой
Скрытый	слой Выходной	слой
Уменьшение	размерности	
нейросетью
1
10
100
1000
10000
100000
1000000
10000000
Без	сжатия Со	сжатием
Размерность	векторного	пространства
Уменьшение	размерности	
нейросетью
0
200000
400000
600000
800000
1000000
1200000
Без	сжатия Со	сжатием
Размерность	векторного	пространства
Поймать	палеха!
И	как	его	ловить?
Мы	построим	свои	вектора!
Как	это	работает?
Запрос Тематический	вектор
оформить	онлайн
любых	покупок
получения	наличных
банковскую	услугу
пользуйтесь	кредитом
бесплатным	
обслуживанием
оплаты	услуг
условиями	оформления
ГенераторКредитные	карты
Тематические	вектора	на	основе	алгоритма	акварели
Метод	исследования
• Сбор	SERP	по	10	000	случайных	запросов.
• Выделение	тематических	векторов	запросов.
• Сбор	топ-50	по	этим	запросам.
• Выделение	полезного	контента	из	каждого	документа
• Оценка	полезного	контента	на	соответствие	тематическому	
вектору
Объем	исследования
• 5500	запросов	с	SERP
• Комм/инфо	в	выборке	20/80.
• Проанализировано	200	000	документов из	топов.
• Разобрано	более	100	000	текстов.
Что	дальше?
Медианная	оценка	0,57
Всего	слов	665
Сложности.
• Отсутствие	ответа	сайта/бан робота.
• Ошибки	определения	значимого	контента.
• Ошибки	построения	тематического	вектора.
• Проблема	сведения	информации	по	нескольким	
запросам.
Что	же	получилось?
0,48
0,49
0,5
0,51
0,52
0,53
0,54
0,55
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
AVG	med
Информационные	запросы
0,51
0,52
0,53
0,54
0,55
0,56
0,57
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
AVG	Med	not	Comm
Коммерческие	запросы
0,37
0,39
0,41
0,43
0,45
0,47
0,49
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
AVG	med	Сomm
И	в	итоге….?
• Зависимость	тематичности с	позицией	есть	и	
прослеживается	статистически.
• Зависимость	схожа	для	коммерческих	и	инфо-
запросов.
• За	пределами	топ-10	зависимости	практически	
нет.
Правда?
Correlation	does	not	imply	causation
Можно	ли	это	использовать?
• Оценивать	топ?
• Обучить	свою	нейросеть?
• Другой	алгоритм	определения	тематичности?
Оценка	топа
1)	Частотный	словарь	по	результатам	топ-10
+	N-граммы
2)	Взвешенный	частотный	словарь	по	результатам	
топ-10
+	взвешивание	N-граммы
Нужно	чистить	результат	руками
Своя	нейросеть
+	Множество	готовых	решений J
Word2Vec,	Glove,		AdaGram,	e.t.c.
- Нужен	большой	и	качественный	DataSet L
Другие	варианты?
• Забрать	идеи	слов	из	топа
• Расширить	тематично коллекцию
• Построить	тематический	вектор	на	основании	
семантических	отношений	и	расстояний
Так	работает	Акварель	J
Открытые	вопросы
• Можно	ли	всё-таки	найти	DataSet для	своей	
нейросети?
• Насколько	сильным	будет	влияние	в	поиске?
• Как	обстоят	дела	в	google?
У	меня	всё
Ваши	вопросы?
Алексей	Чекушин
a.chekushin@just-magic.org

Чекушин Алексей. Нейросети в поисковых системах