SlideShare a Scribd company logo
Текстовые факторы при
создании сеток сайтов
Владимир Лучанинов
16 марта 2018
Что хотим
1.Низкая стоимость контента
2.Качественный контент в глазах Google
Владимир Лучанинов, Playtini SEMPRO 2018
Как измерим «низкую стоимость»
1. Низкая стоимость контента
• Минимум символов
• Большое кол-во подходящих дешёвых копирайтеров
• Простая схема
Владимир Лучанинов, Playtini SEMPRO 2018
Стоимость:
$0 :)
А бывает бесплатный контент?
Владимир Лучанинов, Playtini SEMPRO 2018
Список от Google
support.google.com/webmasters/answer/2721306?hl=ru
Как измерим «качественный контент»
2. Качественный контент в глазах Google
• Релевантный
• Неспамный
• Уникальный
Владимир Лучанинов, Playtini SEMPRO 2018
SERP:
TOP1 по ВЧ :)
Уникальность
• скачать все тематические тексты и проверять по шинглам
• инструменты со своим индексом (скачали Интернет)
• поиск фраз в Google и сверка с TOP
Владимир Лучанинов, Playtini SEMPRO 2018
Инструменты:
• content-watch.ru
• copyscape.com
• advego.com/plagiatus/
• text.ru
Неспамность
• поиск по фразе
• если слабая страница – в кавычках
Владимир Лучанинов, Playtini SEMPRO 2018
Идеальная фраза:
• короткая
• содержит тематический СЧ-ВЧ
• в SERP – лидеры тематики
• Keyword Difficulty > 0
• больше 1,000 результатов
Релевантность
• попасть в TOP30 по СЧ
• знать формулу ранжирования Google
Владимир Лучанинов, Playtini SEMPRO 2018
Как узнать формулу ранжирования
• подсмотреть у конкурентов
• подумать
Владимир Лучанинов, Playtini SEMPRO 2018
Подсмотреть формулу в SERP
• keyword
• лучше несколько keywords с одинаковым intent
• убрать нетекстовые факторы
• результат: кластеры страниц со схожими DR и avg. rank
• посчитать нужные параметры
• keyword density в title, h1, тексте
• длина текста
• мерялки: «естественность», «водянистость», «читабельность»,
«Главред», другие «SuperScore»
Владимир Лучанинов, Playtini SEMPRO 2018
Закон Ципфа: «естественность»
• Pn = P1 / n
• как его понимают ру-сервисы
«Есть волшебное keyword density для TOP20 слов»
• нюансы
• Рецепт волшебства (P1)
• Стоп-слова
• Как перевести в одно число
Владимир Лучанинов, Playtini SEMPRO 2018
Сервис Естественность
1y.ru/text.php 99%
pr-cy.ru/zypfa/text 85%
seolik.ru/zipfa-text 52%
majento.ru/index.php?page=seo-analize/text-semantic/index 38%
miratext.ru/seo_analiz_text -
Метрики для «читаемости»
Владимир Лучанинов, Playtini SEMPRO 2018
Эволюция методов расчёта
Владимир Лучанинов, Playtini SEMPRO 2018
readable.io: “Stephen Hawking” wikipedia
Владимир Лучанинов, Playtini SEMPRO 2018
Flesch-Kincaid
Владимир Лучанинов, Playtini SEMPRO 2018
Фильтр по Reading Level
Владимир Лучанинов, Playtini SEMPRO 2018
В Google Docs тоже было и не стало
Владимир Лучанинов, Playtini SEMPRO 2018
Качество текста
• Главред - glvrd.ru
•TOP1 по «биография Пушкина»
9.1/10 – слова, 9.3/10 – синтаксис
• Grammarly.com
Владимир Лучанинов, Playtini SEMPRO 2018
Подумать
• почитать книжки
• подсмотреть/подслушать, что используется
Владимир Лучанинов, Playtini SEMPRO 2018
Патенты Google по “Retrieval from Internet”
patents.google.com/?q=G06F17%2f30864&assignee=Google+Inc.&sort=old
Владимир Лучанинов, Playtini SEMPRO 2018
TF-IDF
• по словам из query считаем score, суммируем
• если слова нет, то score = 0
• чем более редкое слово, тем лучше
• чем больше раз слово в документе, тем лучше
Владимир Лучанинов, Playtini SEMPRO 2018
TF-IDF на примере
Владимир Лучанинов, Playtini SEMPRO 2018
doc2
Пластиковые окна:
лучшие окна в Киеве.
Пластиковые,
деревянные, другие.
Лучшие не
деревянные
doc3:
Киев окна - лучшие деревянные.
Лучшие в Киеве, деревянные
окна. Деревянные, «киев»
лучшие окна. Киев и лучшие
деревянные окна. Лучшие
деревянные, окна киев.
doc4
Другие - лучшие деревянные
окна
doc1:
Пластиковые окна
query: пластиковые окна киев
TF-IDF на примере
• пластиковые окна киев
word 1 word 2 word 3
Владимир Лучанинов, Playtini SEMPRO 2018
DF
• DF – насколько частое слово в Интернете
intitle:”word N”
Владимир Лучанинов, Playtini SEMPRO 2018
IDF
• DF наоборот
обычно ещё добавляют логарифм
Владимир Лучанинов, Playtini SEMPRO 2018
TF-IDF
Владимир Лучанинов, Playtini SEMPRO 2018
doc1 = 1x2 + 1x1 + 0x2 = 3
doc2 = 2x2 + 2x1 + 1x2 = 8
doc3 = 0x2 + 5x1 + 5x2 = 15
doc4 = 0x2 + 1x1 + 0x2 = 1
Сублинейное масштабирование
Владимир Лучанинов, Playtini SEMPRO 2018
Сублинейное масштабирование TF
Владимир Лучанинов, Playtini SEMPRO 2018
doc1 = 1.0 x 2 + 1.0 x 1 + 0.0 x 2 = 3
doc2 = 1.3 x 2 + 1.3 x 1 + 1.9 x 2 = 5.9
doc3 = 0.0 x 2 + 1.7 x 1 + 1.7 x 2 = 5.1
doc4 = 0.0 x 2 + 1.0 x 1 + 0.9 x 2 = 1
Нормировка по длине документа
Владимир Лучанинов, Playtini SEMPRO 2018
doc1 = 0.50 x 2 + 0.50 x 1 + 0.00 x 2 = 1.5
doc2 = 0.20 x 2 + 0.20 x 1 + 0.10 x 2 = 0.8
doc3 = 0.00 x 2 + 0.25 x 1 + 0.25 x 2 = 0.75
doc4 = 0.00 x 2 + 0.25 x 1 + 0.00 x 2 = 0.25
Итого TF-IDF
Владимир Лучанинов, Playtini SEMPRO 2018
Чем больше раз
слово в документе,
тем лучше
Более употребимые
слова – менее
значимы
Чем длиннее
документ, тем
больше раз нужно
включить слово
LSI: дурилка TF-IDF
• обойти антиспам алгоритмы
• обойти ограничения логарифма
1+1+1+1+1 = 5, а не 1.7
Владимир Лучанинов, Playtini SEMPRO 2018
Ещё алгоритмы?
• vector space model (TF-IDF)
• probabilistic retrieval models
•classic --> BM25
•language modeling
•divergence-from-randomness
• probabilistic inference
• axiomatic thinking
Владимир Лучанинов, Playtini SEMPRO 2018
BM25
Владимир Лучанинов, Playtini SEMPRO 2018
BM25: Эксперты объясняют
Владимир Лучанинов, Playtini SEMPRO 2018
youtube.com/watch?v=dFlTICNvkgI
Собственно, вот формула, по ней
посчитаете BM25, тут всё очень просто,
каких-то тайн нету.
k1 = 2, b = 0.75
youtube.com/watch?v=8xya4V9rJO8
Нам важно здесь просто понять, что она
очень быстро насыщается
BM25
Владимир Лучанинов, Playtini SEMPRO 2018
BM25 vs TF-IDF: IDF
Владимир Лучанинов, Playtini SEMPRO 2018
BM25 vs TF-IDF: TF
Владимир Лучанинов, Playtini SEMPRO 2018
• ограничивает влияние tf
• можно подтюнить меняя k
BM25 vs TF-IDF: длина документа
Владимир Лучанинов, Playtini SEMPRO 2018
• тюним влияние длины
документа:
0 – не влияет
1 – очень влияет
BM25: всё вместе
Владимир Лучанинов, Playtini SEMPRO 2018
BM25: Britta Weber
Владимир Лучанинов, Playtini SEMPRO 2018
bit.ly/bm25-youtube
youtube.com/watch?v=v3Ko0CwgTZ0
Этого достаточно?
Владимир Лучанинов, Playtini SEMPRO 2018
youtu.be/CRZfc9lj7Po?t=7m14s
Grant Ingersoll - BM25 is so
Yesterday: Modern Techniques for
Better Search Relevance
That core cosine similarity, TF-IDF, BM25; the reality is that's good for
getting you somewhere between 50 and 70% of the way when it comes
to relevance depending on who you talk to.
I once sat next to the CTO of Yandex at a workshop and he told me in his
opinion at the time core BM25 only got you about 50% of the way in
terms of relevance at the stage like a large-scale web search engine.
У вас просто нет других данных :)
Владимир Лучанинов, Playtini SEMPRO 2018
Бонусы: Способы получения бесплатного контента от Google; Как подсмотреть формулу Google в Google SERP; LSI как дурилка алгоритмов релевантности
Владимир Лучанинов, Playtini SEMPRO 2018
Как померять тексты
- уникальность
- неспамность
- релевантность
Текстомерки
- естественность от Ципфа
- читаемость от Флеша и товарищей
- качество: glvrd, grammarly
Алгоритмы текстовой релевантности
- TF-IDF
- BM25
vl@playtini.ua
P.S. Ищем SEOшников
Playtini.ua
facebook.com/luchaninov
Владимир Лучанинов SEMPRO 2018

More Related Content

What's hot

Продвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий ШаховПродвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий Шахов
Дмитрий Шахов
 
Создание сетки сайтов нового поколения – нюансы, про которые никто не говорит
Создание сетки сайтов нового поколения – нюансы, про которые никто не говоритСоздание сетки сайтов нового поколения – нюансы, про которые никто не говорит
Создание сетки сайтов нового поколения – нюансы, про которые никто не говорит
NaZapad
 
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и сноваРутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
Дмитрий Шахов
 
Q/A по PBN и западное SEO
Q/A по PBN и западное SEOQ/A по PBN и западное SEO
Q/A по PBN и западное SEO
NaZapad
 
Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017
Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017
Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017
Дмитрий Шахов
 
Тэгирование сайтов
Тэгирование сайтовТэгирование сайтов
Тэгирование сайтов
Дмитрий Шахов
 
Кейс по продвижению софтового сайта под США от 0 до 8000 посетителей в сутки
Кейс по продвижению софтового сайта под США от 0 до 8000 посетителей в суткиКейс по продвижению софтового сайта под США от 0 до 8000 посетителей в сутки
Кейс по продвижению софтового сайта под США от 0 до 8000 посетителей в сутки
Академия интернет-маркетинга «WebPromoExperts»
 
Footprint Factory - Nazapad 4
Footprint Factory - Nazapad 4Footprint Factory - Nazapad 4
Footprint Factory - Nazapad 4
Andrey Kapeltsov
 
NaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 стран
NaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 странNaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 стран
NaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 стран
Vladislav Morgun
 
Линкбилдинг в сложных нишах
Линкбилдинг в сложных нишахЛинкбилдинг в сложных нишах
Линкбилдинг в сложных нишах
NaZapad
 
Продвижение порталов и информационных сайтов
Продвижение порталов и информационных сайтовПродвижение порталов и информационных сайтов
Продвижение порталов и информационных сайтов
Дмитрий Шахов
 
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегииТоп SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
NaZapad
 
Как запускаться в конкурентных нишах в 2021 году с ограниченным бюджетом
Как запускаться в конкурентных нишах в 2021 году с ограниченным бюджетомКак запускаться в конкурентных нишах в 2021 году с ограниченным бюджетом
Как запускаться в конкурентных нишах в 2021 году с ограниченным бюджетом
NaZapad
 
Презентация Антон Воронюк - конференция NaZapad
Презентация Антон Воронюк - конференция NaZapadПрезентация Антон Воронюк - конференция NaZapad
Презентация Антон Воронюк - конференция NaZapad
NaZapad
 
Как находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нишеКак находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нише
NaZapad
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
Vladislav Morgun
 
НОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор Карпенко
НОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор КарпенкоНОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор Карпенко
НОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор Карпенко
SeoProfy Presentations
 
Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017
Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017
Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017
SeoProfy Presentations
 
PBN в ОАЭ: советы, опыт, кейсы
PBN в ОАЭ: советы, опыт, кейсыPBN в ОАЭ: советы, опыт, кейсы
PBN в ОАЭ: советы, опыт, кейсы
NaZapad
 
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
Vladislav Morgun
 

What's hot (20)

Продвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий ШаховПродвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий Шахов
 
Создание сетки сайтов нового поколения – нюансы, про которые никто не говорит
Создание сетки сайтов нового поколения – нюансы, про которые никто не говоритСоздание сетки сайтов нового поколения – нюансы, про которые никто не говорит
Создание сетки сайтов нового поколения – нюансы, про которые никто не говорит
 
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и сноваРутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
 
Q/A по PBN и западное SEO
Q/A по PBN и западное SEOQ/A по PBN и западное SEO
Q/A по PBN и западное SEO
 
Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017
Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017
Кутас Иван. Практика оптимизации сайтов на незнакомых языках bdd2017
 
Тэгирование сайтов
Тэгирование сайтовТэгирование сайтов
Тэгирование сайтов
 
Кейс по продвижению софтового сайта под США от 0 до 8000 посетителей в сутки
Кейс по продвижению софтового сайта под США от 0 до 8000 посетителей в суткиКейс по продвижению софтового сайта под США от 0 до 8000 посетителей в сутки
Кейс по продвижению софтового сайта под США от 0 до 8000 посетителей в сутки
 
Footprint Factory - Nazapad 4
Footprint Factory - Nazapad 4Footprint Factory - Nazapad 4
Footprint Factory - Nazapad 4
 
NaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 стран
NaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 странNaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 стран
NaZapad 6 - Владислав Моргун - Семантическое ядро для 24 языков и 36 стран
 
Линкбилдинг в сложных нишах
Линкбилдинг в сложных нишахЛинкбилдинг в сложных нишах
Линкбилдинг в сложных нишах
 
Продвижение порталов и информационных сайтов
Продвижение порталов и информационных сайтовПродвижение порталов и информационных сайтов
Продвижение порталов и информационных сайтов
 
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегииТоп SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
 
Как запускаться в конкурентных нишах в 2021 году с ограниченным бюджетом
Как запускаться в конкурентных нишах в 2021 году с ограниченным бюджетомКак запускаться в конкурентных нишах в 2021 году с ограниченным бюджетом
Как запускаться в конкурентных нишах в 2021 году с ограниченным бюджетом
 
Презентация Антон Воронюк - конференция NaZapad
Презентация Антон Воронюк - конференция NaZapadПрезентация Антон Воронюк - конференция NaZapad
Презентация Антон Воронюк - конференция NaZapad
 
Как находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нишеКак находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нише
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
 
НОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор Карпенко
НОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор КарпенкоНОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор Карпенко
НОРМ ссылки 2018 - доклад на SEO Day 2018, Виктор Карпенко
 
Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017
Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017
Презентация Виктор Карпенко с WebPromoExperts SEO Day 18 августа 2017
 
PBN в ОАЭ: советы, опыт, кейсы
PBN в ОАЭ: советы, опыт, кейсыPBN в ОАЭ: советы, опыт, кейсы
PBN в ОАЭ: советы, опыт, кейсы
 
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
 

Similar to Текстовые факторы при создании сеток сайтов

Урок 21: BM25 - Леонид Гроховский
Урок 21: BM25 - Леонид ГроховскийУрок 21: BM25 - Леонид Гроховский
Урок 21: BM25 - Леонид Гроховский
Леонид Гроховский
 
Core Web Vitals - Ru Devparty, June 27, 2020
Core Web Vitals  - Ru Devparty, June 27, 2020Core Web Vitals  - Ru Devparty, June 27, 2020
Core Web Vitals - Ru Devparty, June 27, 2020
Andrey Lipattsev
 
SEO-2015: современные методики, инструменты и технологии
SEO-2015: современные методики, инструменты и технологииSEO-2015: современные методики, инструменты и технологии
SEO-2015: современные методики, инструменты и технологии
#tceh экосистема и коворкинг для стартапов.
 
Владимир Лучанинов "Необычные инструменты эффективных SEOшников"
Владимир Лучанинов "Необычные инструменты эффективных SEOшников"Владимир Лучанинов "Необычные инструменты эффективных SEOшников"
Владимир Лучанинов "Необычные инструменты эффективных SEOшников"
SEO.UA
 
Алексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRАлексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HR
IT-Доминанта
 
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOXSEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOXOWOX
 
SEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, короткоSEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, коротко
Netpeak
 
Роман Морозов: "Поведенческие факторы в продвижении"
Роман Морозов: "Поведенческие факторы в продвижении"Роман Морозов: "Поведенческие факторы в продвижении"
Роман Морозов: "Поведенческие факторы в продвижении"
web2win
 
Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...
Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...
Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...
web2win
 
ТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 годаТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 года
Дмитрий Севальнев
 
Владимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERPВладимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERP
Octopus Events
 
Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...
Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...
Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...eLama.ru
 
Линкбилдинг на поток
Линкбилдинг на потокЛинкбилдинг на поток
Линкбилдинг на поток
collaborator.pro
 
роман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблем
роман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблемроман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблем
роман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблемshoplistconf
 
Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет...
 Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет... Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет...
Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет...
web2win
 
новые технологии в SEO
новые технологии в SEOновые технологии в SEO
новые технологии в SEO
Леонид Гроховский
 
SEO без покупки ссылок
SEO без покупки ссылокSEO без покупки ссылок
SEO без покупки ссылок
Artem Polyanskiy
 

Similar to Текстовые факторы при создании сеток сайтов (20)

Урок 21: BM25 - Леонид Гроховский
Урок 21: BM25 - Леонид ГроховскийУрок 21: BM25 - Леонид Гроховский
Урок 21: BM25 - Леонид Гроховский
 
Core Web Vitals - Ru Devparty, June 27, 2020
Core Web Vitals  - Ru Devparty, June 27, 2020Core Web Vitals  - Ru Devparty, June 27, 2020
Core Web Vitals - Ru Devparty, June 27, 2020
 
SEO-2015: современные методики, инструменты и технологии
SEO-2015: современные методики, инструменты и технологииSEO-2015: современные методики, инструменты и технологии
SEO-2015: современные методики, инструменты и технологии
 
Владимир Лучанинов "Необычные инструменты эффективных SEOшников"
Владимир Лучанинов "Необычные инструменты эффективных SEOшников"Владимир Лучанинов "Необычные инструменты эффективных SEOшников"
Владимир Лучанинов "Необычные инструменты эффективных SEOшников"
 
Алексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRАлексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HR
 
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOXSEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
 
SEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, короткоSEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, коротко
 
Роман Морозов: "Поведенческие факторы в продвижении"
Роман Морозов: "Поведенческие факторы в продвижении"Роман Морозов: "Поведенческие факторы в продвижении"
Роман Морозов: "Поведенческие факторы в продвижении"
 
Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...
Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...
Михаил Петров, Between Digital: "Как спасти RTB? Новые технологии в интернет-...
 
ТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 годаТОП-18 SEO-событий уходящего 2014 года
ТОП-18 SEO-событий уходящего 2014 года
 
Movebo uin2014
Movebo uin2014Movebo uin2014
Movebo uin2014
 
Владимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERPВладимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERP
 
novogodnuy
novogodnuy novogodnuy
novogodnuy
 
Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...
Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...
Полная аналитика в контекстной рекламе. Возможности и практические советы. Ал...
 
Линкбилдинг на поток
Линкбилдинг на потокЛинкбилдинг на поток
Линкбилдинг на поток
 
роман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблем
роман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблемроман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблем
роман рыбальченко мастер-класс- аналитика Ppc - больше денег, меньше проблем
 
Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет...
 Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет... Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет...
Михаил Петров, Between Digital, "Как спасти RTB? Новые технологии в интернет...
 
новые технологии в SEO
новые технологии в SEOновые технологии в SEO
новые технологии в SEO
 
SEO без покупки ссылок
SEO без покупки ссылокSEO без покупки ссылок
SEO без покупки ссылок
 
usereto
useretousereto
usereto
 

Текстовые факторы при создании сеток сайтов

  • 1. Текстовые факторы при создании сеток сайтов Владимир Лучанинов 16 марта 2018
  • 2. Что хотим 1.Низкая стоимость контента 2.Качественный контент в глазах Google Владимир Лучанинов, Playtini SEMPRO 2018
  • 3. Как измерим «низкую стоимость» 1. Низкая стоимость контента • Минимум символов • Большое кол-во подходящих дешёвых копирайтеров • Простая схема Владимир Лучанинов, Playtini SEMPRO 2018 Стоимость: $0 :)
  • 4. А бывает бесплатный контент? Владимир Лучанинов, Playtini SEMPRO 2018 Список от Google support.google.com/webmasters/answer/2721306?hl=ru
  • 5. Как измерим «качественный контент» 2. Качественный контент в глазах Google • Релевантный • Неспамный • Уникальный Владимир Лучанинов, Playtini SEMPRO 2018 SERP: TOP1 по ВЧ :)
  • 6. Уникальность • скачать все тематические тексты и проверять по шинглам • инструменты со своим индексом (скачали Интернет) • поиск фраз в Google и сверка с TOP Владимир Лучанинов, Playtini SEMPRO 2018 Инструменты: • content-watch.ru • copyscape.com • advego.com/plagiatus/ • text.ru
  • 7. Неспамность • поиск по фразе • если слабая страница – в кавычках Владимир Лучанинов, Playtini SEMPRO 2018 Идеальная фраза: • короткая • содержит тематический СЧ-ВЧ • в SERP – лидеры тематики • Keyword Difficulty > 0 • больше 1,000 результатов
  • 8. Релевантность • попасть в TOP30 по СЧ • знать формулу ранжирования Google Владимир Лучанинов, Playtini SEMPRO 2018
  • 9. Как узнать формулу ранжирования • подсмотреть у конкурентов • подумать Владимир Лучанинов, Playtini SEMPRO 2018
  • 10. Подсмотреть формулу в SERP • keyword • лучше несколько keywords с одинаковым intent • убрать нетекстовые факторы • результат: кластеры страниц со схожими DR и avg. rank • посчитать нужные параметры • keyword density в title, h1, тексте • длина текста • мерялки: «естественность», «водянистость», «читабельность», «Главред», другие «SuperScore» Владимир Лучанинов, Playtini SEMPRO 2018
  • 11. Закон Ципфа: «естественность» • Pn = P1 / n • как его понимают ру-сервисы «Есть волшебное keyword density для TOP20 слов» • нюансы • Рецепт волшебства (P1) • Стоп-слова • Как перевести в одно число Владимир Лучанинов, Playtini SEMPRO 2018 Сервис Естественность 1y.ru/text.php 99% pr-cy.ru/zypfa/text 85% seolik.ru/zipfa-text 52% majento.ru/index.php?page=seo-analize/text-semantic/index 38% miratext.ru/seo_analiz_text -
  • 12. Метрики для «читаемости» Владимир Лучанинов, Playtini SEMPRO 2018
  • 13. Эволюция методов расчёта Владимир Лучанинов, Playtini SEMPRO 2018
  • 14. readable.io: “Stephen Hawking” wikipedia Владимир Лучанинов, Playtini SEMPRO 2018
  • 16. Фильтр по Reading Level Владимир Лучанинов, Playtini SEMPRO 2018
  • 17. В Google Docs тоже было и не стало Владимир Лучанинов, Playtini SEMPRO 2018
  • 18. Качество текста • Главред - glvrd.ru •TOP1 по «биография Пушкина» 9.1/10 – слова, 9.3/10 – синтаксис • Grammarly.com Владимир Лучанинов, Playtini SEMPRO 2018
  • 19. Подумать • почитать книжки • подсмотреть/подслушать, что используется Владимир Лучанинов, Playtini SEMPRO 2018
  • 20. Патенты Google по “Retrieval from Internet” patents.google.com/?q=G06F17%2f30864&assignee=Google+Inc.&sort=old Владимир Лучанинов, Playtini SEMPRO 2018
  • 21. TF-IDF • по словам из query считаем score, суммируем • если слова нет, то score = 0 • чем более редкое слово, тем лучше • чем больше раз слово в документе, тем лучше Владимир Лучанинов, Playtini SEMPRO 2018
  • 22. TF-IDF на примере Владимир Лучанинов, Playtini SEMPRO 2018 doc2 Пластиковые окна: лучшие окна в Киеве. Пластиковые, деревянные, другие. Лучшие не деревянные doc3: Киев окна - лучшие деревянные. Лучшие в Киеве, деревянные окна. Деревянные, «киев» лучшие окна. Киев и лучшие деревянные окна. Лучшие деревянные, окна киев. doc4 Другие - лучшие деревянные окна doc1: Пластиковые окна query: пластиковые окна киев
  • 23. TF-IDF на примере • пластиковые окна киев word 1 word 2 word 3 Владимир Лучанинов, Playtini SEMPRO 2018
  • 24. DF • DF – насколько частое слово в Интернете intitle:”word N” Владимир Лучанинов, Playtini SEMPRO 2018
  • 25. IDF • DF наоборот обычно ещё добавляют логарифм Владимир Лучанинов, Playtini SEMPRO 2018
  • 26. TF-IDF Владимир Лучанинов, Playtini SEMPRO 2018 doc1 = 1x2 + 1x1 + 0x2 = 3 doc2 = 2x2 + 2x1 + 1x2 = 8 doc3 = 0x2 + 5x1 + 5x2 = 15 doc4 = 0x2 + 1x1 + 0x2 = 1
  • 28. Сублинейное масштабирование TF Владимир Лучанинов, Playtini SEMPRO 2018 doc1 = 1.0 x 2 + 1.0 x 1 + 0.0 x 2 = 3 doc2 = 1.3 x 2 + 1.3 x 1 + 1.9 x 2 = 5.9 doc3 = 0.0 x 2 + 1.7 x 1 + 1.7 x 2 = 5.1 doc4 = 0.0 x 2 + 1.0 x 1 + 0.9 x 2 = 1
  • 29. Нормировка по длине документа Владимир Лучанинов, Playtini SEMPRO 2018 doc1 = 0.50 x 2 + 0.50 x 1 + 0.00 x 2 = 1.5 doc2 = 0.20 x 2 + 0.20 x 1 + 0.10 x 2 = 0.8 doc3 = 0.00 x 2 + 0.25 x 1 + 0.25 x 2 = 0.75 doc4 = 0.00 x 2 + 0.25 x 1 + 0.00 x 2 = 0.25
  • 30. Итого TF-IDF Владимир Лучанинов, Playtini SEMPRO 2018 Чем больше раз слово в документе, тем лучше Более употребимые слова – менее значимы Чем длиннее документ, тем больше раз нужно включить слово
  • 31. LSI: дурилка TF-IDF • обойти антиспам алгоритмы • обойти ограничения логарифма 1+1+1+1+1 = 5, а не 1.7 Владимир Лучанинов, Playtini SEMPRO 2018
  • 32. Ещё алгоритмы? • vector space model (TF-IDF) • probabilistic retrieval models •classic --> BM25 •language modeling •divergence-from-randomness • probabilistic inference • axiomatic thinking Владимир Лучанинов, Playtini SEMPRO 2018
  • 34. BM25: Эксперты объясняют Владимир Лучанинов, Playtini SEMPRO 2018 youtube.com/watch?v=dFlTICNvkgI Собственно, вот формула, по ней посчитаете BM25, тут всё очень просто, каких-то тайн нету. k1 = 2, b = 0.75 youtube.com/watch?v=8xya4V9rJO8 Нам важно здесь просто понять, что она очень быстро насыщается
  • 36. BM25 vs TF-IDF: IDF Владимир Лучанинов, Playtini SEMPRO 2018
  • 37. BM25 vs TF-IDF: TF Владимир Лучанинов, Playtini SEMPRO 2018 • ограничивает влияние tf • можно подтюнить меняя k
  • 38. BM25 vs TF-IDF: длина документа Владимир Лучанинов, Playtini SEMPRO 2018 • тюним влияние длины документа: 0 – не влияет 1 – очень влияет
  • 39. BM25: всё вместе Владимир Лучанинов, Playtini SEMPRO 2018
  • 40. BM25: Britta Weber Владимир Лучанинов, Playtini SEMPRO 2018 bit.ly/bm25-youtube youtube.com/watch?v=v3Ko0CwgTZ0
  • 41. Этого достаточно? Владимир Лучанинов, Playtini SEMPRO 2018 youtu.be/CRZfc9lj7Po?t=7m14s Grant Ingersoll - BM25 is so Yesterday: Modern Techniques for Better Search Relevance That core cosine similarity, TF-IDF, BM25; the reality is that's good for getting you somewhere between 50 and 70% of the way when it comes to relevance depending on who you talk to. I once sat next to the CTO of Yandex at a workshop and he told me in his opinion at the time core BM25 only got you about 50% of the way in terms of relevance at the stage like a large-scale web search engine.
  • 42. У вас просто нет других данных :) Владимир Лучанинов, Playtini SEMPRO 2018
  • 43. Бонусы: Способы получения бесплатного контента от Google; Как подсмотреть формулу Google в Google SERP; LSI как дурилка алгоритмов релевантности Владимир Лучанинов, Playtini SEMPRO 2018 Как померять тексты - уникальность - неспамность - релевантность Текстомерки - естественность от Ципфа - читаемость от Флеша и товарищей - качество: glvrd, grammarly Алгоритмы текстовой релевантности - TF-IDF - BM25