Сбор связанных фраз для
текстов под ключевую
фразу на странице
Дмитрий Шахов Директор ГК РЕМАРКА
Докладчик на конференциях
• AllInTop (Москва, 2012, 2014гг.),
• SeoConference (Казань, 2014г.),
• Кинза (Москва, 2014г.),
• РИФ-Воронеж (2014г.),
• MAD (Санкт-Петербург, 2014г.).
Организатор конференции
• BalticDigitalDays (2013, 2014гг.)
www.remarka.info www.seohowto.ru/ny2015/ www.seokaliningrad.ru
Базовые правила к тексту
• Ключ в заголовке статьи
• Вхождение ключа в первом
предложении
• Точное вхождение ключа в текст
• Частичное вхождение ключа в текст
• Вхождение синонимов к ключу в текст
• Вхождение топонимов (названий
региона, города, местности)
Работа с подсветкой
Связанные фразы
• Фотоаппарат -> Объектив, Кофр
• Генератор -> Мощность, Амперы
• Салон красоты -> Ногти, Волосы, SPA
И т.д.
Логика: поиск частоупотребительных
фраз, входящих в тексты сайтов в
топ10
Методика сбора связанных фраз
1. Собираем URL сайтов топ-10 по ключу
2. Выявляем релевантную страницу
3. Парсим текст
4. Лемматизируем слова в тексте
5. Группируем
6. И…
Собираем URL сайтов
Выявляем релевантные
(не всегда совпадают с выдачей)
Парсим текст
• Копируем текст
• Заменяем знаки препинания на пробел
• Заменяем пробел на спуск строки
• Приводим к единому регистру
• Сохраняем в файле
Лемматизируем
Лемматизируем
• Сохраняем фразы в in.txt
• Запускаем mystem
• Открываем out.txt в Excel
• Выполняем группировку
• Откидываем слова до 3 букв
• Получаем коллекцию слов
Считать IDF?
ЧислоДок(Запрос) + ЧислоДок(Слово)
IDF = -------------------------------------------------
ЧислоДок(Запрос + Слово)
Да ну, нафиг!
• Тратим вместо кучи капч всего одну на
парсинг выдачи по запросу
• Парсим тексты с других сайтов в топ10
• Получаем 10 коллекций слов
• Считаем совпадения
• Выбираем интересное для нас
Итог работы
Что дальше?
• Биграммы и триграммы
• Вычитание связанных фраз из текста
копирайтера на предмет проверки на
водность
• Для ленивых программистов: парсим
сниппет, а не текст
Дмитрий Шахов
www.remarka.info
bablorub.blogspot.ru
Skype: remarka.reklama
E-mail: masterxbablorub@gmail.com
https://www.facebook.com/bablorub

fg

  • 1.
    Сбор связанных фраздля текстов под ключевую фразу на странице Дмитрий Шахов Директор ГК РЕМАРКА Докладчик на конференциях • AllInTop (Москва, 2012, 2014гг.), • SeoConference (Казань, 2014г.), • Кинза (Москва, 2014г.), • РИФ-Воронеж (2014г.), • MAD (Санкт-Петербург, 2014г.). Организатор конференции • BalticDigitalDays (2013, 2014гг.) www.remarka.info www.seohowto.ru/ny2015/ www.seokaliningrad.ru
  • 2.
    Базовые правила ктексту • Ключ в заголовке статьи • Вхождение ключа в первом предложении • Точное вхождение ключа в текст • Частичное вхождение ключа в текст • Вхождение синонимов к ключу в текст • Вхождение топонимов (названий региона, города, местности)
  • 3.
  • 4.
    Связанные фразы • Фотоаппарат-> Объектив, Кофр • Генератор -> Мощность, Амперы • Салон красоты -> Ногти, Волосы, SPA И т.д. Логика: поиск частоупотребительных фраз, входящих в тексты сайтов в топ10
  • 5.
    Методика сбора связанныхфраз 1. Собираем URL сайтов топ-10 по ключу 2. Выявляем релевантную страницу 3. Парсим текст 4. Лемматизируем слова в тексте 5. Группируем 6. И…
  • 6.
  • 7.
  • 8.
    Парсим текст • Копируемтекст • Заменяем знаки препинания на пробел • Заменяем пробел на спуск строки • Приводим к единому регистру • Сохраняем в файле
  • 9.
  • 10.
    Лемматизируем • Сохраняем фразыв in.txt • Запускаем mystem • Открываем out.txt в Excel • Выполняем группировку • Откидываем слова до 3 букв • Получаем коллекцию слов
  • 11.
    Считать IDF? ЧислоДок(Запрос) +ЧислоДок(Слово) IDF = ------------------------------------------------- ЧислоДок(Запрос + Слово)
  • 12.
    Да ну, нафиг! •Тратим вместо кучи капч всего одну на парсинг выдачи по запросу • Парсим тексты с других сайтов в топ10 • Получаем 10 коллекций слов • Считаем совпадения • Выбираем интересное для нас
  • 13.
  • 14.
    Что дальше? • Биграммыи триграммы • Вычитание связанных фраз из текста копирайтера на предмет проверки на водность • Для ленивых программистов: парсим сниппет, а не текст
  • 15.