Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

fg

1,936 views

Published on

dvsd

Published in: Business
  • Be the first to comment

fg

  1. 1. Сбор связанных фраз для текстов под ключевую фразу на странице Дмитрий Шахов Директор ГК РЕМАРКА Докладчик на конференциях • AllInTop (Москва, 2012, 2014гг.), • SeoConference (Казань, 2014г.), • Кинза (Москва, 2014г.), • РИФ-Воронеж (2014г.), • MAD (Санкт-Петербург, 2014г.). Организатор конференции • BalticDigitalDays (2013, 2014гг.) www.remarka.info www.seohowto.ru/ny2015/ www.seokaliningrad.ru
  2. 2. Базовые правила к тексту • Ключ в заголовке статьи • Вхождение ключа в первом предложении • Точное вхождение ключа в текст • Частичное вхождение ключа в текст • Вхождение синонимов к ключу в текст • Вхождение топонимов (названий региона, города, местности)
  3. 3. Работа с подсветкой
  4. 4. Связанные фразы • Фотоаппарат -> Объектив, Кофр • Генератор -> Мощность, Амперы • Салон красоты -> Ногти, Волосы, SPA И т.д. Логика: поиск частоупотребительных фраз, входящих в тексты сайтов в топ10
  5. 5. Методика сбора связанных фраз 1. Собираем URL сайтов топ-10 по ключу 2. Выявляем релевантную страницу 3. Парсим текст 4. Лемматизируем слова в тексте 5. Группируем 6. И…
  6. 6. Собираем URL сайтов
  7. 7. Выявляем релевантные (не всегда совпадают с выдачей)
  8. 8. Парсим текст • Копируем текст • Заменяем знаки препинания на пробел • Заменяем пробел на спуск строки • Приводим к единому регистру • Сохраняем в файле
  9. 9. Лемматизируем
  10. 10. Лемматизируем • Сохраняем фразы в in.txt • Запускаем mystem • Открываем out.txt в Excel • Выполняем группировку • Откидываем слова до 3 букв • Получаем коллекцию слов
  11. 11. Считать IDF? ЧислоДок(Запрос) + ЧислоДок(Слово) IDF = ------------------------------------------------- ЧислоДок(Запрос + Слово)
  12. 12. Да ну, нафиг! • Тратим вместо кучи капч всего одну на парсинг выдачи по запросу • Парсим тексты с других сайтов в топ10 • Получаем 10 коллекций слов • Считаем совпадения • Выбираем интересное для нас
  13. 13. Итог работы
  14. 14. Что дальше? • Биграммы и триграммы • Вычитание связанных фраз из текста копирайтера на предмет проверки на водность • Для ленивых программистов: парсим сниппет, а не текст
  15. 15. Дмитрий Шахов www.remarka.info bablorub.blogspot.ru Skype: remarka.reklama E-mail: masterxbablorub@gmail.com https://www.facebook.com/bablorub

×