Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Текстовый анализ - теория и практика

1,850 views

Published on

- Что поменялось в текстовом анализе с отключением ссылочного.
- Что и как анализировать.
- Автоматизация текстового анализа

Published in: Marketing
  • Be the first to comment

Текстовый анализ - теория и практика

  1. 1. Инновации в текстовой оптимизации Рассказывает Алексей Чекушин. Kokoc.com / Just-Magic.org
  2. 2. Зоны документа Title Plain-текст Текстовые фрагменты <a> - внутренние Анкор-лист Анкор-лист – «резиновый»
  3. 3. Как строилась оптимизация до 2014? • Внимание на <title> и plain-текст. • Делаем минимальный набор вхождений Параметры вхождений ограничены «тошнотой» • В анкор-файл загоняем все возможные вхождения
  4. 4. Отключение ссылочного - 2014 * По большинству коммерческих гео-зависимых запросов в Москве. Title Plain-текст Текстовые фрагменты <a> - внутренние
  5. 5. Что поменялось на практике? • Исчезла «резиновая» зона «анкор-лист». • Вхождения, которые были анкор-листе, теперь нужно компенсировать остальными зонами. • Структурирование сайта и текстовый анализ стали критически важными для продвижения.
  6. 6. Особенности ранжирования Яндекса Большое количество различных текстовых факторов. Применение машинного обучения. Больше – не значит лучше. Мерять нужно все, а не только «тошноту»
  7. 7. Особенности ранжирования Яндекса Большое количество запросных модификаторов формулы. Свои правила под каждый запрос/групу запросов. Необходима предварительная группировка. Анализ выполнять не по запросу, а для всей группы.
  8. 8. Выводы • Подсчет отдельных метрик (tf-idf, bm25, и.т.п.) сам по себе смысла не имеет. • Подсчет единой «формулы релевантности» также лишен смысла. • Необходимо анализировать все в совокупности.
  9. 9. И что делать? • Машинное обучение на топах по большой совокупности факторов или • Поиск закономерностей в топе на основе вхождений
  10. 10. Варианты анализа топа. • Ручной разбор топов «на глазок». Most popular! • Полноценный разбор топов руками, автоматизация в excel. • Полностью автоматический разбор специальными сервисами.
  11. 11. Основные проблемы анализа. • Определение возможных типов вхождений. Прямые, обратные, частичные, с пропусками, … • Определение «окна допустимых значений». Мало данных, большой шум. • Совмещение «окон» по нескольким запросам.
  12. 12. Недостатки классического разбора • Смотрят на одну зону документа, а не на весь документ в совокупности. (Как правило – на plain-текст). • Часто пропускают не находящийся по ctrl+f текст. • Учитывают минимум вариций вхождений и словоформ. • Человек не может держать в уме несколько документов.
  13. 13. Руками или автоматом? • Руками разбирать очень долго На одну продвигаемую страницу уходит ~2 часа • Высока вероятность ошибки при ручном разборе. • При ручном разборе проще отобрать только подходящие документы.
  14. 14. Немного математики Расчет дисперсии и доверительного интервала на основе предположения о нормальном распределении некорректен и дает кривые результаты. Лучше всего работает– межквантильное расстояние при переменных (зависящих от результата по запросу) значениях квантилей. Совмещение окон допустимых значений – задача со многими решениями, необходимо использовать метрику оптимальности результирующего окна (например – минимизация интегральной величины конфликтов).
  15. 15. Ограничения метода. • Необходима предварительная кластеризация по топам. И только по правильным алгоритмам. • Структура сайта Сайт под семантику, а не семантика под сайт. • Ctrl+c – Ctrl+v не пройдет Все равно придется думать.
  16. 16. А что на практике? Запрос «купить ноутбук»
  17. 17. «Диван аккордеон» и «купить диван аккордеон»
  18. 18. Остекление коттеджей
  19. 19. Попробовать самому! Текстовый анализатор на Just-Magic.org + Анализ всех зон документа. + Одновременно по нескольким запросам. + Полная информация для оптимизации. Платно, с регистрацией, без sms: Just-Magic.org
  20. 20. Финальный слайд с котенком Ваши вопросы Алексей Чекушин. Just-Magic.org

×