8. Роботы
бывают
• «Официальные»
(паучки,
grabber`ы
checker`ы,
etc.)
• Не
особо
скрывающиеся
(UserAgent
-‐
стандартная
библиотека)
• Желающие
казаться
людьми
–Становятся
умнее
9. Зачем
существуют
роботы?
• Регулярное
выдирание
информации
со
страницы
• Регулярный
обход
сайта
• Разовый,
но
очень
мощный
обход
• Накручивание
статистики
• Да
кто
их
разберёт!
11. Как
отсеивать
роботов?
• Пробовали
писать
правила.
• Просто
разглядывали:
постоянный
роботный
шум,
набеги
роботов.
–Закономерность
есть
всегда.
• Генерировали
новые
правила.
• Правил
становилось
больше,
беспокойство
нарастало.
13. Как
наловить
роботов
и
людей?
(подготовить
обучающую
выборку)
Экспертные
выборки:
•Дорого
делать
репрезентативные
–Объём
экспоненциально
зависит
от
количества
факторов
(у
нас
~350)
•Субъективны
•Дорого
поддерживать
актуальными
22. Распределение внимания пользователя
Web users spend 69% of their time viewing the left half of the page and 30% viewing the right half.
http://www.nngroup.com/articles/horizontal-attention-leans-left/
Nielsen Norman Group
27. Внимание к длинным страницам
Web users spend 80% of their time looking at information above the page fold.
Although users do scroll, they allocate only 20% of their attention below the fold.
http://www.nngroup.com/articles/scrolling-and-attention/
Nielsen Norman Group