7. Краулеры
Wikipedia:
Поисковый робот («веб-паук», краулер)
— программа, являющаяся составной
частью поисковой системы и
предназначенная для перебора
страниц Интернета с целью занесения
информации о них в базу данных
поисковика.
7
8. Краулеры
Можно:
1.Переходить не только со страницы на
страницу
2.Не извлекать информацию, а
проводить тесты
8
9. Краулеры
Извлечение информации:
Надо обойти все страницы, на которых
есть различная ценная информация.
Тестирование:
Надо обойти все состояния всех
страниц, на которых можно
осуществить различные действия.
9
17. Проблемы
1.Технологии
1.Поля текстового ввода
17
18. Проблемы
1.Технологии
1.Поля текстового ввода
18
19. Crawljax
Ali Mesbah (2009).
Analysis and Testing of Ajax-based Single-
Page Web Applications
PhD Thesis, Delft University of Technology.
Принцип действия: полный перебор (в
глубину).
19
20. Crawljax
Mesbah and Prasad (2011). Automated
Cross-Browser Compatibility Testing. In
Proceedings of the 33rd ACM/IEEE
International Conference on Software
Engineering (ICSE’11)
20
21. Проблемы
1.Технологии
1.Поля текстового ввода
21
37. Стратегии краулинга
M. Dincturk, S. Choudhary, G. von
Bochmann, G.-V. Jourdan and I. Viorel
Onut (2012).
A Statistical Approach for Efficient
Crawling of Rich Internet Applications.
Web Engineering
37
38. Наша стратегия
До глубины k идем всеми способами
Глубже, чем на уровне k, идем одним
способом
По умолчанию k = 2
38
73. Пример
Сценарий: ищем в поиске «Susan Boyle»
73
74. Пример
Сценарий: ищем в поиске «Susan Boyle»
74
75. Пример
Сценарий: ищем в поиске «Susan Boyle»
75
76. Проверки
1.Пингуем ссылки.
2.Изучаем текст на странице.
76
77. Запрещенные «слова»
error генств failed
ошибка NaN unavailable
. ошибка a,
, не удалось b,
404 не доступен c,
503 недоступен d,
404@ error …
не отвечает problem
77
Undefined exception