Владимир Батыгин "Автоматический сбор данных по примерам"
Первый Я.Субботник в Санкт-Петербурге
О докладе:
В настоящее время в интернете можно найти огромное количество полезной информации. Повсеместно встает проблема сбора этой информации в автоматическом режиме. Однако полностью автоматические методы извлечения информации далеко не всегда могут обеспечить необходимую полноту и точность результата. В докладе представлен новый инструмент для управляемого извлечения структурированных данных. Пользователь указывает примеры интересующей его информации на нескольких страницах сайта. Система автоматически строит шаблоны специального вида для поиска такой же информации на всех страницах сайта. Повествуем об используемых алгоритмах и проблемах, с которыми пришлось столкнуться при их реализации. Также даем обзор нерешённых задач и перспектив их развития.
19. Преимущества
● Быстрая настройка
● Не требуется разбираться в структуре
страницы
● Структурированное извлечение нужной
информации
● Устойчивость к изменениям вёрстки
19
20. Ограничения
● Отдельная страница на каждый объект
● Группа страниц с однотипной вёрсткой
20