• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

Сергей Нурк – Автоматический сбор данных по примерам

on

  • 801 views

 

Statistics

Views

Total Views
801
Views on SlideShare
765
Embed Views
36

Actions

Likes
0
Downloads
0
Comments
1

2 Embeds 36

http://webcrunch.ru 35
http://www.webcrunch.ru 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Сергей Нурк – Автоматический сбор данных по примерам Сергей Нурк – Автоматический сбор данных по примерам Presentation Transcript

    • Автоматический сбор данных по примерам Сергей Нурк Разработчик YaC, Москва, 1 октября 2010 года
    • План ● Введение ● SinglePage ● Алгоритм ● Итоги 2
    • Глава 1. Введение 3
    • 5
    • 6
    • Вёрстка Разнообразна Часто изменяется 7
    • Специализированные парсеры На каждый сайт – свой 8
    • Нужна армия 9
    • Общие алгоритмы Предполагают наличие на странице регулярной структуры 10
    • MDR 11
    • Основные требования ● Простая настройка ● Простая поддержка ● Высокие показатели полноты и точности 12
    • Глава 2. SinglePage 13
    • Управляемая экстракция 1. Пользователь задает примеры 2. Система автоматически извлекает данные со всего сайта 14
    • Взгляд внутрь 1. По примерам строим шаблоны (один атрибут – один шаблон) 2. Применяем шаблоны к остальным (подходящим) страницам 15
    • Гипотетические преимущества ● Быстрая настройка ● Не требуется разбираться в структуре страницы ● Структурированное извлечение нужной информации ● Устойчивость к изменениям вёрстки (пересоздание шаблонов) 16
    • Ограничения ● Отдельная страница на каждый объект ● Группа страниц с однотипной вёрсткой 17
    • Глава 3. Алгоритм 18
    • Позиционирование 1. Xpath 2. Шаблон в виде дерева 19
    • 20
    • //ul/li[3]/span 21
    • 22
    • //ul/li[3]/span 23
    • //ul/li[3]/span Size=20 quad laser... 24
    • TreePattern 25
    • TreePattern 26
    • Схема алгоритма ● Находим вхождения примеров ● Строим TreePattern, задающий положение узла ● Применяем TreePattern к остальным страницам 27
    • Построение TreePattern ● Начинаем от мест вхождения примеров ● Синхронно движемся по деревьям, сравнивая узлы ● Накапливаем TreePattern 28
    • Построение TreePattern 29
    • Построение TreePattern 30 30
    • Построение TreePattern 31 31
    • Построение TreePattern 32 32
    • Построение TreePattern 33 33
    • Проблема 34
    • Препятствия ● Сложности с вхождением примеров ● Неправильные страницы 35
    • Поиск вхождений 36
    • Множественные вхождения 4 варианта Выбираем лучший 37
    • Фильтрация страниц Все страницы Не Применяем применяем шаблоны шаблоны 38
    • Глава 4. Итоги 39
    • Изменяющийся контент Изменяется не везде Хватает информации для формирования шаблонов Есть возможность исправить пример 40
    • Статистика Время создания < 20 мин Предварительная оценка качества – несколько секунд Полнота: 88% Точность: 92% success success fail fail 41
    • Нерешенные задачи ● Несколько объектов на странице ● Хорошая устойчивость к неоднородной верстке 42
    • Заключение Полуавтоматические методы ● По качеству данных и универсальности сравнимы со сбором «в ручную» ● Сложность и время настройки минимальны P.S. Экономьте Ваше время! 43
    • Вопросы 44
    • Нурк Сергей Разработчик 111033, Россия, Санкт-Петербург, Свердловская наб., д. 44. sergeynurk@yandex-team.ru