Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

Сергей Нурк – Автоматический сбор данных по примерам

on

  • 840 views

 

Statistics

Views

Total Views
840
Views on SlideShare
803
Embed Views
37

Actions

Likes
0
Downloads
0
Comments
1

2 Embeds 37

http://webcrunch.ru 36
http://www.webcrunch.ru 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • SinglePage - это внутренняя разработка яндекса? Её снаружи использовать нельзя?
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Сергей Нурк – Автоматический сбор данных по примерам Сергей Нурк – Автоматический сбор данных по примерам Presentation Transcript

  • Автоматический сбор данных по примерам Сергей Нурк Разработчик YaC, Москва, 1 октября 2010 года
  • План ● Введение ● SinglePage ● Алгоритм ● Итоги 2
  • Глава 1. Введение 3
  • 5
  • 6
  • Вёрстка Разнообразна Часто изменяется 7
  • Специализированные парсеры На каждый сайт – свой 8
  • Нужна армия 9
  • Общие алгоритмы Предполагают наличие на странице регулярной структуры 10
  • MDR 11
  • Основные требования ● Простая настройка ● Простая поддержка ● Высокие показатели полноты и точности 12
  • Глава 2. SinglePage 13
  • Управляемая экстракция 1. Пользователь задает примеры 2. Система автоматически извлекает данные со всего сайта 14
  • Взгляд внутрь 1. По примерам строим шаблоны (один атрибут – один шаблон) 2. Применяем шаблоны к остальным (подходящим) страницам 15
  • Гипотетические преимущества ● Быстрая настройка ● Не требуется разбираться в структуре страницы ● Структурированное извлечение нужной информации ● Устойчивость к изменениям вёрстки (пересоздание шаблонов) 16
  • Ограничения ● Отдельная страница на каждый объект ● Группа страниц с однотипной вёрсткой 17
  • Глава 3. Алгоритм 18
  • Позиционирование 1. Xpath 2. Шаблон в виде дерева 19
  • 20
  • //ul/li[3]/span 21
  • 22
  • //ul/li[3]/span 23
  • //ul/li[3]/span Size=20 quad laser... 24
  • TreePattern 25
  • TreePattern 26
  • Схема алгоритма ● Находим вхождения примеров ● Строим TreePattern, задающий положение узла ● Применяем TreePattern к остальным страницам 27
  • Построение TreePattern ● Начинаем от мест вхождения примеров ● Синхронно движемся по деревьям, сравнивая узлы ● Накапливаем TreePattern 28
  • Построение TreePattern 29
  • Построение TreePattern 30 30
  • Построение TreePattern 31 31
  • Построение TreePattern 32 32
  • Построение TreePattern 33 33
  • Проблема 34
  • Препятствия ● Сложности с вхождением примеров ● Неправильные страницы 35
  • Поиск вхождений 36
  • Множественные вхождения 4 варианта Выбираем лучший 37
  • Фильтрация страниц Все страницы Не Применяем применяем шаблоны шаблоны 38
  • Глава 4. Итоги 39
  • Изменяющийся контент Изменяется не везде Хватает информации для формирования шаблонов Есть возможность исправить пример 40
  • Статистика Время создания < 20 мин Предварительная оценка качества – несколько секунд Полнота: 88% Точность: 92% success success fail fail 41
  • Нерешенные задачи ● Несколько объектов на странице ● Хорошая устойчивость к неоднородной верстке 42
  • Заключение Полуавтоматические методы ● По качеству данных и универсальности сравнимы со сбором «в ручную» ● Сложность и время настройки минимальны P.S. Экономьте Ваше время! 43
  • Вопросы 44
  • Нурк Сергей Разработчик 111033, Россия, Санкт-Петербург, Свердловская наб., д. 44. sergeynurk@yandex-team.ru