Очистка и интеграция открытых данных из разнородных источников

Методы и средства очистки открытых данных из
разнородных источников
Карпов Илья
karpovilia@gmail.com
11.12.2015
Москва

ФГУП "НИИ "Квант"
Введение Очистка и интеграция данных
2/69
• Получение
• Валидация
• Трансформация
• Очистка
• Консолидация (удаление дубликатов)
• Визуализация

Традиционные ETL-
процессы Хранилища данных
3/69
• Интеграция данных из разнородных источников началась в 90–х,
когда крупными торговыми площадками разрабатывались
хранилища данных
• В среднем x2 превышение бюджета и x2 превышение сроков
• Окупаемость в течении 6 месяцев за счет более оптимальных
решений

процессы Традиционный подход к ETL
4/69
• Разработка единой схемы данных
• Интеграция источника данных
– Исследование
– Маппинг структур в единую схему данных
– Методы очистки и преобразования
• Масштабирование до 25 источников

Традиционные ETL-процессы Хранилища данных
5/69
https://en.wikipedia.org/wiki/Data_integration

Традиционные ETL-процессы Проблемы интеграции данных
6/69

Традиционные ETL-процессы Проблемы интеграции данных
7/69

Традиционные ETL-процессы Schema mapping
8/69
http://www.xmlschema.info/images/shots/map_xml_thumb.gif

9/69
https://www.informatica.com/products/data-integration/powercenter.html

10/69

Научно-технический
задел
11/69

12/69

процессы Примеры
13/69
• РИНЦ
– 4-е место в списке самых цитируемых специалистов по автоматике и
вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН)
– 33 публикации, которые цитируются 5289 раз.
– При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу
Тимошенко эмигрировавшему в США в 1922 году.
http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/
• Фокусированный анализ
– Linkedln 10 000 персон и 2892 организаций. В финальную сеть было
включено 510 персон и 445 организаций.
– GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было
включено 319.
– Страницы организаций (места работы, университеты) около 100.
https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf

Традиционные ETL-процессы Примеры (2)
14/69
CIT
CalTech
Cal Tech
US Senate
United States Senate
Senate of the United States of America
United States Senate Committee on
Commerce
US Senator John D. Rockefeller
Office of U.S. Senator George S. LeMieux
United States Senate - Office of Senator
Claire McCaskill

Традиционные ETL-процессы Примеры (3)
15/69
Объекты на карте

Нетрадиционные ETL-
процессы Некоторые проекты
16/69
• Paxata
• Trifacta (commercial Data Wrangler)
• Cambridge Semantics
• Data Tamer
• ClearStory
• Attivio
• Google - Refine (OpenRefine)

процессы DataWrangler
17/69
• Быстрая трансформация и ручная фильтрация данных
• От пользователя не требуется знаний программирования
http://vis.stanford.edu/wrangler/

процессы DataTamer
56/69
• Обработка “длинного хвоста”
• Использование машинного обучение и статистики
• Краудсорсинг для случаев, в которых вероятность корректной
обработки невысока

процессы DataTamer – этапы работы
57/69
• Загрузка данных в хранилище:
– csv – набор записей вида атрибут-значение
– Хранение в Postgres
• Schema Integration
• Crowd Sourcing
• Deduplication
• Visualization

58/69
• Загрузка данных в хранилище
• Schema Integration:
– предопределенная глобальная схема может отсутствовать
– использование шаблонов и внешних источников
– текстовый анализ названий
– статистика и машинное обучение
• Crowd Sourcing
• Deduplication
• Visualization

59/69
• Crowd Sourcing:
– Использует иерархию экспертов
– Можно добавить специализацию
– Предложено ранжирование компетентности
• Deduplication
• Visualization

60/69
• Crowd Sourcing
• Deduplication
– Исследуются связи сущности с атрибутами во всем хранилище
– Решается на основе кластеризации сущностей
• Visualization

процессы
DataTamer – Schema Integration
61/69

процессы
62/69

процессы
63/69

процессы
64/69

процессы Кластеризация сущностей
65/69

66/69

67/69

Заключение Итоги
68/69
• Практически в любой отрасли существует потребность в
интеграция большего количества источников – лучшие
аналитические выводы. Компании, освоившие технологии
интеграции имеют большее конкурентное преимущество
• Очистка данных играет значительную роль во всех отраслях
связанных с анализом данных. Качество данных и их
непротиворечивость неоднократно озвучивались как критерии
успешности раскрытия ОД.
• Активно развиваются как personal-, так и enterprise- решения по
автоматизации очистки и интеграции

Спасибо за внимание
Карпов Илья
karpovilia@gmail.com

Очистка и интеграция открытых данных из разнородных источников

Recommended

Recommended

More Related Content

Similar to Очистка и интеграция открытых данных из разнородных источников

Similar to Очистка и интеграция открытых данных из разнородных источников (20)

Очистка и интеграция открытых данных из разнородных источников

Editor's Notes