SlideShare a Scribd company logo
1 of 69
Download to read offline
Методы и средства очистки открытых данных из
разнородных источников
Карпов Илья
karpovilia@gmail.com
11.12.2015
Москва
ФГУП "НИИ "Квант"
Введение Очистка и интеграция данных
2/69
• Получение
• Валидация
• Трансформация
• Очистка
• Консолидация (удаление дубликатов)
• Визуализация
ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Хранилища данных
3/69
• Интеграция данных из разнородных источников началась в 90–х,
когда крупными торговыми площадками разрабатывались
хранилища данных
• В среднем x2 превышение бюджета и x2 превышение сроков
• Окупаемость в течении 6 месяцев за счет более оптимальных
решений
ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Традиционный подход к ETL
4/69
• Разработка единой схемы данных
• Интеграция источника данных
– Исследование
– Маппинг структур в единую схему данных
– Методы очистки и преобразования
• Масштабирование до 25 источников
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Хранилища данных
5/69
https://en.wikipedia.org/wiki/Data_integration
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Проблемы интеграции данных
6/69
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Проблемы интеграции данных
7/69
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
8/69
http://www.xmlschema.info/images/shots/map_xml_thumb.gif
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
9/69
https://www.informatica.com/products/data-integration/powercenter.html
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
10/69
https://www.informatica.com/products/data-integration/powercenter.html
ФГУП "НИИ "Квант"
Научно-технический
задел
11/69
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
12/69
https://www.informatica.com/products/data-integration/powercenter.html
ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Примеры
13/69
• РИНЦ
– 4-е место в списке самых цитируемых специалистов по автоматике и
вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН)
– 33 публикации, которые цитируются 5289 раз.
– При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу
Тимошенко эмигрировавшему в США в 1922 году.
http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/
• Фокусированный анализ
– Linkedln 10 000 персон и 2892 организаций. В финальную сеть было
включено 510 персон и 445 организаций.
– GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было
включено 319.
– Страницы организаций (места работы, университеты) около 100.
https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Примеры (2)
14/69
CIT
CalTech
Cal Tech
US Senate
United States Senate
Senate of the United States of America
United States Senate Committee on
Commerce
US Senator John D. Rockefeller
Office of U.S. Senator George S. LeMieux
United States Senate - Office of Senator
Claire McCaskill
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Примеры (3)
15/69
Объекты на карте
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Некоторые проекты
16/69
• Paxata
• Trifacta (commercial Data Wrangler)
• Cambridge Semantics
• Data Tamer
• ClearStory
• Attivio
• Google - Refine (OpenRefine)
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataWrangler
17/69
• Быстрая трансформация и ручная фильтрация данных
• От пользователя не требуется знаний программирования
http://vis.stanford.edu/wrangler/
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer
56/69
• Обработка “длинного хвоста”
• Использование машинного обучение и статистики
• Краудсорсинг для случаев, в которых вероятность корректной
обработки невысока
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
57/69
• Загрузка данных в хранилище:
– csv – набор записей вида атрибут-значение
– Хранение в Postgres
• Schema Integration
• Crowd Sourcing
• Deduplication
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
58/69
• Загрузка данных в хранилище
• Schema Integration:
– предопределенная глобальная схема может отсутствовать
– использование шаблонов и внешних источников
– текстовый анализ названий
– статистика и машинное обучение
• Crowd Sourcing
• Deduplication
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
59/69
• Загрузка данных в хранилище
• Schema Integration
• Crowd Sourcing:
– Использует иерархию экспертов
– Можно добавить специализацию
– Предложено ранжирование компетентности
• Deduplication
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
60/69
• Загрузка данных в хранилище
• Schema Integration
• Crowd Sourcing
• Deduplication
– Исследуются связи сущности с атрибутами во всем хранилище
– Решается на основе кластеризации сущностей
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы
DataTamer – Schema Integration
61/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы
DataTamer – Schema Integration
62/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы
DataTamer – Schema Integration
63/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы
DataTamer – Schema Integration
64/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Кластеризация сущностей
65/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Кластеризация сущностей
66/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Кластеризация сущностей
67/69
ФГУП "НИИ "Квант"
Заключение Итоги
68/69
• Практически в любой отрасли существует потребность в
интеграция большего количества источников – лучшие
аналитические выводы. Компании, освоившие технологии
интеграции имеют большее конкурентное преимущество
• Очистка данных играет значительную роль во всех отраслях
связанных с анализом данных. Качество данных и их
непротиворечивость неоднократно озвучивались как критерии
успешности раскрытия ОД.
• Активно развиваются как personal-, так и enterprise- решения по
автоматизации очистки и интеграции
Спасибо за внимание
Карпов Илья
karpovilia@gmail.com

More Related Content

Similar to Очистка и интеграция открытых данных из разнородных источников

Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Nikita Makarov
 
Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)
PCampRussia
 
6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции
6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции
6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции
Арсений Чермных
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ontico
 
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
Yandex
 
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
Yandex
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
JSC “Arcadia Inc”
 
Леонид Юрьев, "Петер-Сервис"
Леонид Юрьев, "Петер-Сервис"Леонид Юрьев, "Петер-Сервис"
Леонид Юрьев, "Петер-Сервис"
Ontico
 
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
HappyDev
 
HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
Alexey Zinoviev
 

Similar to Очистка и интеграция открытых данных из разнородных источников (20)

Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
 
Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)
 
6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции
6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции
6 я конф оцо 2015 москва - построение электронного архива распределенной орг-ции
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
 
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
 
Соединяя точки. Моделе-ориентированный процесс системного проектирования
Соединяя точки. Моделе-ориентированный процесс системного проектированияСоединяя точки. Моделе-ориентированный процесс системного проектирования
Соединяя точки. Моделе-ориентированный процесс системного проектирования
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
2015 голограмма коллектива
2015 голограмма коллектива 2015 голограмма коллектива
2015 голограмма коллектива
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse Cloud
 
Леонид Юрьев, "Петер-Сервис"
Леонид Юрьев, "Петер-Сервис"Леонид Юрьев, "Петер-Сервис"
Леонид Юрьев, "Петер-Сервис"
 
Software Analytics in frontend
Software Analytics in frontendSoftware Analytics in frontend
Software Analytics in frontend
 
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
 
HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 

Очистка и интеграция открытых данных из разнородных источников

  • 1. Методы и средства очистки открытых данных из разнородных источников Карпов Илья karpovilia@gmail.com 11.12.2015 Москва
  • 2. ФГУП "НИИ "Квант" Введение Очистка и интеграция данных 2/69 • Получение • Валидация • Трансформация • Очистка • Консолидация (удаление дубликатов) • Визуализация
  • 3. ФГУП "НИИ "Квант" Традиционные ETL- процессы Хранилища данных 3/69 • Интеграция данных из разнородных источников началась в 90–х, когда крупными торговыми площадками разрабатывались хранилища данных • В среднем x2 превышение бюджета и x2 превышение сроков • Окупаемость в течении 6 месяцев за счет более оптимальных решений
  • 4. ФГУП "НИИ "Квант" Традиционные ETL- процессы Традиционный подход к ETL 4/69 • Разработка единой схемы данных • Интеграция источника данных – Исследование – Маппинг структур в единую схему данных – Методы очистки и преобразования • Масштабирование до 25 источников
  • 5. ФГУП "НИИ "Квант" Традиционные ETL-процессы Хранилища данных 5/69 https://en.wikipedia.org/wiki/Data_integration
  • 6. ФГУП "НИИ "Квант" Традиционные ETL-процессы Проблемы интеграции данных 6/69
  • 7. ФГУП "НИИ "Квант" Традиционные ETL-процессы Проблемы интеграции данных 7/69
  • 8. ФГУП "НИИ "Квант" Традиционные ETL-процессы Schema mapping 8/69 http://www.xmlschema.info/images/shots/map_xml_thumb.gif
  • 9. ФГУП "НИИ "Квант" Традиционные ETL-процессы Schema mapping 9/69 https://www.informatica.com/products/data-integration/powercenter.html
  • 10. ФГУП "НИИ "Квант" Традиционные ETL-процессы Schema mapping 10/69 https://www.informatica.com/products/data-integration/powercenter.html
  • 12. ФГУП "НИИ "Квант" Традиционные ETL-процессы Schema mapping 12/69 https://www.informatica.com/products/data-integration/powercenter.html
  • 13. ФГУП "НИИ "Квант" Традиционные ETL- процессы Примеры 13/69 • РИНЦ – 4-е место в списке самых цитируемых специалистов по автоматике и вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН) – 33 публикации, которые цитируются 5289 раз. – При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу Тимошенко эмигрировавшему в США в 1922 году. http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/ • Фокусированный анализ – Linkedln 10 000 персон и 2892 организаций. В финальную сеть было включено 510 персон и 445 организаций. – GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было включено 319. – Страницы организаций (места работы, университеты) около 100. https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf
  • 14. ФГУП "НИИ "Квант" Традиционные ETL-процессы Примеры (2) 14/69 CIT CalTech Cal Tech US Senate United States Senate Senate of the United States of America United States Senate Committee on Commerce US Senator John D. Rockefeller Office of U.S. Senator George S. LeMieux United States Senate - Office of Senator Claire McCaskill
  • 15. ФГУП "НИИ "Квант" Традиционные ETL-процессы Примеры (3) 15/69 Объекты на карте
  • 16. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы Некоторые проекты 16/69 • Paxata • Trifacta (commercial Data Wrangler) • Cambridge Semantics • Data Tamer • ClearStory • Attivio • Google - Refine (OpenRefine)
  • 17. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataWrangler 17/69 • Быстрая трансформация и ручная фильтрация данных • От пользователя не требуется знаний программирования http://vis.stanford.edu/wrangler/
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 51.
  • 52.
  • 53.
  • 54.
  • 55.
  • 56. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer 56/69 • Обработка “длинного хвоста” • Использование машинного обучение и статистики • Краудсорсинг для случаев, в которых вероятность корректной обработки невысока
  • 57. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – этапы работы 57/69 • Загрузка данных в хранилище: – csv – набор записей вида атрибут-значение – Хранение в Postgres • Schema Integration • Crowd Sourcing • Deduplication • Visualization
  • 58. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – этапы работы 58/69 • Загрузка данных в хранилище • Schema Integration: – предопределенная глобальная схема может отсутствовать – использование шаблонов и внешних источников – текстовый анализ названий – статистика и машинное обучение • Crowd Sourcing • Deduplication • Visualization
  • 59. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – этапы работы 59/69 • Загрузка данных в хранилище • Schema Integration • Crowd Sourcing: – Использует иерархию экспертов – Можно добавить специализацию – Предложено ранжирование компетентности • Deduplication • Visualization
  • 60. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – этапы работы 60/69 • Загрузка данных в хранилище • Schema Integration • Crowd Sourcing • Deduplication – Исследуются связи сущности с атрибутами во всем хранилище – Решается на основе кластеризации сущностей • Visualization
  • 61. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – Schema Integration 61/69
  • 62. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – Schema Integration 62/69
  • 63. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – Schema Integration 63/69
  • 64. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы DataTamer – Schema Integration 64/69
  • 65. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы Кластеризация сущностей 65/69
  • 66. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы Кластеризация сущностей 66/69
  • 67. ФГУП "НИИ "Квант" Нетрадиционные ETL- процессы Кластеризация сущностей 67/69
  • 68. ФГУП "НИИ "Квант" Заключение Итоги 68/69 • Практически в любой отрасли существует потребность в интеграция большего количества источников – лучшие аналитические выводы. Компании, освоившие технологии интеграции имеют большее конкурентное преимущество • Очистка данных играет значительную роль во всех отраслях связанных с анализом данных. Качество данных и их непротиворечивость неоднократно озвучивались как критерии успешности раскрытия ОД. • Активно развиваются как personal-, так и enterprise- решения по автоматизации очистки и интеграции
  • 69. Спасибо за внимание Карпов Илья karpovilia@gmail.com

Editor's Notes

  1. Получение – данные, как правило, берутся из стороннего источника Валидация – необходимо убедиться, что данные верны Трансформация – как правило прежде чем использовать данные, требуется сделать какие-то преобразования Очистка – и корректировка ошибок и пропусков в данных Консолидация – удаление дубликатов при объединении разнородных источников Визуализация - хотелось бы иметь предстваление того, что получилось <number>
  2. Интеграция – данные продаж и влияющих на них факторов должны быть собраны в единое хранилище для построения аналитики, улучшающей продажи Предсказание сезонности и востребованности товаров и организация закупок <number>
  3. Аналитик разрабатывает схему данных Программист разрабатывает набор методов для интеграции данных от нового источника в глобальное хранилище Какие данные есть, как они отображаются, Мск -> Москва и т.д. <number>
  4. <number>
  5. <number>
  6. <number>
  7. <number>
  8. <number>
  9. <number>
  10. <number>
  11. Фокусированный анализ – сравнительно небольшой исследовательский кейс потребовал месяца работы 2-х программистов по интеграции и очистки данных <number>
  12. <number>
  13. <number>
  14. <number>
  15. <number>
  16. <number>
  17. <number>
  18. <number>
  19. Есть собственная площадка Currently doing a large scale evaluation at Novartis – хим. фарма <number>
  20. Есть собственная площадка Currently doing a large scale evaluation at Novartis – хим. фарма <number>
  21. <number>
  22. <number>
  23. <number>
  24. <number>
  25. <number>
  26. <number>
  27. <number>
  28. <number>