3. ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Хранилища данных
3/69
• Интеграция данных из разнородных источников началась в 90–х,
когда крупными торговыми площадками разрабатывались
хранилища данных
• В среднем x2 превышение бюджета и x2 превышение сроков
• Окупаемость в течении 6 месяцев за счет более оптимальных
решений
4. ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Традиционный подход к ETL
4/69
• Разработка единой схемы данных
• Интеграция источника данных
– Исследование
– Маппинг структур в единую схему данных
– Методы очистки и преобразования
• Масштабирование до 25 источников
13. ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Примеры
13/69
• РИНЦ
– 4-е место в списке самых цитируемых специалистов по автоматике и
вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН)
– 33 публикации, которые цитируются 5289 раз.
– При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу
Тимошенко эмигрировавшему в США в 1922 году.
http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/
• Фокусированный анализ
– Linkedln 10 000 персон и 2892 организаций. В финальную сеть было
включено 510 персон и 445 организаций.
– GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было
включено 319.
– Страницы организаций (места работы, университеты) около 100.
https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf
14. ФГУП "НИИ "Квант"
Традиционные ETL-процессы Примеры (2)
14/69
CIT
CalTech
Cal Tech
US Senate
United States Senate
Senate of the United States of America
United States Senate Committee on
Commerce
US Senator John D. Rockefeller
Office of U.S. Senator George S. LeMieux
United States Senate - Office of Senator
Claire McCaskill
16. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Некоторые проекты
16/69
• Paxata
• Trifacta (commercial Data Wrangler)
• Cambridge Semantics
• Data Tamer
• ClearStory
• Attivio
• Google - Refine (OpenRefine)
17. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataWrangler
17/69
• Быстрая трансформация и ручная фильтрация данных
• От пользователя не требуется знаний программирования
http://vis.stanford.edu/wrangler/
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer
56/69
• Обработка “длинного хвоста”
• Использование машинного обучение и статистики
• Краудсорсинг для случаев, в которых вероятность корректной
обработки невысока
57. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
57/69
• Загрузка данных в хранилище:
– csv – набор записей вида атрибут-значение
– Хранение в Postgres
• Schema Integration
• Crowd Sourcing
• Deduplication
• Visualization
58. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
58/69
• Загрузка данных в хранилище
• Schema Integration:
– предопределенная глобальная схема может отсутствовать
– использование шаблонов и внешних источников
– текстовый анализ названий
– статистика и машинное обучение
• Crowd Sourcing
• Deduplication
• Visualization
59. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
59/69
• Загрузка данных в хранилище
• Schema Integration
• Crowd Sourcing:
– Использует иерархию экспертов
– Можно добавить специализацию
– Предложено ранжирование компетентности
• Deduplication
• Visualization
60. ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
60/69
• Загрузка данных в хранилище
• Schema Integration
• Crowd Sourcing
• Deduplication
– Исследуются связи сущности с атрибутами во всем хранилище
– Решается на основе кластеризации сущностей
• Visualization
68. ФГУП "НИИ "Квант"
Заключение Итоги
68/69
• Практически в любой отрасли существует потребность в
интеграция большего количества источников – лучшие
аналитические выводы. Компании, освоившие технологии
интеграции имеют большее конкурентное преимущество
• Очистка данных играет значительную роль во всех отраслях
связанных с анализом данных. Качество данных и их
непротиворечивость неоднократно озвучивались как критерии
успешности раскрытия ОД.
• Активно развиваются как personal-, так и enterprise- решения по
автоматизации очистки и интеграции
Получение – данные, как правило, берутся из стороннего источника
Валидация – необходимо убедиться, что данные верны
Трансформация – как правило прежде чем использовать данные, требуется сделать какие-то преобразования
Очистка – и корректировка ошибок и пропусков в данных
Консолидация – удаление дубликатов при объединении разнородных источников
Визуализация - хотелось бы иметь предстваление того, что получилось
<number>
Интеграция – данные продаж и влияющих на них факторов должны быть собраны в единое хранилище для построения аналитики, улучшающей продажи
Предсказание сезонности и востребованности товаров и организация закупок
<number>
Аналитик разрабатывает схему данных
Программист разрабатывает набор методов для интеграции данных от нового источника в глобальное хранилище
Какие данные есть, как они отображаются, Мск -> Москва и т.д.
<number>
<number>
<number>
<number>
<number>
<number>
<number>
<number>
Фокусированный анализ – сравнительно небольшой исследовательский кейс потребовал месяца работы 2-х программистов по интеграции и очистки данных
<number>
<number>
<number>
<number>
<number>
<number>
<number>
<number>
Есть собственная площадка
Currently doing a large scale evaluation at Novartis – хим. фарма
<number>
Есть собственная площадка
Currently doing a large scale evaluation at Novartis – хим. фарма
<number>