Знакомство с виртуализацией данных для профессионалов в области данных
тема 5
1. Дисциплина «Информационные технологии в экономике» Раздел 2. Технологии интеграции и хранения данных Тема 5 . Управление метаданными и модели данных ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ Балаш Максим Николаевич к.э.н., доцент Пермь, 200 9
2.
3.
4.
5.
6.
7.
8.
9. Роль метаданных в Хранилище данных (ХД) Архитектура ХД Роль метаданных в ХД Среда хранилища данных – это сложный конгломерат разнообразных инструментов и функций, реализующих непрерывный процесс создания, эксплуатации, постепенного расширения и изменения информационного склада. Метаданные обеспечивают взаимосвязь программ доступа к источникам данных, инструментов трансформации оперативных и внешних данных, средств управления хранилищем для преобразования данных в информацию для конечного пользователя .
10. Способы использования метаданных в ХД Хранение статической информации (например, определений структур, спецификаций конфигураций), которую будет считывать другой программный компонент во время выполнения. Например, обработчикам запросов необходимы метаданные для проверки существования атрибутов. В отличие от активного использования, здесь метаданные только читаются, но не исполняются. Полуактивный способ 3 Хранение конкретных семантических аспектов (например, правил преобразования) в виде метаданных, которые можно интерпретировать и использовать во время исполнения. В этом случае процессы Хранилища данных управляются метаданными. А следовательно, код (т.е. активные метаданные) и дополнительная документация согласованно и унифицировано управляются в одном репозитории, при этом актуальность документации возрастает. Активный способ 2 Обеспечение четкой документации о структуре, процессе разработки и использовании системы ХД. Доступная документация необходима всем участникам (т.е. конечным пользователям, системным администраторам, а также разработчикам приложений). Пассивный способ 1 Комментарий Способы использования №
11.
12.
13.
14.
15.
16.
17.
18.
19.
20. Централизованное управление метаданными Закрытость решения с точки зрения возможного состава: система должна строиться из продуктов одного производителя, тесно интегрированных между собой. Недостатки Максимально короткий срок развертывания корпоративной информационно-аналитической системы и высокая производительность при операциях с метаданными. Преимущества Предлагается набор средств и инструментов для реализации системы, в состав которых входит специализированный репозиторий метаданных. Все метаданные хранятся и обрабатываются в центральном репозитории, а остальные компоненты не имеют своих метаданных и работают непосредственно с центральным репозиторием. Описание
21. Конфедеративное управление метаданными Необходимость взаимодействия общих и локальных метаданных может осложнить описание и снизить производительность системы. Общие метаданные не могут быть изменены в локальном репозитории, а могут быть только дополнены локальными метаданными, что не гибко при развитии функциональности. Недостатки Возможность использования решений различных производителей, что позволяет построить систему на основе лучших в своем классе продуктов. Преимущества Общие для компонентов системы метаданные ведутся в специально выделенном репозитории и затем передаются в компоненты, которые имеют собственные репозитории метаданных. Подход назван конфедеративным, поскольку централизованно ведутся только общие метаданные, а локальные порождаются лишь в тех программных продуктах/инструментах, в которых они имеют смысл и могут быть использованы. Описание
22. Обмен метаданными на основе стандартной спецификации Спецификация Common Warehouse Metamodel (Общая метамодель Хранилища данных, далее CWM) — это стандарт, который описывает обмен метаданными при использовании технологий Хранилищ данных, Business Intelligence, Knowledge Management (Управление знаниями). Опираясь на базовую метамодель, стандарт добавляет метамодели для реляционных, многомерных данных, а также для преобразования, функций OLAP, data mining и Хранилища данных, включая процессы и операции. Пример представления модели метаданных в формате XML :
23. Многомерная модель данных В многомерной модели данные представляются в виде многомерного куба (в общем случае в виде гиперкуба), где измерения (атрибуты признаки) соответствуют осям куба, а показатели (атрибуты основания) - индивидуальным ячейкам куба. Например, если мы хотим анализировать объем продаж по товарам в зависимости от региона и времени, то в таком случае мы приходим к модели многомерной БД с тремя измерениями (товар, регион, месяц) и одним показателем - объемом продаж, ед. изм. Пример многомерного представления данных: Пример реляционного представления данных:
24. Пример использования многомерной модели данных Многомерная модель позволяет делать плоские разрезы куба данных и поворачивать его нужной гранью любым удобным нам образом.
25.
26.
27. Схемы представления многомерной модели данных Схема «звезда» - состоит только из таблиц размерности и таблицы факта. Физическое представление схемы «звезда» Логическое представление схемы «звезда»
28. Схемы представления многомерной модели данных Развитием схемы «звезда» является схема «снежинка» ( snowflake schema ). Ее отличает от первой схемы наличие подчиненных таблиц при описании размерностей для реализации нескольких уровней иерархии. Логическое представление схемы «снежинка» Физическое представление схемы «снежинка»
29. Схемы представления многомерной модели данных Логическое представление схемы «созвездие» Физическое представление схемы «созвездие» Объединением схем «звезда» и «снежинка» является схема «созвездие»
30.
31. Метамодель и инструменты ведения бизнес-показателей в ХД (на примере Аналитического комплекса Прогноз-5)