тема 5 2
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,215
On Slideshare
1,215
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
10
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Дисциплина «Информационные технологии в экономике» Раздел 2. Технологии интеграции и хранения данных Тема  5 . Управление метаданными и модели данных ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ Балаш Максим Николаевич к.э.н., доцент Пермь, 20 11
  • 2. Содержание курса
      •  
      • Раздел 1. Место и роль современных информационных технологий и систем в управлении экономическими процессами
      • Раздел 2. Технологии интеграции и хранения данных
      • Раздел 3. Технологии обработки и анализа данных
      • Раздел 4. Технологии мониторинга и оценки эффективности экономических процессов
      • Раздел 5. Технологии информационной безопасности
      • Раздел 6. Проектирование информационных технологий и систем
      • Раздел 7. Стандарты по реализации ИТ - проектов
  • 3. Тезисы темы
        • Тема 5 . Управление метаданными и модели данных:
        • Метаданные ( Meta Data). Типы метаданных (бизнес, технические). Модель метаданных. Репозиторий. Подходы к управлению метаданными (централизованный, конфедеративный) . Спецификация CWM (Common Warehouse Metamodel).
        • Многомерная модель данных (факты, размерности, гиперкубы). Схемы представления многомерных моделей («звезда», «снежинка», «созвездие»).
        • Метамодель и инструменты ведения бизнес-показателей в хранилище данных (на примере Аналитического комплекса Прогноз-5).
  • 4. Понятие метаданных Метаданные (от греч. Meta и лат. Data), буквально переводится как «данные о данных», информация о другом наборе данных. Распространенные определения: Метаданные - это любые данные об информационных ресурсах организации. Метаданные - это описание информационного содержания хранилища данных: что в нем содержится, откуда что поступает, какие операции выполнялись во время очистки, как осуществлялись интеграция и обобщение. Метаданные - это структурированные, кодированные данные, которые описывают характеристики объектов - носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами. Метаданные - это данные о происхождении, хранении и использовании данных.
  • 5. Назначение метаданных
    • Создание и управление метаданными служит двум целям:
    • минимизация работ по разработке и администрированию автоматизированных систем;
    • повышение эффективности извлечения информации из хранилища данных.
    Минимизация работ по разработке и администрированию автоматизированных систем: № Назначение Комментарий 1 Поддержка интеграции систем Схемы и интеграция данных зависят от метаданных, описывающих структуру и смысл отдельных источников данных и целевых систем. Правила преобразования можно применить к исходным данным и хранить в качестве метаданных. 2 Поддержка анализа и проектирования новых приложений Метаданные повышают контролируемость и надежность процесса разработки приложений, обеспечивая информацию о смысле данных, их структуре и источниках. Более того, метаданные касающиеся решений по проектированию приложений, можно использовать повторно. 3 Повышение гибкости системы и возможности повторного использования существующих программных модулей Быстро изменяющиеся семантические аспекты явным образом хранятся в виде метаданных вне прикладных программ. Поддержка поэтому существенно проще. Систему можно расширить и адаптировать без всяких трудностей. Данный подход также дает возможность повторного использования «фрагментов кода». 4 Автоматизация административных процессов Метаданные управляют запуском различных процессов ХД (например, загрузки и обновления). Информация об их исполнении (журналы доступа, количество добавленных в ХД записей и т.п.) также содержится в репозитории, легко доступном администратору. 5 Усиление механизмов безопасности Метаданные должны обеспечить правила доступа и пользовательские права для всей системы ХД.
  • 6. Назначение метаданных Повышение эффективности извлечения информации из ХД: № Назначение Комментарий 1 Повышение качества данных
    • Качество данных определяется следующими характеристиками:
    • согласованностью (является ли представление данных однородным, нет ли дубликатов, данных с пересекающимися или конфликтующими определениями);
    • полнотой (все ли данные присутствуют);
    • точностью (совпадением хранимых и фактических значений);
    • своевременностью (актуально ли хранимое значение).
    • Правила проверки качества данных необходимо задать, сохранить в виде метаданных и проверять при каждом обновлении ХД. Метаданные обеспечивают информацию о времени создания и об авторе данных, об источнике, значении данных в момент получения (о наследовании данных), и о дальнейшем пути от источника к текущему местоположению. Таким образом пользователи могут восстановить цепочку, по которой проходят данные за время преобразования, и проверить точность возвращенной информации.
    2 Повышение качества запросов Метаданные обеспечивают сведения о значении данных и их связи с бизнес-контентом компании. Поэтому метаданные повышают качество выполняемых запросов за счет более точной и строгой формулировки, а также сокращают расходы на пользователей, которым необходимы доступ, оценка и применение соответствующей информации. 3 Улучшение анализа данных Методы анализа данных представлены широко — начиная от простых приложений отчетности и OLAP и заканчивая сложными приложениями data mining. В этом направлении метаданные необходимы для понимания предметной области и ее представления в ХД, с тем чтобы адекватно применить и интерпретировать результаты. 4 Применение общей терминологии и языка взаимодействия внутри компании Доступность метаданных как уникального источника документации для пользователей имеет и другие преимущества. Она гарантирует согласованные средства взаимодействия и интерпретации информации из ХД. А также устраняет двусмысленность и обеспечивает согласованность сведений внутри компании, позволяет разделять знания и опыт.
  • 7. Типы метаданных С точки зрения используемого программного продукта, в среде которого разрабатывается информационная система (или прикладная система), метаданные делятся на системные и прикладные. Системные метаданные встроены в программный продукт и поддерживаются его ядром. Если для функционирования информационной системы не хватает системных объектов используемого программного продукта, то разрабатываются прикладные метаданные . Бизнес-метаданные
    • служат в основном интересам пользователя;
    • к ним относятся: описания единиц информации предметной области (реквизитов, справочников, показателей) и связей между ними, бизнес-правила и алгоритмы, описания запросов и отчетов (оперативных, аналитических) и т.п.
    Технические метаданные
    • в основном используются службой администратора;
    • к ним относятся: сведения о процедурах извлечения, преобразования и загрузки данных, регламентах их выполнения, данные о структурах хранения, разграничения доступа и защите информации и т.п.
  • 8. Пример применения бизнес-метаданных в аналитической системе № Категория Комментарий Пример 1 Бизнес-метаданные
    • описывают решаемую задачу (предметную область) для того, чтобы аналитикам было удобно ориентироваться во всех данных системы
    • в терминах многомерного моделирования данных бизнес-метаданными являются описания показателей и измерений.
    описания показателей «Доход», «Количество проданной продукции», «Уровень удовлетворенности клиента» и измерения «Клиент», «Категория продукции», «Территориально-административное деление» и т.п. 2 Транзакционные ( фактографические ) данные
    • отражают оперативную деятельность компании, описывают бизнес-события и связанные с ними данные транзакций и отчетности
    • описывают количественное влияние событий на бизнес, а именно на бизнес-сущности, описываемые контекстными данными
    конкретные значения количества проданной продукции, полученной прибыли, уровня удовлетворенности клиента и т.п. 3 Контекстные данные
    • описывают внутренние или внешние по отношению к бизнесу сущности, участвующие в транзакциях и в отчетности в виде классификаторов, реестров и справочников
    • в многомерном моделировании такие данные называются элементами измерений
    конкретный клиент (скажем, ЗАО «Международная пивная компания»), продукт («банка пива 0,5 л алюминиевая»), единица территориального деления («Московский регион») и т.п.
  • 9. Роль метаданных в Хранилище данных (ХД) Архитектура ХД Роль метаданных в ХД Среда хранилища данных – это сложный конгломерат разнообразных инструментов и функций, реализующих непрерывный процесс создания, эксплуатации, постепенного расширения и изменения информационного склада.
  • 10. Способы использования метаданных в ХД № Способы использования Комментарий 1 Пассивный способ Обеспечение четкой документации о структуре, процессе разработки и использовании системы ХД. Доступная документация необходима всем участникам (т.е. конечным пользователям, системным администраторам, а также разработчикам приложений). 2 Активный способ Хранение конкретных семантических аспектов (например, правил преобразования) в виде метаданных, которые можно интерпретировать и использовать во время исполнения. В этом случае процессы Хранилища данных управляются метаданными. А следовательно, код (т.е. активные метаданные) и дополнительная документация согласованно и унифицировано управляются в одном репозитории, при этом актуальность документации возрастает. 3 Полуактивный способ Хранение статической информации (например, определений структур, спецификаций конфигураций), которую будет считывать другой программный компонент во время выполнения. Например, обработчикам запросов необходимы метаданные для проверки существования атрибутов. В отличие от активного использования, здесь метаданные только читаются, но не исполняются.
  • 11. Модели метаданных ХД
    • Трехмерная модель метаданных
    • Применяется для ХД и ИАС малого масштаба с одной предметной областью или небольшим их количеством.
    • Охватывает три размерности метаданных
    • Шестимерная модель метаданных (называется схемой Захмана)
    • Обеспечивает более детальный и строгий учет данных, сосредоточенных в ХД.
    • Отвечает на вопросы: что? где? когда? кто? почему? как?
    • Охватывает 6 размерностей
  • 12. Репозиторий и подходы к управлению метаданными Метаданные хранятся в специализированной базе данных - репозитории . Кроме хранения метаданных репозиторий обеспечивает ведение и управление метаданных. В настоящее время многие компании — поставщики ПО, прежде всего из числа поставщиков СУБД, разрабатывают и предлагают коммерческие варианты репозиториев метаданных для широкого спектра СУБД. Также разрабатываются системы управления метаданными (как системы управления документацией или компоненты крупных CASE-систем ( computer-aided software engineering — автоматизированное проектирование и создание программного обеспечения). Для управления метаданными выделяются два подхода:
    • централизованное управление метаданными
    - для построения системы создается интегрированный комплекс средств – своеобразный «конструктор» хранилищ данных.
    • конфедеративное управление метаданными
    - построение системы рассматривается как задача системной интеграции – объединения в одну систему изначально не связанных между собой программных продуктов (в том числе выпущенных различными производителями).
  • 13. Централизованное управление метаданными
  • 14. Конфедеративное управление метаданными
  • 15. Обмен метаданными на основе стандартной спецификации Common Warehouse Metamodel (Общая метамодель Хранилища данных, далее CWM) — это стандарт, который описывает обмен метаданными при использовании технологий Хранилищ данных, Business Intelligence, Knowledge Management (Управление знаниями).
  • 16. Многомерная модель данных В многомерной модели данные представляются в виде многомерного куба (в общем случае в виде гиперкуба), где измерения (атрибуты признаки) соответствуют осям куба, а показатели (атрибуты основания) - индивидуальным ячейкам куба. Например, если мы хотим анализировать объем продаж по товарам в зависимости от региона и времени, то в таком случае мы приходим к модели многомерной БД с тремя измерениями (товар, регион, месяц) и одним показателем - объемом продаж, ед. изм. Пример многомерного представления данных: Пример реляционного представления данных:
  • 17. Пример использования многомерной модели данных Многомерная модель позволяет делать плоские разрезы куба данных и поворачивать его нужной гранью любым удобным пользователю образом.
  • 18. Элементы многомерной модели данных
    • Содержание и назначение таблицы фактов
    • В многомерном пуле информации создается большая центральная таблица, называемая таблица факта ( fact table ).
    • В ней помещаются все данные относительно интересующего пользователя обобщающего показателя , то есть объекта или события, которые интересуют пользователя.
    • Таблицы фактов содержат числовые или качественные (содержательные) значения.
    • Рассматривают следующие виды фактов:
    • транзакционные факты ( transaction facts )
    • «моментальные снимки» ( Snapshot facts )
    • событие или состояние объекта ( Event or state facts )
    • Таблицы, наполняющие факт-таблицы содержанием называют таблицы размерности или таблицы измерений ( dimensional table ).
    • Содержат постоянные или редко и мало изменяемые данные .
    • Находятся в отношении «один ко многим» к таблице фактов.
    • Таблицы размерности являются родительскими по отношению к таблице факта. В случае наличия в таблице измерений иерархии в ней должны быть поля, указывающие на «предков» Их называют еще консольные таблицы ( outrigger table ). Они присоединяются к таблицам размерности и детализируют отдельные атрибуты. Консольные таблицы являются родительскими по отношению к таблицам размерности.
    • При разработке базы данных по схеме «звезда» или по другой многомерной схеме необходимо глубоко и тщательно проанализировать предметную область; поместить в центральную таблицу факта все характеризующие исследуемый объект данные, предварительно разработав систему признаков.
    • Консольные и таблицы размерности, а также таблица факта соединяются идентифицирующими связями. Первичные ключи родительских таблиц являются внешними ключами дочерних. Так, первичный ключ таблицы размерности является внешним ключом таблицы факта.
  • 19. Схемы представления многомерной модели данных Схема «звезда» - состоит только из таблиц размерности и таблицы факта. Физическое представление схемы «звезда» Логическое представление схемы «звезда»
  • 20. Развитием схемы «звезда» является схема «снежинка» ( snowflake schema ). Ее отличает от первой схемы наличие подчиненных таблиц при описании размерностей для реализации нескольких уровней иерархии. Логическое представление схемы «снежинка» Физическое представление схемы «снежинка» Схемы представления многомерной модели данных
  • 21. Схемы представления многомерной модели данных Логическое представление схемы «созвездие» Физическое представление схемы «созвездие» Объединением схем «звезда» и «снежинка» является схема «созвездие»
  • 22. Литература
    • Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. от концепции до внедрения. – М.: Диалог-Мифи, 2002. – 528 с.
    • Белов В.С. Информационно-аналитические системы. Основы проектирования и применения: учебное пособие, руководство, практикум/ Московский государственный университет экономики, статистики и информатики – М., 2004. – 116 с.
    • Спирли Э. Корпоративные хранилища данных. Планирование, разработка, рализация. Том. 1.: Пер. с англ. – М.: Издательский дом «Вильямс», 2001. – 400 с.
    • Шовкун А. Как повысить прозрачность аналитических систем и снизить их TCO // Директор ИС – 2005. №5 /// http://www.osp.ru/cio/2005/05/173983/
    • Intrsoft Lab. Метаданные и их место в Хранилище. Представление метаданных с помощью XML // CitCity – 2006 /// http://citcity.ru/12540/
    • Дубова Н. Устройство и назначение хранилищ данных // Открытые системы – 1998. №4 /// http://www.osp.ru/os/1998/04/179552/_p1.html
    • Intrsoft Lab. Спецификация "Общая метамодель Хранилища данных" - Common Warehouse Metamodel (CWM) // ЖУРНАЛ КЛУБА ЗНАТОКОВ DWH, OLAP, XML №21 /// http://www.iso.ru/cgi-bin/main/journal.cgi?do_what=details&id=229