тема 4

2,166 views
2,068 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,166
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
18
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

тема 4

  1. 1. Дисциплина «Информационные технологии в экономике» Раздел 2. Технологии интеграции и хранения данных Тема 4. Концепция хранилищ данных ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ Балаш Максим Николаевич к.э.н., доцент Пермь, 200 9
  2. 2. Содержание курса (1 семестр) <ul><ul><li>  </li></ul></ul><ul><ul><li>Раздел 1. Место и роль современных информационных технологий и систем в управлении экономическими процессами </li></ul></ul><ul><ul><li>Раздел 2. Технологии интеграции и хранения данных </li></ul></ul><ul><ul><li>Раздел 3. Технологии обработки и анализа данных </li></ul></ul><ul><ul><li>Раздел 4. Технологии мониторинга и оценки эффективности экономических процессов </li></ul></ul><ul><ul><li>Раздел 5. Технологии информационной безопасности </li></ul></ul><ul><ul><li>Раздел 6. Проектирование информационных технологий и систем </li></ul></ul><ul><ul><li>Раздел 7. Стандарты по реализации ИТ - проектов </li></ul></ul>
  3. 3. Тезисы темы <ul><ul><ul><li>Тема 4 . Концепция хранилищ данных: </li></ul></ul></ul><ul><ul><ul><li>Процесс накопления данных. Введение в базы данных (файловые системы, базы данных, модели баз данных). Системы управления базами данных (СУБД). Понятие транзакции. Системы класса OLTP (On-Line Transaction Processing). </li></ul></ul></ul><ul><ul><ul><li>Хранилища данных (DWH, Data Warehouse) и их сравнение с OLTP -системами. Архитектура хранилища данных. Информационные потоки в хранилище данных. Подходы к организации хранилища данных (централизованный, распределенный, в виде витрин данных). </li></ul></ul></ul><ul><ul><ul><li>Банки данных, единое информационное пространство. </li></ul></ul></ul>
  4. 4. Понятие данных <ul><li>Автоматизированные информационные процессы оперируют машинным представлением информации – данными . </li></ul><ul><li>Прежде чем превратиться в данные, информация должна быть сначала собрана, соответствующим образом подготовлена и только после этого введена в ЭВМ, представ в виде данных на машинных носителях информации. </li></ul>После преобразования информации в машинную форму ее семантический и прагматический аспекты как бы уходят в тень, и дальнейшая обработка информации происходит по &quot;машинным законам&quot;, одинаковым для информации любого смыслового содержания. Информация в машинном виде, т. е. в форме электрических, магнитных и тому подобных сигналов и состояний, носит название данных . Для того чтобы понять их смысловое содержание, необходимо данные снова преобразовать в информацию Системный блок ЭВМ Устройство вывода Устройство ввода Данные Данные Информация Информация Объект управления Сбор информации Подготовка и контроль Ввод информации Данные Поток осведомляющей информации
  5. 5. Процесс накопления данных Назначение технологического процесса накопления данных состоит в создании, хранении и поддержании в актуальном состоянии информационного фонда, необходимого для выполнения функциональных задач системы управления, для которой построен контур информационной технологии. Процесс накопления данных состоит из ряда основных процедур, таких, как выбор хранимых данных, хранение данных, их актуализация и извлечение . Логический (модельный) уровень процесса накопления связан с физическим через программы, осуществляющие создание канонической структуры БД, схемы ее хранения и работу с данными. Программа извлечения ПИ Программа актуализации ПА Программа создания структуры хранения БД ПС Программа создания канонической структуры БД ПКС
  6. 6. Процесс накопления данных. Выбор хранимых данных Информационный фонд систем управления должен формироваться на основе принципов необходимой полноты и минимальной избыточности хранимой информации. Эти принципы реализуются процедурой выбора хранимых данных , в процессе выполнения которой производится анализ циркулирующих в системе данных и на основе их группировки на входные, промежуточные и выходные определяется состав хранимых данных. Входные данные - это данные, получаемые из первичной информации и создающие информационный образ предметной области. Они подлежат хранению в первую очередь. Промежуточные данные - это данные, формирующиеся из других данных при алгоритмических преобразованиях. Как правило, они не хранятся, но накладывают ограничения на емкость оперативной памяти компьютера. Выходные данные являются результатом обработки первичных (входных) данных по соответствующей модели, они входят в состав управляющего информационного потока своего уровня и подлежат хранению в определенном временном интервале. Вообще, данные имеют свой жизненный цикл существования, который фактически и отображается в процедурах процесса накопления.
  7. 7. Процесс накопления данных. Хранение, актуализация и извлечение данных Процедура хранения данных состоит в том, чтобы сформировать и поддерживать структуру хранения данных в памяти ЭВМ . Современные структуры хранения данных должны быть независимы от программ, использующих эти данные, и реализовывать вышеуказанные принципы (полнота и минимальная избыточность). Такие структуры получили название баз данных . Процедура актуализации данных позволяет изменить значения данных, записанных в базе, либо дополнить определенный раздел, группу данных. Устаревшие данные могут быть удалены с помощью соответствующей операции. Процедура извлечения данных необходима для пересылки из базы данных требующихся данных либо для преобразования , либо для отображения , либо для передачи по вычислительной сети. При выполнении процедур актуализации и извлечения обязательно выполняются операции поиска данных по заданным признакам и их сортировки , состоящие в изменении порядка расположения данных при хранении или извлечении. Осуществление процедур создания структуры хранения (базы данных), актуализации, извлечения и удаления данных производится с помощью специальных программ, называемых системами управления базами данных.
  8. 8. Введение в базы данных. Файловые системы <ul><li>Базам данным предшествовали файловые системы. </li></ul><ul><li>Файловые системы - набор программ, которые выполняют для пользователей некоторые операции, например создание отчетов. При этом каждая программа определяет свои собственные данные и управляет ими. </li></ul><ul><li>Файловые системы были первой попыткой компьютеризировать ручные картотеки. </li></ul><ul><li>Ограничения, присущие файловым системам: </li></ul><ul><li>Разделение и изоляция данных. </li></ul><ul><li>Дублирование данных. </li></ul><ul><li>Зависимость от данных. </li></ul><ul><li>Несовместимость файлов. </li></ul><ul><li>Фиксированные запросы/быстрое увеличение количества приложений. </li></ul>
  9. 9. Базы данных База данных – совместно используемый набор логически связанных данных (и описание этих данных), предназначенный для удовлетворения информационных потребностей организации. <ul><li>Признаки баз данных - </li></ul><ul><li>Это единое, большое информационное хранилище, которое однократно определяется, а затем используется одновременно многими пользователями. </li></ul><ul><li>Все данные собраны вместе с минимальной долей избыточности (в отличии от разрозненных файлов с избыточными данным). </li></ul><ul><li>Хранит не только рабочие данные, но и их описания. По этой причине базу данных еще называют набором интегрированных записей с самоописанием. </li></ul><ul><li>Основные характеристики баз данных : </li></ul><ul><li>использование для большого количества приложений – упрощает реализацию комплексных запросов, снижает избыточность хранимых данных и повышает эффективность использования информационной технологии; </li></ul><ul><li>минимальная избыточность – позволяют поддерживать данные на одинаковом уровне актуальности; </li></ul><ul><li>общий управляемый способ поиска – возможность быстрого получения и модификации необходимой информации; </li></ul><ul><li>независимость от прикладных программ – изменение данных не приводит к изменению прикладных программ и наоборот . </li></ul>
  10. 10. Модели баз данных Модели баз данных базируются на предположении, что структуры данных обладают относительной устойчивостью. Поэтому возможно построение базы данных с постоянной структурой и изменяемыми значениями данных. Выделяются следующие основные модели баз данных: Представляет данные в виде объектов, объединяющих в себе данные, представляющие атрибуты (свойства, характеристики), и функции (методы), использующие и обрабатывающие эти данные. Объектная модель 4. Представляет данные в виде двумерных таблиц и связей (отношений) между ними. Реляционная модель 3. Представляет данные в виде диаграммы связей между основным и зависимым объектами (без ограничения на число обратных связей). Сетевая модель 2. Представляет данные в виде древовидного графа, в котором объекты располагаются по уровням соподчиненности (иерархии) объектов. Иерархическая модель 1. Краткая характеристика модели Название модели баз данных № п/п
  11. 11. Иерархическая модель базы данных Иерархическая модель представляет данные в виде древовидного графа, в котором объекты располагаются по уровням соподчиненности (иерархии) объектов. <ul><li>Достоинство иерархической модели данных состоит в том, что она позволяет описать их структуру как на логическом, так и на физическом уровне. </li></ul><ul><li>Недостатками данной модели являются жесткая фиксированность взаимосвязей между элементами данных, вследствие чего любые изменения связей требуют изменения структуры, а также жесткая зависимость физической и логической организации данных. Быстрота доступа в иерархической модели достигнута за счет потери информационной гибкости (за один проход по дереву невозможно, например, получить информацию о том, какие поставщики поставляют, скажем, товар Т1). </li></ul>Пример: на верхнем, первом уровне находится информация об объекте &quot;поставщики&quot; (П), на втором - о конкретных поставщиках П1, П2, и П3, на нижнем, третьем, уровне - о товарах, которые могут поставлять конкретные поставщики. <ul><li>Правила иерархической модели: </li></ul><ul><li>каждый порожденный узел не может иметь больше одного порождающего узла (только одна входящая стрелка); </li></ul><ul><li>в структуре может быть только один непорожденный узел (без входящей стрелки) – корень; </li></ul><ul><li>узлы, не имеющие выходных стрелок, носят название листьев. Для поиска необходимой записи нужно двигаться от корня к листьям, т.е. сверху вниз. </li></ul>
  12. 12. Сетевая модель базы данных Сетевая модель представляет данные в виде диаграммы связей между основным и зависимым объектами. <ul><li>Достоинство сетевой модели БД - большая информационная гибкость по сравнению с иерархической моделью. </li></ul><ul><li>Однако сохраняется общий для обеих моделей недостаток - достаточно жесткая структура, что препятствует развитию системы управления при необходимости частой реорганизации информационной базы. </li></ul>Пример: на диаграмме указаны независимые (основные) типы данных П1, П2 и П3, т.е. информация о поставщиках, и зависимые - информация о товарах Т1, Т2 и Т3 <ul><li>Правила сетевой модели: </li></ul><ul><li>в сетевой модели допустимы любые связи; </li></ul><ul><li>между записями отсутствует ограничение на число обратных связей; </li></ul><ul><li>но должно соблюдаться одно правило: связь включает основную и зависимую записи. </li></ul>
  13. 13. Реляционная модель базы данных В реляционной модели базы данных отсутствуют различия между объектами и взаимосвязями. Данные представляются в виде двумерных таблиц и связей (отношений) между ними – тоже в виде таблиц. <ul><li>Преимуществами реляционной модели БД являются: </li></ul><ul><li>простота логической модели (таблицы привычны для представления информации); </li></ul><ul><li>гибкость системы защиты (для каждого отношения может быть задана правомерность доступа); </li></ul><ul><li>возможность построения простого языка манипулирования данными с помощью математически строгой теории реляционной алгебры (алгебры отношений). </li></ul>Наличие строгого математического аппарата для реляционной модели баз данных и обусловило ее наибольшее распространение и перспективность в современных информационных технологиях.
  14. 14. Объектная модель базы данных Объект - достаточно крупный блок функционально взаимосвязанных данных, при извлечении которого из БД включаются функции обработки и/или отображения данных, входящие в состав объекта. Типы и структуры данных, из которых состоит объект, могут быть различными у разных объектов и создаваться самим программистом на основе стандартных типов данных используемого языка программирования. Создаваемые и описываемые программистом типы данных получили название абстрактных типов данных. Свойство - это характеристика, с помощью которой описывается внешний вид и работа объекта. Событие - это действие, которое связано с объектом. Событие может быть вызвано пользователем (щелчок мышью), инициировано прикладной программой или операционной системой. Метод - это функция или процедура, управляющая работой объекта при его реакции на событие. Объектная модель представляет данные в виде объектов, объединяющих в себе данные, представляющие атрибуты (свойства, характеристики), и функции (методы), использующие и обрабатывающие эти данные.
  15. 15. Системы управления базами данных Система управления базами данных (СУБД) - программное обеспечение, с помощью которого пользователи могут создавать и поддерживать (актуализировать) базу данных, а также осуществлять к ней контролируемый доступ. СУБД обеспечивает взаимодействие прикладных программам пользователя с базой данных. <ul><li>СУБД содержит в своем составе программные средства создания баз данных, средства работы с данными и дополнительные, сервисные средства. </li></ul><ul><li>С помощью средств создания БД проектировщик, используя язык описания данных (ЯОД), переводит логическую модель БД в физическую структуру, а на языке манипуляции данными (ЯМД) разрабатывает программы, реализующие основные операции с данными (в реляционных БД - это реляционные операции). </li></ul><ul><li>При проектировании привлекаются визуальные средства и программа-отладчик, с помощью которой соединяются и тестируются отдельные блоки разработанной программы управления конкретной БД. </li></ul>
  16. 16. Функции СУБД <ul><li>СУБД должна предоставлять вспомогательные службы: </li></ul><ul><li>утилиты импорта и экспорта; </li></ul><ul><li>средства мониторинга характеристик функционирования и производительности; </li></ul><ul><li>и другие </li></ul>Вспомогательные службы 10 СУБД должна обладать инструментами поддержки независимости программ от фактической структуры базы данных Службы поддержки независимости от данных 9 СУБД должна обладать инструментами контроля за тем, чтобы данные и их изменения соответствовали заданным правилам. Службы поддержки целостности данных 8 СУБД должна обладать способностью к интеграции с коммуникационным программным обеспечением. Поддержка обмена данными 7 СУБД должна иметь механизм, гарантирующий возможность доступа к базе данных только санкционированных пользователей. Сервисы контроля доступа к данным 6 СУБД должна предоставлять средства по восстановлению базы данных на случай какого-либо ее повреждения или разрушения. Сервисы восстановления 5 СУБД должна иметь механизм, который гарантирует корректное обновление базы данных при параллельном выполнении операций обновления многими пользователями. Сервисы управления параллельностью 4 СУБД должна иметь механизм, который гарантирует выполнение либо всех операций обновления данной транзакции, либо ни одной из них. Поддержка транзакций 3 СУБД должна иметь доступный конечным пользователям каталог, в котором хранится описание элементов данных. Каталог, доступный конечным пользователям 2 СУБД должна предоставлять пользователям возможность сохранять, извлекать и обновлять данные в базе данных. Хранение, извлечение и обновление данных 1 Описание Функция №
  17. 17. Понятие транзакции Транзакция - это последовательность операторов манипулирования данными, выполняющаяся как единое целое и переводящая базу данных из одного целостного состояния в другое целостное состояние. Транзакция обладает четырьмя важными свойствами, известными как свойства АСИД: Если транзакция выполнена, то результаты ее работы должны сохраниться в базе данных, даже если в следующий момент произойдет сбой системы. Долговечность 4 Транзакции разных пользователей не должны мешать друг другу (например, как если бы они выполнялись строго по очереди). Изоляция 3 Транзакция переводит базу данных из одного согласованного (целостного) состояния в другое согласованное (целостное) состояние. Внутри транзакции согласованность базы данных может нарушаться. Согласованность 2 Транзакция выполняется как атомарная операция - либо выполняется вся транзакция целиком, либо она целиком не выполняется. Атомарность 1 Описание Свойство №
  18. 18. Системы класса OLTP (On-Line Transaction Processing) OLTP ( Online Transaction Processing ) — онлайновая обработка транзакций. OLTP-системы предназначены для ввода, структурированного хранения и обработки информации (операций, документов) в режиме реального времени и обслуживают в первую очередь текущую, повседневную деятельность отдельных подразделений компании: склад, бухгалтерию, кадры и пр. OLTP-системы, как правило, автоматизируют структурированные, повторяющиеся задачи обработки данных, такие как ввод заказов и банковские транзакции. <ul><li>Характеристики OLTP -систем: </li></ul><ul><li>Проектируются, настраиваются и оптимизируются для выполнения максимального количества транзакций за короткие промежутки времени. </li></ul><ul><li>Относительно простые алгоритмически, чаще всего используется фиксированный набор надежных и безопасных методов ввода, модификации, удаления данных и выпуска оперативной отчетности. </li></ul><ul><li>Относительно невысокая компьютерная квалификацией персонала (пользователей). </li></ul><ul><li>Малое время отклика на запрос. </li></ul><ul><li>Относительно короткие запросы, участие в запросах небольшого числа таблиц. </li></ul><ul><li>Показателем эффективности является количество транзакций, выполняемых за секунду. </li></ul><ul><li>Обычно аналитические возможности OLTP-систем сильно ограничены (либо вообще отсутствуют). </li></ul>
  19. 19. Хранилища данных ( Data Warehouse ) Хранилище данных — предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют прежние, а лишь дополняют их. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией. Неизменяемость 4 Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому моменту или промежутку времени. Привязанность хранилища данных ко времени следует из большой длительности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор моментальных снимков состояния данных. Привязка ко времени 3 Оперативно-прикладные данные обычно поступают из разных источников, которые часто имеют несогласованное представление одних и тех же данных, например, используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации. Интегрированность 2 Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и продажи), а не вокруг прикладных областей деятельности (выписка счета клиенту, контроль товарных запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для поддержки принятия решений, а не обычных оперативно-прикладных данных. Предметная ориентированность 1 Комментарий Характеристика №
  20. 20. Сравнение OLTP -систем и хранилищ данных Обслуживает работников руководящего звена Обслуживает работников исполнительного звена Поддержка принятия стратегических решений Поддержка принятия повседневных решений Нерегламентированный и неструктурированный способ обработки данных Повторяющийся способ обработки данных Средняя и низкая интенсивность обработки транзакций Высокая интенсивность обработки транзакций Предназначена для проведения анализа Предназначена для обработки транзакций Непредсказуемый способ использования данных Предсказуемый способ использования данных Ориентирована на предметные области Ориентирована на прикладные области Хранит подробные сведения, а также частично и значительно обобщенные данные Хранит подробные сведения Содержит исторические, текущие и прогнозные данные Содержит текущие данные Аналитическая система на основе хранилища данных OLTP-система
  21. 21. Архитектура хранилищ данных
  22. 22. Архитектура хранилищ данных <ul><li>Менеджер хранилища </li></ul><ul><li>Менеджер хранилища ( warehouse manager ) выполняет все операции, связанные с управлением информацией, помещенной в хранилище данных. </li></ul><ul><li>Этот компонент может включать программы собственной разработки и инструменты, предоставлении сторонними фирмами. </li></ul><ul><li>Менеджер хранилища выполняет такие операции, как: </li></ul><ul><li>Управление объектами хранилища данных (таблицами, индексами, представлениями, процедурами и др.). </li></ul><ul><li>Анализ непротиворечивости данных. </li></ul><ul><li>Преобразование и перемещение исходных данных из временного хранилища в основные таблицы хранилища данных. </li></ul><ul><li>Обобщение данных (в случае необходимости). </li></ul><ul><li>Резервное копирование и архивирование данных. </li></ul>
  23. 23. Архитектура хранилищ данных Менеджер загрузки Менеджер загрузки (load manager ), который часто называют внешним ( front-end ) компонентом, выполняет все операции, связанные с извлечением и загрузкой данных хранилище. Эти операции включают преобразования данных, необходимостью для их подготовки к вводу в хранилище. Размеры и сложность данного компонента могут варьироваться в значительной степени, поскольку в его состав обычно входят не только программы собственной разработки, но и инструменты, созданные сторонними поставщиками. Менеджер запросов Менеджер запросов ( query manager ), который часто называют внутренним ( back-end ) компонентом, выполняет все операции, связанные с управлением пользовательскими запросами. Этот компонент обычно создается на базе предоставляемых разработчиком СУБД инструментов доступа к данным, инструментов мониторинга хранилища и программ собственной разработки, использующих весь набор функциональных возможностей СУБД. К числу выполняемых этим компонентом операций относятся управление запросами к соответствующим таблицам и составление графиков выполнения этих запросов.
  24. 24. Архитектура хранилищ данных Детальные данные В этой части хранилища данных хранятся все детальные данные. Как правило, детальные данные периодически добавляются в хранилище с автоматическим выполнением обобщения исходной информации до необходимого уровня. Частично и глубоко обобщенные данные B этой области хранилища размещаются все данные, предварительно обработанные менеджером хранилища с целью их частичного или глубокого обобщения ( aggregate ). Назначение обобщенных данных состоит в повышении производительности запросов. Хотя предварительное обобщение информации связано с некоторым повышением расходов на обслуживание, однако эти дополнительные затраты компенсируются за счет исключения необходимости многократно выполнять обобщающие операции (например, сортировку или группирование) при обработке каждого из запросов пользователей. Хранимые обобщенные данные обновляются по мере загрузки новых порций детальных данных в хранилище. Архивные и резервные копии Этот компонент хранилища данных отвечает за подготовку детальной и обобщенной информации к помещению в резервные и архивные копии. Хотя обобщенные данные генерируются на основе детальных, может потребоваться помещать в резервную заранее обобщенные данные, если предполагаемый период их хранения превышает срок хранения тех детальных данных, на основе которых они были созданы. Как правило, резервные и архивные копии размещаются на таких носителях, как магнитная лента или оптический диск. Метаданные Метаданные — это описание информационного содержания хранилища данных: что в нем содержится, откуда что поступает, какие операции выполнялись во время очистки, как осуществлялись интеграция и обобщение. Средства доступа конечных пользователей к данным используют метаданные для выбора способа построения запроса.
  25. 25. Информационные потоки в хранилище данных
  26. 26. Архитектура хранилищ данных <ul><li>Входной поток - процессы, связанные с извлечением, очисткой и загрузкой информации из источников данных в хранилище данных. </li></ul><ul><li>Поскольку исходные данные генерируются преимущественно OLTP-системами, эти данные должны быть перестроены в соответствии с требованиями хранилища данных. Перестройка данных включает такие операции, как: </li></ul><ul><li>очистка данных; </li></ul><ul><li>преобразование данных в соответствии с требованиями хранилища данных; </li></ul><ul><li>проверка внутренней непротиворечивости данных и их непротиворечивости по отношению к данным, уже загруженным в хранилище. </li></ul><ul><li>Непосредственно после извлечения из источника данные обычно загружаются во временное хранилище с целью выполнения очистки и проверки непротиворечивости. </li></ul>
  27. 27. Архитектура хранилищ данных <ul><li>Восходящий поток - процессы, связанные с повышением ценности сохраняемых в хранилище данных посредством обобщения, упаковки и распределения исходных данных. </li></ul><ul><li>Обслуживание восходящего потока включает выполнение приведенных ниже действий. </li></ul><ul><li>Обобщение данных посредством операций выборки, проекции, соединения и группирования связанных данных, выполняемое для получения более удобных и полезных для пользователей представлений информации. Обобщение может включать выполнение не только простых реляционных операций, но и проведение сложного статистического анализа, включая вычисление трендов, кластеризацию и подбор типичных значений. </li></ul><ul><li>Упаковка данных с преобразованием подробных исходных или обобщенных данных в более удобный формат представления, например в виде электронных таблиц, текстовых документов, диаграмм, других графических представлений, закрытых баз данных и анимированных материалов. </li></ul><ul><li>Распределение исходных данных на соответствующие группы для повышения их подготовленности к использованию и доступности. </li></ul>
  28. 28. Архитектура хранилищ данных Нисходящий поток - процессы, связанные с архивированием и резервным копированием информации в хранилище данных. Архивирование устаревших данных играет важную роль при обеспечении высокой эффективности и производительности хранилища данных за счет переноса устаревших данных с ограниченной ценностью на архивный носитель, например магнитную ленту или оптические диски. Однако если схема секционирования базы данных выполнена правильно, то общее количество оперативных данных не должно влиять на производительность хранилища данных. Нисходящий поток информации включает процедуры, обеспечивающие возможность восстановления текущего состояния хранилища в случае потери данных из-за сбоев в программном или аппаратном обеспечении. Архивные данные следует хранить таким образом, чтобы в случае необходимости они снова могли быть восстановлены в хранилище данных.
  29. 29. Архитектура хранилищ данных <ul><li>Выходной поток - процессы, связанные с предоставлением данных пользователям. </li></ul><ul><li>В качестве основных действий, связанных с выходным потоком, следует упомянуть следующие. </li></ul><ul><li>Доступ к данным означает удовлетворение запросов конечных пользователей в отношении нужных им данных. Главное здесь заключается в создании такой среды, в которой пользователи смогли бы эффективно использовать инструменты создания запросов для получения доступа к наиболее подходящему источнику данных. Частота выполнения отдельных запросов пользователей может варьироваться от однократно выполняемого произвольного запроса до регулярно выполняемых запросов или даже запросов, выполняемых по установленному графику. При разработке графика выполнения запросов пользователей очень важно обеспечить использование системных ресурсов максимально эффективным образом. </li></ul><ul><li>Доставка данных означает предварительную доставку информации на рабочие станции конечных пользователей. Это область обработки информации в хранилищах данных, связанная с процессами типа публикации/подписки. </li></ul>Метапоток - процессы, связанные с управлением метаданными. Предыдущие потоки характеризуют управление хранилищем данных в отношении перемещения данных в хранилище и из него. Метапоток — это процесс, связанный с перемещением метаданных, т.е. данных о других потоках.
  30. 30. Подходы к организации хранилища данных. Централизованное хранилище данных Такой подход означает, что при нескольких источниках информации - операционных базах данных создается единое централизованное хранилище. В первичных источниках информация хранится в «сыром» - недоработанном виде, то есть в структуре информационного пространства данного источника информации или операционной БД. Вся поступающая в ХД информация должна быть преобразована в принятую в данном ХД структуру. Передача данных из операционных БД в ХД, которая сопровождается доработкой, может быть организована по заданному временному графику и правилам доработки. Допускаются неожиданные запросы «на лету», что предъявляет более строгие требования к инструментальным средствам ХД.
  31. 31. Подходы к организации хранилища данных. Распределенное хранилище данных Этот подход к хранению данных основан на распределении функций ХД по местам их возникновения или группировке нескольких операционных БД вокруг локального или регионального информационного хранилища. Эти хранилища могут быть ориентированы на определенную предметную область или на регион в корпоративных структурах. Система локальных хранилищ действует в качестве распределенного хранилища. Не исключается и наличие центрального хранилища данных.
  32. 32. Подходы к организации хранилища данных. Автономные витрины данных При таком подходе информация, относящаяся к крупной предметной области – например, информационному пространству крупной корпоративной системы, имеющей несколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных функционально-ориентированных базах данных, которые называют витринами данных ( Data Mart ). Этот подход является развитием концепции распределенного ХД в направлении функциональной ориентированности.
  33. 33. Подходы к организации хранилища данных. Единое интегрированное хранилище и многие витрины данных В таком варианте имеется крупное предметно-ориентированное информационное хранилище агрегированной и подработанной информации, которое может удовлетворить потенциальные запросы по отдельным направлениям деятельности через функционально-ориентированные витрины данных. Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается единая хронология, согласованы различные форматы, устраняются противоречивость и неоднозначность данных - информация приобретает необходимую кондицию для быстрого и достаточно полного удовлетворения необходимого множества запросов.
  34. 34. Пример архитектуры хранилища и витрины данных
  35. 35. Банки данных и единое информационное пространство <ul><li>Термины &quot;банк данных&quot; и &quot;база данных&quot; являются очень близкими синонимами для обозначения некоторого структурированного массива информации. </li></ul><ul><li>Банк данных - это система специальным образом организованных данных (баз данных), программных, технических, языковых, организационно-методических средств, предназначенных для обеспечения централизованного накопления и коллективного многоцелевого использования данных. </li></ul><ul><li>Единое информационное пространство - совокупность методологических решений, баз и банков данных, технологий их ведения и использования, информационно-телекоммуникационных систем и сетей, функционирующих на основе единых принципов и по общим правилам, обеспечивающим информационное взаимодействие различных подразделений и пользователей, а также удовлетворение их информационных потребностей. </li></ul>
  36. 36. Литература <ul><li>Семенов М.И., Трубилин И.Т., Лойко В.И., Барановская Т.П. Автоматизированные информационные технологии в экономике: Учебник. – М.: Финансы и статистика, 2000. – 416 с. </li></ul><ul><li>Конноли Т., Бегг К., Страчан А. Базы данных: проектирование, реализация и сопровождение. Теория и практика. 2-е изд.: Пер. с англ.: Учебное пособие. – М.: Издательский дом «Вильямс», 2000. – 1120 с. </li></ul><ul><li>Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. от концепции до внедрения. – М.: Диалог-Мифи, 2002. – 528 с. </li></ul><ul><li>Лядова Л.Н., Мызникова Б.И., Фролова Н.В. Основы информатики и информационных технологий: Учебное пособие для студентов экономических специальностей – Пермь.: Пермский университет, 2004. – 311 с. </li></ul><ul><li>Белов В.С. Информационно-аналитические системы. Основы проектирования и применения: учебное пособие, руководство, практикум/ Московский государственный университет экономики, статистики и информатики – М., 2004. – 116 с. </li></ul>

×