SlideShare a Scribd company logo
1 of 60
Управление данными
Часть 9.
Хранилища данных
и OLAP
Использованы материалы Microsoft SQL Server Analysis Services 2008 для построения хранилищ данных
Автор: В.В. Полубояров (http://www.intuit.ru/department/database/mssqlsas2008 )
(©) Владислав Лавров, vlavrov.com
2
9.1.
Хранилище данных и OLAP.
Назначение.
Основные характеристики
(©) Владислав Лавров, vlavrov.com
3
(©) Владислав Лавров, vlavrov.com
4
Сбор и хранение информации, а также решение
задач информационно-поискового запроса
эффективно реализуются средствами систем
управления базами данных (СУБД) с помощью
OLTP (Online Transaction Processing)-
подсистем.
(©) Владислав Лавров, vlavrov.com
5
Непосредственно OLTP-системы не подходят
для полноценного анализа информации.
Почему?
В силу противоречивости требований,
предъявляемых к OLTP-системам и СППР.
(©) Владислав Лавров, vlavrov.com
6
Для предоставления необходимой для принятия
решений информации обычно приходится
собирать данные из нескольких
транзакционных баз данных различной
структуры и содержания.
(©) Владислав Лавров, vlavrov.com
7
Основная проблема при этом состоит в
несогласованности и противоречивости этих
баз-источников, отсутствии единого
логического взгляда на корпоративные
данные.
(©) Владислав Лавров, vlavrov.com
8
В основе концепции ХД лежит идея разделения
данных, используемых для оперативной
обработки и для решения задач анализа, что
позволяет оптимизировать структуры
хранения.
(©) Владислав Лавров, vlavrov.com
9
ХД позволяет интегрировать ранее разъединенные
детализированные данные, содержащиеся в
исторических архивах, накапливаемых в традиционных
OLTP-системах, поступающих из внешних источников, в
единую базу данных, осуществляя их предварительное
согласование и, возможно, агрегацию.
(©) Владислав Лавров, vlavrov.com
10
Подсистема
ввода данных
(СУБД - OLTP)
Подсистема
хранения данных
(СУБД и/или ХД)
Подсистема
анализа
Подсистема
информационно-
поискового анализа
(СУБД, SQL)
Подсистема
оперативного анализа
(OLAP)
Подсистема
интеллектуального
анализа
(Data Mining)
Оператор Аналитик
(©) Владислав Лавров, vlavrov.com
11
Подсистема анализа может быть построена
на основе:
• подсистемы информационно-поискового анализа
на базе реляционных СУБД и статических запросов
с использованием языка SQL;
• подсистемы оперативного анализа. Для реализации
таких подсистем применяется технология оперативной
аналитической обработки данных OLAP, использующая
концепцию многомерного представления данных;
• подсистемы интеллектуального анализа, реализующие
методы и алгоритмы Data Mining.
(©) Владислав Лавров, vlavrov.com
12
ХД – предметно-ориентированный, интегрированный,
редко меняющийся, поддерживающий хронологию
набор данных, организованный для целей поддержки
принятия решений.
Предметная ориентация означает, что ХД интегрируют
информацию, отражающую различные точки зрения на
предметную область.
Интеграция предполагает, что данные, хранящиеся в ХД,
приводятся к единому формату. Поддержка
хронологии означает, что все данные в ХД
соответствуют последовательным интервалам
времени.
Понятие хранилищ данных
(©) Владислав Лавров, vlavrov.com
13
Структура СППР с физическим ХД
• При загрузке данных из OLTP-системы в ХД происходит дублирование данных.
• В ходе этой загрузки данные фильтруются, поскольку не все из них имеют значение
для проведения процедур анализа.
• В ХД хранится обобщённая информация, которая в OLTP-системе отсутствует.
Подсистема
анализа
Аналитик
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
Оперативный
источник
данных
Оперативный
источник
данных
Подсистема хранения данных
Хранилище
данных
Подсистема
ввода
(OLTP)
Подсистема
ввода
(OLTP)
Аналитические
запросы
Данные
Внешний источник
данных
Оператор
Оператор
Оператор
(©) Владислав Лавров, vlavrov.com
14
В системе виртуальных ХД данные из OLTP-системы не копируются в единое
хранилище. Они извлекаются, преобразуются и интегрируются
непосредственно при выполнении аналитических запросов в режиме
реального времени. Фактически такие запросы напрямую передаются к
OLTP-системе.
Достоинства виртуального ХД:
• минимизация объема хранимых данных;
• работа с текущими, актуальными данными.
Недостатки виртуального ХД:
• более высокое, по сравнению с физическим ХД время обработки запросов;
• необходимость постоянной доступности всех OLTP-источников;
• снижение быстродействия OLTP-систем;
• OLTP-системы не ориентированы на хранение данных за длительный
период времени, по мере необходимости данные выгружаются в архивные,
поэтому не всегда имеется физическая возможность получения полного
набора данных в ХД.
Виртуальные хранилища данных
(©) Владислав Лавров, vlavrov.com
15
1. Интеграция разнородных данных.
2. Эффективное хранение и обработка больших
объемов данных.
3. Организация многоуровневых справочников
метаданных.
4. Обеспечение информационной безопасности ХД.
Проблемы построения хранилищ данных
(©) Владислав Лавров, vlavrov.com
16
Структура СППР с самостоятельными
витринами данных (ВД )
Подсистема
анализа
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
Оперативный
источник
данных
Подсистема хранения данных
Витрина
данных
Подсистема
ввода
(OLTP)
Подсистема
ввода
(OLTP)
Аналитические
запросы
Данные
Внешний источник
данных
Оператор
Оператор
Оператор
Витрина
данных
Оперативный
источник
данных
Подсистема
анализа
Аналитические
запросы
Данные
Аналитик
Аналитик
• ВД содержит данные, ориентированные на конкретного пользователя,
существенно меньше по объему, и для ее реализации требуется меньше затрат.
• ВД могут строиться как самостоятельно, так и вместе с ХД.
• ВД внедряются гораздо быстрее и быстрее виден эффект от их использования.
(©) Владислав Лавров, vlavrov.com
17
Структура СППР
с хранилищами данных и витринами данных
Подсистема
анализа
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
Оперативный
источник
данных
Подсистема хранения данных
Витрина
данных
Подсистема
ввода
(OLTP)
Подсистема
ввода
(OLTP)
Аналитические
запросы
Данные
Внешний источник
данных
Оператор
Оператор
Оператор
Витрина
данных
Оперативный
источник
данных
Подсистема
анализа
Аналитические
запросы
Данные
Аналитик
АналитикХранилище
данных
(©) Владислав Лавров, vlavrov.com
18
9.2.
Понятие и модель данных OLAP
(©) Владислав Лавров, vlavrov.com
19
OLAP (Online Analytical Processing) – технология
оперативной аналитической обработки данных,
использующая методы и средства для сбора,
хранения и анализа многомерных данных в целях
поддержки процессов принятия решений.
Основное назначение OLAP-систем – поддержка
аналитической деятельности, произвольных
запросов пользователей - аналитиков. Цель OLAP-
анализа – проверка возникающих гипотез.
Понятие OLAP
(©) Владислав Лавров, vlavrov.com
20
OLTP – On-Line Transaction Processing,
оперативная транзакционная обработка данных
OLAP – On-Line Analytical Processing
оперативная аналитическая обработка данных
Data
OLTP
OLAP
(©) Владислав Лавров, vlavrov.com
21
Категории данных в хранилищах данных
1. Детальные данные
2. Агрегированные (обобщённые) данные
3. Метаданные
Подсистема
анализа
Аналитик
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
Оперативный
источник
данных
Оперативный
источник
данных
Подсистема хранения данных
Хранилище данных
Подсистема
ввода
(OLTP)
Подсистема
ввода
(OLTP)
Аналити-
ческие
запросы
Данные
Внешний источник
данных
Оператор
Оператор
Оператор
Агрегированные
данные
Детальные
данные
Обратный
поток
Входной
поток
Выходной
поток
Поток
обобщения
Репозиторий
метаданных
Поток
метаданных
Архивный
поток
Архивные
данные
(©) Владислав Лавров, vlavrov.com
22
Информационные потоки в хранилищах данных
• входной поток - образуется данными, копируемыми из OLTP-систем
в ХД; данные при этом часто очищаются и обогащаются путем
добавления новых атрибутов;
• поток обобщения - образуется агрегированием детальных данных и
их сохранением в ХД;
• архивный поток - образуется перемещением детальных данных,
количество обращений к которым снизилось;
• поток метаданных - образуется потоком информации о данных в
репозиторий данных;
• выходной поток - образуется данными, извлекаемыми
пользователями;
• обратный поток - образуется очищенными данными,
записываемыми обратно в OLTP-системы.
(©) Владислав Лавров, vlavrov.com
23
OLAP и OLTP.
Характеристики и основные отличия
Характеристики OLTP системы
• Большой объем информации
• Часто различные БД для разных подразделений
• Нормализованная схема, отсутствие дублирования
информации
• Интенсивное изменение данных
• Транзакционный режим работы
• Транзакции затрагивают небольшой объем данных
• Обработка текущих данных – мгновенный снимок
• Много клиентов
• Малое время отклика – несколько секунд
(©) Владислав Лавров, vlavrov.com
24
OLAP и OLTP.
Характеристики и основные отличия
Характеристики OLAP системы
• Большой объем информации
• Синхронизированная информация из различных БД с использованием
общих классификаторов
• Ненормализованная схема БД с дубликатами
• Данные меняются редко, Изменение происходит через пакетную загрузку
• Выполняются сложные нерегламентированные запросы над большим
объемом данных с широким применением группировок и агрегатных
функций.
• Анализ временных зависимостей
• Небольшое количество работающих пользователей – аналитики и
менеджеры
• Большее время отклика (но все равно приемлемое) – несколько минут
(©) Владислав Лавров, vlavrov.com
25
9.3.
Правила Кодда
для OLAP систем
(©) Владислав Лавров, vlavrov.com
26
1. Концептуальное многомерное представление
2. Прозрачность.
3. Доступность.
4. Постоянная производительность при разработке отчётов.
5. Клиент-серверная архитектура.
6. Общая многомерность.
7. Динамическое управление разреженными матрицами.
8. Многопользовательская поддержка.
9. Неограниченные перекрёстные операции.
10. Интуитивная манипуляция данными.
11. Гибкие возможности получения отчётов.
12. Неограниченная размерность и число уровней агрегации.
(©) Владислав Лавров, vlavrov.com
27
9.4.
Структура OLAP-куба
(©) Владислав Лавров, vlavrov.com
28
Гиперкуб
(©) Владислав Лавров, vlavrov.com
29
Операции, выполняемые над гиперкубом
1. Срез
2. Вращение
(©) Владислав Лавров, vlavrov.com
30
Операции, выполняемые над гиперкубом
4. Детализация
3. Консолидация
(©) Владислав Лавров, vlavrov.com
31
Фрагмент хранилища данных для OLAP
(©) Владислав Лавров, vlavrov.com
32
Таблица фактов
1. Факты, связанные с транзакциями (Transaction facts).
2. Факты, связанные с "моментальными снимками"
(Snapshot facts).
3. Факты, связанные с элементами документа (Line-item facts).
4. Факты, связанные с событиями или состоянием объекта
(Event or state facts).
Основные типы таблиц фактов
(©) Владислав Лавров, vlavrov.com
33
Таблица измерений
Таблицы измерений содержат неизменяемые либо редко изменяемые
данные.
Таблицы измерений также содержат как минимум одно описательное
поле (обычно с именем члена измерения) и, как правило,
целочисленное ключевое поле (обычно это суррогатный ключ) для
однозначной идентификации члена измерения.
Если будущее измерение, основанное на данной таблице измерений,
содержит иерархию, то таблица измерений также может содержать
поля, указывающие на "родителя" данного члена в этой иерархии.
Каждая таблица измерений должна находиться в отношении "один ко
многим" с таблицей фактов.
Скорость роста таблиц измерений должна быть незначительной по
сравнению со скоростью роста таблицы фактов
(©) Владислав Лавров, vlavrov.com
34
Архитектура
OLAP-систем
(©) Владислав Лавров, vlavrov.com
35
Архитектура OLAP-систем
Слой извлечения, преобразования и загрузки данных
Включает организационные подразделения и структуры организации всех уровней,
поддерживающие базы данных оперативного доступа.
Он представляет собой низовой уровень генерации информации, уровень внутренних
и внешних информационных источников, вырабатывающих "сырую" информацию.
Эта информация является рабочей для повседневной деятельности различных
подразделений, которые ее вырабатывают и используют.
Загрузка данных из источников в хранилище осуществляется специальными
процедурами, позволяющими:
1. Извлекать данные из различных баз данных, текстовых файлов;
2. Выполнять различные типы согласования и очистки данных;
3. Преобразовывать данные при перемещении их от источников к хранилищу;
4. Загружать согласованные и "очищенные" данные в структуры хранилища
(©) Владислав Лавров, vlavrov.com
36
Архитектура OLAP-систем
Слой хранения данных
Предназначен для хранения значимой, проверенной, согласованной,
непротиворечивой и хронологически целостной информации, которую с достаточно
высокой степенью уверенности можно считать достоверной.
Как правило, ХД или ВД реализуется в виде реляционной БД, работающей под
управлением достаточно мощной реляционной СУБД.
Требования к СУБД:
• поддержка эффективной работы с огромными объёмами информации;
• развитые средства ограничения доступа;
• обеспечение повышенного уровня надёжности и безопасности;
• соответствие необходимым требованиям по восстановлению и архивации.
Слой реализован в виде хранилища данных (ХД) или витрины данных (ВД).
(©) Владислав Лавров, vlavrov.com
37
Архитектура OLAP-систем
Слой анализа данных
Для организации доступа аналитиков к данным ХД и ВД используются
специализированные рабочие места, поддерживающие необходимые технологии как
оперативного, так и долговременного анализа.
Результаты работы аналитиков оформляются в виде отчетов, графиков, рекомендаций
и сохраняются как на локальном компьютере, так и в общедоступном узле локальной
сети.
Современный подход к инструментальным средствам анализа не ограничивается
использованием какой-то одной технологии. В настоящее время принято различать
следующие основные вида аналитической деятельности:
• стандартная отчетность;
• нерегламентированные запросы;
• многомерный анализ (OLAP);
• извлечение знаний (data mining).
(©) Владислав Лавров, vlavrov.com
38
Инструментальные средства OLAP-систем
• Клиентские OLAP-средства
• Серверные OLAP-средства
(©) Владислав Лавров, vlavrov.com
39
Клиентские OLAP-средства
Представляют собой приложения, осуществляющие вычисление агрегатных
данных (сумм, средних величин, максимальных или минимальных значений) и их
отображение, при этом сами агрегатные данные содержатся в кэше внутри
адресного пространства такого OLAP-средства.
Если исходные данные содержатся в настольной СУБД, вычисление агрегатных
данных производится самим OLAP-средством. Если же источник исходных данных -
серверная СУБД, многие из клиентских OLAP-средств посылают на сервер SQL-
запросы, содержащие оператор GROUP BY, и в результате получают агрегатные
данные, вычисленные на сервере.
Функциональность реализована в пакетах статистической обработки данных
(например, продуктах компаний StatSoft и SPSS), а также в пакетах Microsoft Office
Excel и Microsoft Office Visio.
(©) Владислав Лавров, vlavrov.com
40
Клиентские OLAP-средства
В состав Microsoft Office 2010 входят три отдельных OLAP-компонента:
1. Клиент извлечения и обработки данных для Excel позволяет создавать
проекты извлечения и обработки данных на базе служб SQL Server
Analysis Services (SSAS) и управлять ими из Excel;
2. Средства анализа таблиц для приложения Excel позволяют использовать
встроенные в службы SSAS функции извлечения и обработки информации
для анализа данных, хранящихся в таблицах Excel;
3. Шаблоны извлечения и обработки данных для приложения Visio позволяют
визуализировать деревья решений, деревья регрессии, кластерные
диаграммы и сети зависимостей на диаграммах Visio.
(©) Владислав Лавров, vlavrov.com
41
Клиентские OLAP-средства
С помощью приложения Microsoft Office Visio можно аннотировать, дополнять и
отображать графические представления результатов извлечения и обработки
данных.
Платформа SQL Server 2008 в сочетании с приложением Visio 2007 позволяет:
• визуализировать деревья решений, деревья регрессии, кластерные
диаграммы и сети зависимостей;
• сохранять модели извлечения и обработки данных в виде документов Visio,
внедрённых в другие документы приложений Office или сохранённых в виде
веб-страниц.
(©) Владислав Лавров, vlavrov.com
42
Серверные OLAP-средства
В случае применения серверных OLAP-средств вычисление и хранение
агрегатных данных происходят на сервере, а клиентское приложение
получает лишь результаты запросов к ним, что позволяет в общем случае
снизить сетевой трафик, время выполнения запросов и требования к
ресурсам, потребляемым клиентским приложением.
Средства анализа и обработки данных масштаба предприятия, как
правило, базируются именно на серверных OLAP-средствах, например,
таких как Oracle Database Server и Microsoft SQL Server.
(©) Владислав Лавров, vlavrov.com
43
9.5.
Реализация OLAP
(©) Владислав Лавров, vlavrov.com
• MOLAP (Multidimensional OLAP)
• ROLAP (Relational OLAP)
• HOLAP (Hybrid OLAP)
Типы OLAP - серверов
(©) Владислав Лавров, vlavrov.com
MOLAP - сервер
Детальные и агрегированные данные хранятся в
многомерной базе данных.
Хранение данных в многомерных структурах позволяет
манипулировать данными как многомерным массивом,
благодаря чему скорость вычисления агрегатных
значений одинакова для любого из измерений.
Однако в этом случае многомерная база данных
оказывается избыточной, так как многомерные данные
полностью содержат детальные реляционные данные.
(©) Владислав Лавров, vlavrov.com
Преимущества
• Высокая производительность.
• Структура и интерфейсы наилучшим образом
соответствуют структуре аналитических запросов.
• Многомерные СУБД легко справляются с задачами
включения в информационную модель разнообразных
встроенных функций.
MOLAP - сервер
(©) Владислав Лавров, vlavrov.com
Недостатки
• MOLAP могут работать только со своими собственными многомерными
БД и основываются на патентованных технологиях для многомерных
СУБД, поэтому являются наиболее дорогими.
• По сравнению с реляционными, очень неэффективно используют
внешнюю память, обладают худшими по сравнению с реляционными БД
механизмами транзакций.
• Отсутствуют единые стандарты на интерфейс, языки описания и
манипулирования данными.
• Не поддерживают репликацию данных, часто используемую в качестве
механизма загрузки.
MOLAP - сервер
(©) Владислав Лавров, vlavrov.com
ROLAP - сервер
ROLAP-системы позволяют представлять данные,
хранимые в классической реляционной базе, в
многомерной форме или в плоских локальных таблицах
на файл-сервере, обеспечивая преобразование
информации в многомерную модель через
промежуточный слой метаданных.
Агрегаты хранятся в той же БД в специально созданных
служебных таблицах. В этом случае гиперкуб
эмулируется СУБД на логическом уровне.
(©) Владислав Лавров, vlavrov.com
Преимущества
• Работа с очень большими БД
• Развитые средства администрирования.
• Инструменты ROLAP позволяют производить анализ непосредственно над
хранилищем данных.
• В случае переменной размерности задачи ROLAP не требуют физической
реорганизации БД, как в случае MOLAP.
• Системы ROLAP могут функционировать на гораздо менее мощных
клиентских станциях, чем системы MOLAP.
• Более высокий уровень защиты данных и хорошие возможности
разграничения прав доступа.
ROLAP - сервер
(©) Владислав Лавров, vlavrov.com
Недостатки
• Ограниченные возможности с точки зрения расчета значений
функционального типа.
• Меньшая производительность, чем у MOLAP. Для обеспечения
сравнимой с MOLAP производительности реляционные системы
требуют тщательной проработки схемы БД и специальной
настройки индексов. Но в результате этих операций
производительность хорошо настроенных реляционных систем при
использовании схемы "звезда" сравнима с производительностью
систем на основе многомерных БД.
ROLAP - сервер
(©) Владислав Лавров, vlavrov.com
HOLAP - сервер
Детальные данные остаются в той же реляционной базе
данных, где они изначально находились, а агрегатные
данные хранятся в многомерной базе данных
(©) Владислав Лавров, vlavrov.com
• Схема «Звезда»
• Схема «Снежинка»
Схемы реализации OLAP
в реляционных системах
(©) Владислав Лавров, vlavrov.com
Схема «Звезда»
Каждое измерение содержится в одной таблице.
(©) Владислав Лавров, vlavrov.com
Схема «Звезда»
Особенности:
• Одна таблица фактов (fact table), которая сильно денормализована
является центральной в схеме, может состоять из миллионов строк
и содержит суммируемые или фактические данные, с помощью
которых можно ответить на различные вопросы.
• Несколько денормализованных таблиц измерений (dimensional table)
имеют меньшее количество строк, чем таблицы фактов, и содержат
описательную информацию. Эти таблицы позволяют пользователю
быстро переходить от таблицы фактов к дополнительной
информации.
• Таблица фактов и таблицы размерности связаны
идентифицирующими связями, при этом первичные ключи таблицы
размерности мигрируют в таблицу фактов в качестве внешних
ключей. Первичный ключ таблицы факта целиком состоит из
первичных ключей всех таблиц размерности.
• Агрегированные данные хранятся совместно с исходными.
(©) Владислав Лавров, vlavrov.com
Схема «Звезда»
Преимущества
Благодаря денормализации таблиц измерений
упрощается восприятие структуры данных пользователем
и формулировка запросов, уменьшается количество
операций соединения таблиц при обработке запросов.
Некоторые промышленные СУБД и инструменты класса
OLAP / Reporting умеют использовать преимущества
схемы "звезда" для сокращения времени выполнения
запросов.
(©) Владислав Лавров, vlavrov.com
Схема «Звезда»
Недостатки
Денормализация таблиц измерений вносит избыточность
данных, возрастает требуемый для их хранения объем
памяти.
Если агрегаты хранятся совместно с исходными данными,
то в измерениях необходимо использовать
дополнительный параметр - уровень иерархии.
(©) Владислав Лавров, vlavrov.com
Схема «Снежинка»
Существует измерение, которое содержится в нескольких таблицах
(©) Владислав Лавров, vlavrov.com
Схема «Снежинка»
Особенности:
• Одна таблица фактов (fact table), которая сильно денормализована является
центральной в схеме, может состоять из миллионов строк и содержать
суммируемые или фактические данные, с помощью которых можно ответить
на различные вопросы.
• Несколько таблиц измерений (dimensional table), которые нормализованы в
отличие от схемы "звезда". Имеют меньшее количество строк, чем таблицы
фактов, и содержат описательную информацию. Эти таблицы позволяют
пользователю быстро переходить от таблицы фактов к дополнительной
информации. Первичные ключи в них состоят из единственного атрибута
(соответствуют единственному элементу измерения).
• Таблица фактов и таблицы размерности связаны идентифицирующими
связями, при этом первичные ключи таблицы размерности мигрируют в
таблицу фактов в качестве внешних ключей. Первичный ключ таблицы факта
целиком состоит из первичных ключей всех таблиц размерности.
• В схеме "снежинка" агрегированные данные могут храниться отдельно от
исходных
(©) Владислав Лавров, vlavrov.com
Схема «Снежинка»
Преимущества
Нормализация таблиц измерений
в отличие от схемы "звезда" позволяет
минимизировать избыточность данных и более
эффективно выполнять запросы,
связанные со структурой значений измерений.
(©) Владислав Лавров, vlavrov.com
Схема «Снежинка»
Недостатки
За нормализацию таблиц измерений иногда
приходится платить временем выполнения
запросов.
(©) Владислав Лавров, vlavrov.com

More Related Content

What's hot

Olap и oltp технологии
Olap и oltp технологииOlap и oltp технологии
Olap и oltp технологииIlya Ternovoy
 
Основы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiОсновы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiSoftengi
 
Все самые важные команды SQL за 60 минут
Все самые важные команды SQL за 60 минутВсе самые важные команды SQL за 60 минут
Все самые важные команды SQL за 60 минутSkillFactory
 
InterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queueInterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queueInterSystems
 
Обзор инструментов Toad для администраторов Oracle
Обзор инструментов Toad для администраторов OracleОбзор инструментов Toad для администраторов Oracle
Обзор инструментов Toad для администраторов OracleBAKOTECH
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
Cистема внутренней статистики Odnoklassniki.ru
Cистема внутренней статистики Odnoklassniki.ruCистема внутренней статистики Odnoklassniki.ru
Cистема внутренней статистики Odnoklassniki.ruodnoklassniki.ru
 
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULTУправление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULTКРОК
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.mikhaelsmirnov
 
Комос групп архив финансовой документации
Комос групп архив финансовой документацииКомос групп архив финансовой документации
Комос групп архив финансовой документацииКорпорация ЭЛАР
 
Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)PutinTheJew
 
Использование Sedna в WEB
Использование Sedna в WEBИспользование Sedna в WEB
Использование Sedna в WEBAlexandre Kalendarev
 

What's hot (20)

Olap и oltp технологии
Olap и oltp технологииOlap и oltp технологии
Olap и oltp технологии
 
Основы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiОсновы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в Softengi
 
Информатика (эффективный поиск в Интернет)
Информатика (эффективный поиск в Интернет)Информатика (эффективный поиск в Интернет)
Информатика (эффективный поиск в Интернет)
 
Все самые важные команды SQL за 60 минут
Все самые важные команды SQL за 60 минутВсе самые важные команды SQL за 60 минут
Все самые важные команды SQL за 60 минут
 
InterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queueInterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queue
 
Информатика (СУБД)
Информатика (СУБД)Информатика (СУБД)
Информатика (СУБД)
 
Информатика (прикладное ПО)
Информатика (прикладное ПО)Информатика (прикладное ПО)
Информатика (прикладное ПО)
 
Информатика (рекомендуемые информационные ресурсы)
Информатика (рекомендуемые информационные ресурсы)Информатика (рекомендуемые информационные ресурсы)
Информатика (рекомендуемые информационные ресурсы)
 
Обзор инструментов Toad для администраторов Oracle
Обзор инструментов Toad для администраторов OracleОбзор инструментов Toad для администраторов Oracle
Обзор инструментов Toad для администраторов Oracle
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Cистема внутренней статистики Odnoklassniki.ru
Cистема внутренней статистики Odnoklassniki.ruCистема внутренней статистики Odnoklassniki.ru
Cистема внутренней статистики Odnoklassniki.ru
 
Информатика (устройство ПК)
Информатика (устройство ПК)Информатика (устройство ПК)
Информатика (устройство ПК)
 
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULTУправление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
 
Информатика (архитектура ПО)
Информатика (архитектура ПО)Информатика (архитектура ПО)
Информатика (архитектура ПО)
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
 
Комос групп архив финансовой документации
Комос групп архив финансовой документацииКомос групп архив финансовой документации
Комос групп архив финансовой документации
 
Информатика (архитектура)
Информатика (архитектура)Информатика (архитектура)
Информатика (архитектура)
 
Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)
 
Использование Sedna в WEB
Использование Sedna в WEBИспользование Sedna в WEB
Использование Sedna в WEB
 

Viewers also liked

Simonova CSEDays
Simonova CSEDaysSimonova CSEDays
Simonova CSEDaysLiloSEA
 
Simonova sql server-enginetesting
Simonova sql server-enginetestingSimonova sql server-enginetesting
Simonova sql server-enginetestingLiloSEA
 
SQL Server Reporting Services - дюжина советов
SQL Server Reporting Services - дюжина советовSQL Server Reporting Services - дюжина советов
SQL Server Reporting Services - дюжина советовAndrey Korshikov
 
TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...
TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...
TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...Iosif Itkin
 

Viewers also liked (20)

Управление данными (транзакции)
Управление данными (транзакции)Управление данными (транзакции)
Управление данными (транзакции)
 
МиСПИСиТ (IDEF)
МиСПИСиТ (IDEF)МиСПИСиТ (IDEF)
МиСПИСиТ (IDEF)
 
МиСПИСиТ (источники ошибок)
МиСПИСиТ (источники ошибок)МиСПИСиТ (источники ошибок)
МиСПИСиТ (источники ошибок)
 
МиСПИСиТ (структура)
МиСПИСиТ (структура)МиСПИСиТ (структура)
МиСПИСиТ (структура)
 
МиСПИСиТ (тестирование и отладка)
МиСПИСиТ (тестирование и отладка)МиСПИСиТ (тестирование и отладка)
МиСПИСиТ (тестирование и отладка)
 
МиСПИСиТ (общие принципы разработки)
МиСПИСиТ (общие принципы разработки)МиСПИСиТ (общие принципы разработки)
МиСПИСиТ (общие принципы разработки)
 
МиСПИСиТ (введение)
МиСПИСиТ (введение)МиСПИСиТ (введение)
МиСПИСиТ (введение)
 
МиСПИСиТ (архитектура)
МиСПИСиТ (архитектура)МиСПИСиТ (архитектура)
МиСПИСиТ (архитектура)
 
МиСПИСиТ (разработка программного модуля)
МиСПИСиТ (разработка программного модуля)МиСПИСиТ (разработка программного модуля)
МиСПИСиТ (разработка программного модуля)
 
1. Кафедра ТИМ УрФУ
1. Кафедра ТИМ УрФУ1. Кафедра ТИМ УрФУ
1. Кафедра ТИМ УрФУ
 
Образовательная программа ИСТ на кафедре ТИМ УрФУ
Образовательная программа ИСТ на кафедре ТИМ УрФУОбразовательная программа ИСТ на кафедре ТИМ УрФУ
Образовательная программа ИСТ на кафедре ТИМ УрФУ
 
МиСПИСиТ (литература по курсу)
МиСПИСиТ (литература по курсу)МиСПИСиТ (литература по курсу)
МиСПИСиТ (литература по курсу)
 
МиСПИСиТ (жизненный цикл)
МиСПИСиТ (жизненный цикл)МиСПИСиТ (жизненный цикл)
МиСПИСиТ (жизненный цикл)
 
МиСПИСиТ (внешнее описание)
МиСПИСиТ (внешнее описание)МиСПИСиТ (внешнее описание)
МиСПИСиТ (внешнее описание)
 
3. Общая характеристика АСУ
3. Общая характеристика АСУ3. Общая характеристика АСУ
3. Общая характеристика АСУ
 
Simonova CSEDays
Simonova CSEDaysSimonova CSEDays
Simonova CSEDays
 
Simonova sql server-enginetesting
Simonova sql server-enginetestingSimonova sql server-enginetesting
Simonova sql server-enginetesting
 
Simonova sql server-enginetesting
Simonova sql server-enginetestingSimonova sql server-enginetesting
Simonova sql server-enginetesting
 
SQL Server Reporting Services - дюжина советов
SQL Server Reporting Services - дюжина советовSQL Server Reporting Services - дюжина советов
SQL Server Reporting Services - дюжина советов
 
TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...
TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...
TMPA-2013 Senov: Applying OLAP and MapReduce Technologies for Performance Tes...
 

Similar to Управление данными (хранилища данных и OLAP)

хранилище данных
хранилище данныххранилище данных
хранилище данныхPutinTheJew
 
тема 4 2
тема 4 2тема 4 2
тема 4 2asheg
 
Подходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организацияхПодходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организацияхСбертех | SberTech
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данныхSergey Gorshkov
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
 
Хранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхХранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхYury Samoylenko
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikMarina Payvina
 
Web весна 2012 лекция 6
Web весна 2012 лекция 6Web весна 2012 лекция 6
Web весна 2012 лекция 6Technopark
 
Конкурс презентаций - Коноплева
Конкурс презентаций -  КоноплеваКонкурс презентаций -  Коноплева
Конкурс презентаций - Коноплеваgalkina
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIОникс Софт
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleAndrey Akulov
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 

Similar to Управление данными (хранилища данных и OLAP) (20)

хранилище данных
хранилище данныххранилище данных
хранилище данных
 
тема 4 2
тема 4 2тема 4 2
тема 4 2
 
Подходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организацияхПодходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организациях
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных Данных
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Хранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхХранилища данных, средства анализа данных
Хранилища данных, средства анализа данных
 
10 субд
10 субд10 субд
10 субд
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
 
Web весна 2012 лекция 6
Web весна 2012 лекция 6Web весна 2012 лекция 6
Web весна 2012 лекция 6
 
Конкурс презентаций - Коноплева
Конкурс презентаций -  КоноплеваКонкурс презентаций -  Коноплева
Конкурс презентаций - Коноплева
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BI
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 

More from Ural Federal University named after First President of Russia B.N. Yeltsin

More from Ural Federal University named after First President of Russia B.N. Yeltsin (20)

2016 ВКР Черемискина Н.А.
2016 ВКР Черемискина Н.А.2016 ВКР Черемискина Н.А.
2016 ВКР Черемискина Н.А.
 
2016 ВКР Гребнева Н.В.
2016 ВКР Гребнева Н.В.2016 ВКР Гребнева Н.В.
2016 ВКР Гребнева Н.В.
 
2016 ВКР Имашева А.А.
2016 ВКР Имашева А.А.2016 ВКР Имашева А.А.
2016 ВКР Имашева А.А.
 
Введение в методы agile
Введение в методы agileВведение в методы agile
Введение в методы agile
 
ООП. Рекомендуемые информационные ресурсы
ООП. Рекомендуемые информационные ресурсыООП. Рекомендуемые информационные ресурсы
ООП. Рекомендуемые информационные ресурсы
 
Методоллогии Agile
Методоллогии AgileМетодоллогии Agile
Методоллогии Agile
 
3. Информация и ее роль
3. Информация и ее роль3. Информация и ее роль
3. Информация и ее роль
 
Наследование и полиморфизм
Наследование и полиморфизмНаследование и полиморфизм
Наследование и полиморфизм
 
Классы и объекты С#
Классы и объекты С#Классы и объекты С#
Классы и объекты С#
 
Составные части объектного подхода
Составные части объектного подходаСоставные части объектного подхода
Составные части объектного подхода
 
Интерфейсы
ИнтерфейсыИнтерфейсы
Интерфейсы
 
магистратура 09.04.02 ист на кафедре тим урфу+
магистратура 09.04.02 ист на кафедре тим урфу+магистратура 09.04.02 ист на кафедре тим урфу+
магистратура 09.04.02 ист на кафедре тим урфу+
 
магистратура 22.04.02 металлургия на кафедре тим+
магистратура 22.04.02 металлургия на кафедре тим+магистратура 22.04.02 металлургия на кафедре тим+
магистратура 22.04.02 металлургия на кафедре тим+
 
1.5 тп (технологические подходы)+
1.5 тп (технологические подходы)+1.5 тп (технологические подходы)+
1.5 тп (технологические подходы)+
 
1.4 тп (общие принципы разработки)+
1.4 тп (общие принципы разработки)+1.4 тп (общие принципы разработки)+
1.4 тп (общие принципы разработки)+
 
1.3 тп (источники ошибок)+
1.3 тп (источники ошибок)+1.3 тп (источники ошибок)+
1.3 тп (источники ошибок)+
 
2014 Сабиров Е.Р. презентация КП по ПБД
2014 Сабиров Е.Р. презентация КП по ПБД2014 Сабиров Е.Р. презентация КП по ПБД
2014 Сабиров Е.Р. презентация КП по ПБД
 
2014 Мищенко К.В. презентация КП по ПБД
2014 Мищенко К.В. презентация КП по ПБД2014 Мищенко К.В. презентация КП по ПБД
2014 Мищенко К.В. презентация КП по ПБД
 
2014 Пильщиков С.Н. презентация КП по ПБД
2014 Пильщиков С.Н. презентация КП по ПБД2014 Пильщиков С.Н. презентация КП по ПБД
2014 Пильщиков С.Н. презентация КП по ПБД
 
2014 диплом Терехова А.Ю
2014 диплом Терехова А.Ю2014 диплом Терехова А.Ю
2014 диплом Терехова А.Ю
 

Управление данными (хранилища данных и OLAP)

  • 1. Управление данными Часть 9. Хранилища данных и OLAP Использованы материалы Microsoft SQL Server Analysis Services 2008 для построения хранилищ данных Автор: В.В. Полубояров (http://www.intuit.ru/department/database/mssqlsas2008 ) (©) Владислав Лавров, vlavrov.com
  • 2. 2 9.1. Хранилище данных и OLAP. Назначение. Основные характеристики (©) Владислав Лавров, vlavrov.com
  • 4. 4 Сбор и хранение информации, а также решение задач информационно-поискового запроса эффективно реализуются средствами систем управления базами данных (СУБД) с помощью OLTP (Online Transaction Processing)- подсистем. (©) Владислав Лавров, vlavrov.com
  • 5. 5 Непосредственно OLTP-системы не подходят для полноценного анализа информации. Почему? В силу противоречивости требований, предъявляемых к OLTP-системам и СППР. (©) Владислав Лавров, vlavrov.com
  • 6. 6 Для предоставления необходимой для принятия решений информации обычно приходится собирать данные из нескольких транзакционных баз данных различной структуры и содержания. (©) Владислав Лавров, vlavrov.com
  • 7. 7 Основная проблема при этом состоит в несогласованности и противоречивости этих баз-источников, отсутствии единого логического взгляда на корпоративные данные. (©) Владислав Лавров, vlavrov.com
  • 8. 8 В основе концепции ХД лежит идея разделения данных, используемых для оперативной обработки и для решения задач анализа, что позволяет оптимизировать структуры хранения. (©) Владислав Лавров, vlavrov.com
  • 9. 9 ХД позволяет интегрировать ранее разъединенные детализированные данные, содержащиеся в исторических архивах, накапливаемых в традиционных OLTP-системах, поступающих из внешних источников, в единую базу данных, осуществляя их предварительное согласование и, возможно, агрегацию. (©) Владислав Лавров, vlavrov.com
  • 10. 10 Подсистема ввода данных (СУБД - OLTP) Подсистема хранения данных (СУБД и/или ХД) Подсистема анализа Подсистема информационно- поискового анализа (СУБД, SQL) Подсистема оперативного анализа (OLAP) Подсистема интеллектуального анализа (Data Mining) Оператор Аналитик (©) Владислав Лавров, vlavrov.com
  • 11. 11 Подсистема анализа может быть построена на основе: • подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL; • подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP, использующая концепцию многомерного представления данных; • подсистемы интеллектуального анализа, реализующие методы и алгоритмы Data Mining. (©) Владислав Лавров, vlavrov.com
  • 12. 12 ХД – предметно-ориентированный, интегрированный, редко меняющийся, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. Предметная ориентация означает, что ХД интегрируют информацию, отражающую различные точки зрения на предметную область. Интеграция предполагает, что данные, хранящиеся в ХД, приводятся к единому формату. Поддержка хронологии означает, что все данные в ХД соответствуют последовательным интервалам времени. Понятие хранилищ данных (©) Владислав Лавров, vlavrov.com
  • 13. 13 Структура СППР с физическим ХД • При загрузке данных из OLTP-системы в ХД происходит дублирование данных. • В ходе этой загрузки данные фильтруются, поскольку не все из них имеют значение для проведения процедур анализа. • В ХД хранится обобщённая информация, которая в OLTP-системе отсутствует. Подсистема анализа Аналитик Подсистема ввода (OLTP) Оперативный источник данных Оперативный источник данных Оперативный источник данных Подсистема хранения данных Хранилище данных Подсистема ввода (OLTP) Подсистема ввода (OLTP) Аналитические запросы Данные Внешний источник данных Оператор Оператор Оператор (©) Владислав Лавров, vlavrov.com
  • 14. 14 В системе виртуальных ХД данные из OLTP-системы не копируются в единое хранилище. Они извлекаются, преобразуются и интегрируются непосредственно при выполнении аналитических запросов в режиме реального времени. Фактически такие запросы напрямую передаются к OLTP-системе. Достоинства виртуального ХД: • минимизация объема хранимых данных; • работа с текущими, актуальными данными. Недостатки виртуального ХД: • более высокое, по сравнению с физическим ХД время обработки запросов; • необходимость постоянной доступности всех OLTP-источников; • снижение быстродействия OLTP-систем; • OLTP-системы не ориентированы на хранение данных за длительный период времени, по мере необходимости данные выгружаются в архивные, поэтому не всегда имеется физическая возможность получения полного набора данных в ХД. Виртуальные хранилища данных (©) Владислав Лавров, vlavrov.com
  • 15. 15 1. Интеграция разнородных данных. 2. Эффективное хранение и обработка больших объемов данных. 3. Организация многоуровневых справочников метаданных. 4. Обеспечение информационной безопасности ХД. Проблемы построения хранилищ данных (©) Владислав Лавров, vlavrov.com
  • 16. 16 Структура СППР с самостоятельными витринами данных (ВД ) Подсистема анализа Подсистема ввода (OLTP) Оперативный источник данных Оперативный источник данных Подсистема хранения данных Витрина данных Подсистема ввода (OLTP) Подсистема ввода (OLTP) Аналитические запросы Данные Внешний источник данных Оператор Оператор Оператор Витрина данных Оперативный источник данных Подсистема анализа Аналитические запросы Данные Аналитик Аналитик • ВД содержит данные, ориентированные на конкретного пользователя, существенно меньше по объему, и для ее реализации требуется меньше затрат. • ВД могут строиться как самостоятельно, так и вместе с ХД. • ВД внедряются гораздо быстрее и быстрее виден эффект от их использования. (©) Владислав Лавров, vlavrov.com
  • 17. 17 Структура СППР с хранилищами данных и витринами данных Подсистема анализа Подсистема ввода (OLTP) Оперативный источник данных Оперативный источник данных Подсистема хранения данных Витрина данных Подсистема ввода (OLTP) Подсистема ввода (OLTP) Аналитические запросы Данные Внешний источник данных Оператор Оператор Оператор Витрина данных Оперативный источник данных Подсистема анализа Аналитические запросы Данные Аналитик АналитикХранилище данных (©) Владислав Лавров, vlavrov.com
  • 18. 18 9.2. Понятие и модель данных OLAP (©) Владислав Лавров, vlavrov.com
  • 19. 19 OLAP (Online Analytical Processing) – технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений. Основное назначение OLAP-систем – поддержка аналитической деятельности, произвольных запросов пользователей - аналитиков. Цель OLAP- анализа – проверка возникающих гипотез. Понятие OLAP (©) Владислав Лавров, vlavrov.com
  • 20. 20 OLTP – On-Line Transaction Processing, оперативная транзакционная обработка данных OLAP – On-Line Analytical Processing оперативная аналитическая обработка данных Data OLTP OLAP (©) Владислав Лавров, vlavrov.com
  • 21. 21 Категории данных в хранилищах данных 1. Детальные данные 2. Агрегированные (обобщённые) данные 3. Метаданные Подсистема анализа Аналитик Подсистема ввода (OLTP) Оперативный источник данных Оперативный источник данных Оперативный источник данных Подсистема хранения данных Хранилище данных Подсистема ввода (OLTP) Подсистема ввода (OLTP) Аналити- ческие запросы Данные Внешний источник данных Оператор Оператор Оператор Агрегированные данные Детальные данные Обратный поток Входной поток Выходной поток Поток обобщения Репозиторий метаданных Поток метаданных Архивный поток Архивные данные (©) Владислав Лавров, vlavrov.com
  • 22. 22 Информационные потоки в хранилищах данных • входной поток - образуется данными, копируемыми из OLTP-систем в ХД; данные при этом часто очищаются и обогащаются путем добавления новых атрибутов; • поток обобщения - образуется агрегированием детальных данных и их сохранением в ХД; • архивный поток - образуется перемещением детальных данных, количество обращений к которым снизилось; • поток метаданных - образуется потоком информации о данных в репозиторий данных; • выходной поток - образуется данными, извлекаемыми пользователями; • обратный поток - образуется очищенными данными, записываемыми обратно в OLTP-системы. (©) Владислав Лавров, vlavrov.com
  • 23. 23 OLAP и OLTP. Характеристики и основные отличия Характеристики OLTP системы • Большой объем информации • Часто различные БД для разных подразделений • Нормализованная схема, отсутствие дублирования информации • Интенсивное изменение данных • Транзакционный режим работы • Транзакции затрагивают небольшой объем данных • Обработка текущих данных – мгновенный снимок • Много клиентов • Малое время отклика – несколько секунд (©) Владислав Лавров, vlavrov.com
  • 24. 24 OLAP и OLTP. Характеристики и основные отличия Характеристики OLAP системы • Большой объем информации • Синхронизированная информация из различных БД с использованием общих классификаторов • Ненормализованная схема БД с дубликатами • Данные меняются редко, Изменение происходит через пакетную загрузку • Выполняются сложные нерегламентированные запросы над большим объемом данных с широким применением группировок и агрегатных функций. • Анализ временных зависимостей • Небольшое количество работающих пользователей – аналитики и менеджеры • Большее время отклика (но все равно приемлемое) – несколько минут (©) Владислав Лавров, vlavrov.com
  • 25. 25 9.3. Правила Кодда для OLAP систем (©) Владислав Лавров, vlavrov.com
  • 26. 26 1. Концептуальное многомерное представление 2. Прозрачность. 3. Доступность. 4. Постоянная производительность при разработке отчётов. 5. Клиент-серверная архитектура. 6. Общая многомерность. 7. Динамическое управление разреженными матрицами. 8. Многопользовательская поддержка. 9. Неограниченные перекрёстные операции. 10. Интуитивная манипуляция данными. 11. Гибкие возможности получения отчётов. 12. Неограниченная размерность и число уровней агрегации. (©) Владислав Лавров, vlavrov.com
  • 29. 29 Операции, выполняемые над гиперкубом 1. Срез 2. Вращение (©) Владислав Лавров, vlavrov.com
  • 30. 30 Операции, выполняемые над гиперкубом 4. Детализация 3. Консолидация (©) Владислав Лавров, vlavrov.com
  • 31. 31 Фрагмент хранилища данных для OLAP (©) Владислав Лавров, vlavrov.com
  • 32. 32 Таблица фактов 1. Факты, связанные с транзакциями (Transaction facts). 2. Факты, связанные с "моментальными снимками" (Snapshot facts). 3. Факты, связанные с элементами документа (Line-item facts). 4. Факты, связанные с событиями или состоянием объекта (Event or state facts). Основные типы таблиц фактов (©) Владислав Лавров, vlavrov.com
  • 33. 33 Таблица измерений Таблицы измерений содержат неизменяемые либо редко изменяемые данные. Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ) для однозначной идентификации члена измерения. Если будущее измерение, основанное на данной таблице измерений, содержит иерархию, то таблица измерений также может содержать поля, указывающие на "родителя" данного члена в этой иерархии. Каждая таблица измерений должна находиться в отношении "один ко многим" с таблицей фактов. Скорость роста таблиц измерений должна быть незначительной по сравнению со скоростью роста таблицы фактов (©) Владислав Лавров, vlavrov.com
  • 35. 35 Архитектура OLAP-систем Слой извлечения, преобразования и загрузки данных Включает организационные подразделения и структуры организации всех уровней, поддерживающие базы данных оперативного доступа. Он представляет собой низовой уровень генерации информации, уровень внутренних и внешних информационных источников, вырабатывающих "сырую" информацию. Эта информация является рабочей для повседневной деятельности различных подразделений, которые ее вырабатывают и используют. Загрузка данных из источников в хранилище осуществляется специальными процедурами, позволяющими: 1. Извлекать данные из различных баз данных, текстовых файлов; 2. Выполнять различные типы согласования и очистки данных; 3. Преобразовывать данные при перемещении их от источников к хранилищу; 4. Загружать согласованные и "очищенные" данные в структуры хранилища (©) Владислав Лавров, vlavrov.com
  • 36. 36 Архитектура OLAP-систем Слой хранения данных Предназначен для хранения значимой, проверенной, согласованной, непротиворечивой и хронологически целостной информации, которую с достаточно высокой степенью уверенности можно считать достоверной. Как правило, ХД или ВД реализуется в виде реляционной БД, работающей под управлением достаточно мощной реляционной СУБД. Требования к СУБД: • поддержка эффективной работы с огромными объёмами информации; • развитые средства ограничения доступа; • обеспечение повышенного уровня надёжности и безопасности; • соответствие необходимым требованиям по восстановлению и архивации. Слой реализован в виде хранилища данных (ХД) или витрины данных (ВД). (©) Владислав Лавров, vlavrov.com
  • 37. 37 Архитектура OLAP-систем Слой анализа данных Для организации доступа аналитиков к данным ХД и ВД используются специализированные рабочие места, поддерживающие необходимые технологии как оперативного, так и долговременного анализа. Результаты работы аналитиков оформляются в виде отчетов, графиков, рекомендаций и сохраняются как на локальном компьютере, так и в общедоступном узле локальной сети. Современный подход к инструментальным средствам анализа не ограничивается использованием какой-то одной технологии. В настоящее время принято различать следующие основные вида аналитической деятельности: • стандартная отчетность; • нерегламентированные запросы; • многомерный анализ (OLAP); • извлечение знаний (data mining). (©) Владислав Лавров, vlavrov.com
  • 38. 38 Инструментальные средства OLAP-систем • Клиентские OLAP-средства • Серверные OLAP-средства (©) Владислав Лавров, vlavrov.com
  • 39. 39 Клиентские OLAP-средства Представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений) и их отображение, при этом сами агрегатные данные содержатся в кэше внутри адресного пространства такого OLAP-средства. Если исходные данные содержатся в настольной СУБД, вычисление агрегатных данных производится самим OLAP-средством. Если же источник исходных данных - серверная СУБД, многие из клиентских OLAP-средств посылают на сервер SQL- запросы, содержащие оператор GROUP BY, и в результате получают агрегатные данные, вычисленные на сервере. Функциональность реализована в пакетах статистической обработки данных (например, продуктах компаний StatSoft и SPSS), а также в пакетах Microsoft Office Excel и Microsoft Office Visio. (©) Владислав Лавров, vlavrov.com
  • 40. 40 Клиентские OLAP-средства В состав Microsoft Office 2010 входят три отдельных OLAP-компонента: 1. Клиент извлечения и обработки данных для Excel позволяет создавать проекты извлечения и обработки данных на базе служб SQL Server Analysis Services (SSAS) и управлять ими из Excel; 2. Средства анализа таблиц для приложения Excel позволяют использовать встроенные в службы SSAS функции извлечения и обработки информации для анализа данных, хранящихся в таблицах Excel; 3. Шаблоны извлечения и обработки данных для приложения Visio позволяют визуализировать деревья решений, деревья регрессии, кластерные диаграммы и сети зависимостей на диаграммах Visio. (©) Владислав Лавров, vlavrov.com
  • 41. 41 Клиентские OLAP-средства С помощью приложения Microsoft Office Visio можно аннотировать, дополнять и отображать графические представления результатов извлечения и обработки данных. Платформа SQL Server 2008 в сочетании с приложением Visio 2007 позволяет: • визуализировать деревья решений, деревья регрессии, кластерные диаграммы и сети зависимостей; • сохранять модели извлечения и обработки данных в виде документов Visio, внедрённых в другие документы приложений Office или сохранённых в виде веб-страниц. (©) Владислав Лавров, vlavrov.com
  • 42. 42 Серверные OLAP-средства В случае применения серверных OLAP-средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Средства анализа и обработки данных масштаба предприятия, как правило, базируются именно на серверных OLAP-средствах, например, таких как Oracle Database Server и Microsoft SQL Server. (©) Владислав Лавров, vlavrov.com
  • 44. • MOLAP (Multidimensional OLAP) • ROLAP (Relational OLAP) • HOLAP (Hybrid OLAP) Типы OLAP - серверов (©) Владислав Лавров, vlavrov.com
  • 45. MOLAP - сервер Детальные и агрегированные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат детальные реляционные данные. (©) Владислав Лавров, vlavrov.com
  • 46. Преимущества • Высокая производительность. • Структура и интерфейсы наилучшим образом соответствуют структуре аналитических запросов. • Многомерные СУБД легко справляются с задачами включения в информационную модель разнообразных встроенных функций. MOLAP - сервер (©) Владислав Лавров, vlavrov.com
  • 47. Недостатки • MOLAP могут работать только со своими собственными многомерными БД и основываются на патентованных технологиях для многомерных СУБД, поэтому являются наиболее дорогими. • По сравнению с реляционными, очень неэффективно используют внешнюю память, обладают худшими по сравнению с реляционными БД механизмами транзакций. • Отсутствуют единые стандарты на интерфейс, языки описания и манипулирования данными. • Не поддерживают репликацию данных, часто используемую в качестве механизма загрузки. MOLAP - сервер (©) Владислав Лавров, vlavrov.com
  • 48. ROLAP - сервер ROLAP-системы позволяют представлять данные, хранимые в классической реляционной базе, в многомерной форме или в плоских локальных таблицах на файл-сервере, обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных. Агрегаты хранятся в той же БД в специально созданных служебных таблицах. В этом случае гиперкуб эмулируется СУБД на логическом уровне. (©) Владислав Лавров, vlavrov.com
  • 49. Преимущества • Работа с очень большими БД • Развитые средства администрирования. • Инструменты ROLAP позволяют производить анализ непосредственно над хранилищем данных. • В случае переменной размерности задачи ROLAP не требуют физической реорганизации БД, как в случае MOLAP. • Системы ROLAP могут функционировать на гораздо менее мощных клиентских станциях, чем системы MOLAP. • Более высокий уровень защиты данных и хорошие возможности разграничения прав доступа. ROLAP - сервер (©) Владислав Лавров, vlavrov.com
  • 50. Недостатки • Ограниченные возможности с точки зрения расчета значений функционального типа. • Меньшая производительность, чем у MOLAP. Для обеспечения сравнимой с MOLAP производительности реляционные системы требуют тщательной проработки схемы БД и специальной настройки индексов. Но в результате этих операций производительность хорошо настроенных реляционных систем при использовании схемы "звезда" сравнима с производительностью систем на основе многомерных БД. ROLAP - сервер (©) Владислав Лавров, vlavrov.com
  • 51. HOLAP - сервер Детальные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных (©) Владислав Лавров, vlavrov.com
  • 52. • Схема «Звезда» • Схема «Снежинка» Схемы реализации OLAP в реляционных системах (©) Владислав Лавров, vlavrov.com
  • 53. Схема «Звезда» Каждое измерение содержится в одной таблице. (©) Владислав Лавров, vlavrov.com
  • 54. Схема «Звезда» Особенности: • Одна таблица фактов (fact table), которая сильно денормализована является центральной в схеме, может состоять из миллионов строк и содержит суммируемые или фактические данные, с помощью которых можно ответить на различные вопросы. • Несколько денормализованных таблиц измерений (dimensional table) имеют меньшее количество строк, чем таблицы фактов, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы фактов к дополнительной информации. • Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу фактов в качестве внешних ключей. Первичный ключ таблицы факта целиком состоит из первичных ключей всех таблиц размерности. • Агрегированные данные хранятся совместно с исходными. (©) Владислав Лавров, vlavrov.com
  • 55. Схема «Звезда» Преимущества Благодаря денормализации таблиц измерений упрощается восприятие структуры данных пользователем и формулировка запросов, уменьшается количество операций соединения таблиц при обработке запросов. Некоторые промышленные СУБД и инструменты класса OLAP / Reporting умеют использовать преимущества схемы "звезда" для сокращения времени выполнения запросов. (©) Владислав Лавров, vlavrov.com
  • 56. Схема «Звезда» Недостатки Денормализация таблиц измерений вносит избыточность данных, возрастает требуемый для их хранения объем памяти. Если агрегаты хранятся совместно с исходными данными, то в измерениях необходимо использовать дополнительный параметр - уровень иерархии. (©) Владислав Лавров, vlavrov.com
  • 57. Схема «Снежинка» Существует измерение, которое содержится в нескольких таблицах (©) Владислав Лавров, vlavrov.com
  • 58. Схема «Снежинка» Особенности: • Одна таблица фактов (fact table), которая сильно денормализована является центральной в схеме, может состоять из миллионов строк и содержать суммируемые или фактические данные, с помощью которых можно ответить на различные вопросы. • Несколько таблиц измерений (dimensional table), которые нормализованы в отличие от схемы "звезда". Имеют меньшее количество строк, чем таблицы фактов, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы фактов к дополнительной информации. Первичные ключи в них состоят из единственного атрибута (соответствуют единственному элементу измерения). • Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу фактов в качестве внешних ключей. Первичный ключ таблицы факта целиком состоит из первичных ключей всех таблиц размерности. • В схеме "снежинка" агрегированные данные могут храниться отдельно от исходных (©) Владислав Лавров, vlavrov.com
  • 59. Схема «Снежинка» Преимущества Нормализация таблиц измерений в отличие от схемы "звезда" позволяет минимизировать избыточность данных и более эффективно выполнять запросы, связанные со структурой значений измерений. (©) Владислав Лавров, vlavrov.com
  • 60. Схема «Снежинка» Недостатки За нормализацию таблиц измерений иногда приходится платить временем выполнения запросов. (©) Владислав Лавров, vlavrov.com