5. Содержание
1. Ждать нельзя внедрять. Или почему BI системы
выгодно использовать
- Что такое DWH/BI
- Преимущества BI систем в цифрах
2. Архитектура DWH/BI. Проблемы и разработанные
best practices
3. Кто такой QA в BI? Высокая востребованность
6. Содержание
1. Ждать нельзя внедрять. Или почему BI системы
выгодно использовать
- Что такое DWH/BI
- Преимущества BI систем в цифрах
2. Архитектура DWH/BI. Проблемы и разработанные
best practices
3. Кто такой QA в BI? Высокая востребованность
7. Что такое DWH/BI
Кто использует BI системы?
- Главный/технический директор(CEO/CTO)
- Главы отделов и управлений
- …
9. Зачем понадобились BI системы
Невозможно использовать существующие БД
Необходимо трансформировать данные в
информацию
Необходимо выработать единые методологии
и алгоритмы внутри компании
Растут объемы данных и нагрузки
Эффективное принятие решений
10. Что такое DWH/BI
BI – это технология и
программное решение
для сбора и анализа данных,
с целью оптимизации принятия
решений.
Источником информации в BI
является хранилище данных
(DWH)
12. Преимущества BI-систем в цифрах
Преимущества от внедрения BI (по BARC)
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
13. Содержание
1. Ждать нельзя внедрять. Или почему BI системы
выгодно использовать
- Что такое DWH/BI
- Преимущества BI систем в цифрах
2. Архитектура DWH/BI. Проблемы и разработанные
best practices
3. Кто такой QA в BI? Высокая востребованность
22. MARTS
Агрегация Предрасчеты
• Ошибки агрегирующих • Ошибки расчетов
функций • Неверная логика
• Фильтры расчетов
23. Регрессия
КАК тестировать постоянно изменяющиеся системы?
STG ETL1 ETL1
STORE MARTS1
build1
Сравнить тестовые
результаты
STG ETL2 ETL2
STORE MARTS2
build2
27. Отчетность
Данные Структура Расчеты
• Ошибки в • Неверная • Ошибки в
запросах в базе структура или расчете
• Неверная логика /и формат метрик
отчетов • Drills
+ Performance отчетов
28. Содержание
1. Ждать нельзя внедрять. Или почему BI системы
выгодно использовать
- Что такое DWH/BI
- Преимущества BI систем в цифрах
2. Архитектура DWH/BI. Проблемы и разработанные
best practices
3. Кто такой QA в BI? Высокая востребованность
30. Кто такой QA в BI?
- ETL - Комплексное
тестовое
- OLAP окружение
- Знания DW/BI
- Опыт - Менеджмент
- SQL
автоматизации
- Специфика BI и
заказчиков
Я могла бы начать рассказывать с детальной архитектуры хранилища данных, но не стану
Бизнес-анализ ( BI) нацелен на качественное повышение работы бизнеса. Широко применяется в таких сферах деятельности как производство, оптовая или розничная торговля, управление проектами, страхование, маркетинг, управление, бюджетирование и планирование.Невозможно использоватьсуществующие БД для отчетности и анализа данныхХранилища данных решают задачу трансформирования данных в информациюОни могут справиться с нагрузкой, поступающей от аналитиков и персонала, с очень быстрым ростом объема данныхНеобходимость быстрее и эффективнее реагировать на изменчивость рынка, в том числе на динамику потребительского поведения. Необходимость единых для всей компании методологии и алгоритмов расчета показателей
BI – это сбор, управление, распределение и анализ информации с целью выработки такого видения проблемы, которое позволяет принять наилучшее решение. BI – это процесс последовательного преобразования данных в прикладное знание, которое позволяет принимать решение. BI поддерживается данными из хранилищ, методами разработки данных, технологиями поддержки принятия решенийИначе, BI - это совокупность технологий, программного обеспечения и практик, направленных на достижение целей бизнеса путём наилучшего использования имеющихся данных.
предметно-ориентированыв них помещается только та информация, которая может быть полезной для работы систем поддержки принятия решений (DSS).интегрированные данныеОни интегрированы на множестве уровней: на уровне ключа, атрибута, на описательном, структурном уровне и так далее. Общие данные и общая обработка данных консолидированы и являются единообразными для всех данных, которые подобны или схожи в Хранилище данныхДанные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в DW данные очищаются от индивидуальных признаков, т. е. как бы приводятся к общему знаменателю. С этого момента они представляются пользователю в виде единого информационного пространства.Если в четырех разных приложениях пол клиента кодировался четырьмя различными способами, то в информационном хранилище будет использована единая для всех данных схема кодировки (например, f,m).- историчностьВ OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием DW от OLTP-систем является то, что данные в них сохраняют свою истинность в любой момент процесса чтения.Временная инвариантность данных в DW достигается за счет введения полей с атрибутом "время" (день, неделя, месяц) в ключи таблиц. В результате записи в таблицах DW никогда не изменяются, представляя собой снимки данных, сделанные в определенные отрезки времени. В DW содержатся как бы моментальные снимки данных. Каждый элемент в своем ключе явно или косвенно хранит временной параметр, например день, месяц или год.СтабильностьВ OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В DW-системах, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ)
Вопрос об эффекте внедрения BI систем стал одним из ключевых в ходе исследования BARC (Business Application Research Center) в 2011 году. Интересно, что BARC включает этот вопрос в свое исследование с 2002 года, так что данные в отчете компании представлены в динамике. Всего исследователи выделили 11 преимуществ от внедрения BI системы.Как следует из этих данных, наиболее доказанным количественным является достижение следующих преимуществ от использования BI систем: более быстрая подготовка отчетов, аналитики и планирование (39,3%); более точные отчетность, анализ и планирование (37,3%); улучшение качества данных (26,7%). Высокие показатели (более 30%) в категории доказанных, но не измеренных количественно преимуществ набрали помимо выше перечисленных также: повышение удовлетворенности клиентов, оптимизация процессов принятия решений, а также повышение удовлетворенности сотрудников.
Основным назначением BI-систем является обеспечение возможности анализа больших объемов информации для решения бизнес-задач. Это определяет специфику архитектуры таких систем, которая направлена на эффективное получение, обработку и предоставление данных конечным пользователям. В укрупненном виде архитектуру можно представить следующим образом:
End-To-EndтестированиеDWH возможно только на препродакшн среде из-за невозможности сымитировать постоянную нагрузку на базу источник, сымитировать постоянно изменяющиеся данные, а так же из-за больших объёмов данных и большой длительности загрузки данных на каждом этапе.ПОЭТОМУ тестирование DWH разбивается на тестирование отдельных его компонентов, что осложняется тем, что на входе каждого компонента поступают данные, полученные в результате работы предыдущего (+состояние базы, состояние ЕТЛей и др.)Нужно хорошо знать внутреннюю организацию и архитектуру хранилища.
STAGINGЕго назначение — минимизировать нагрузку на источники, поэтому данные на этом уровне представляют собой копии структур на момент извлечения из источников. Для поддержания актуальности данных приходиться применять механизм отслеживания измененных данных, коротко — streams, CDC.Полученные данные преобразуются к унифицированному виду на детальном уровне. При необходимости, на этапе преобразования данных происходит их «очистка» — например удаление дублирующихся записей.
Характеристика Стейджинга – захват и трансформацияДанные в разных форматах -> - проверять, что они резолваются верно проверка сведЕния данных к единой системе2. Часть данных может быть потеряна/испорченаПроверка данных по количеству и качеству на источнике и в хранилище3. Данные поступают real-timeНеобходимость создание урезанного датасетаТестирование процесса репликации4. Перфоманс – инкрементал и инишиал загрузка
Cleansing dataConsolidation dataMerging data- предназначен непосредственно для хранения значимой, проверенной, согласованной, непротиворечивой и хронологически целостной информации, которую с достаточно высокой степенью уверенностиможно считать достоверной. - Стор должен обеспечить целостность и поддерживать хронологию всевозможных корпоративных данных.
Неверные бизнес-правилаПропущенные ошибочные записиПроверка данных по количеству и качеству на STAGING и STOREИспользуем диаграммы и маппинг файлы !!!
Агрегации и предрасчеты
Проверить что агрег.функции работают с нужными данными и верным способомОшибки в логике расчетовПроверка логических правилИспользуем диаграммы и маппинг файлы !!!
Отчетность (Reporting) – создание различных интерактивных отчетов на основе on-line данных, с возможностью приведения их к необходимым стандартизированным формам.Интерактивная информационная панель (Dashboards) – интерактивные отчеты представляют собой удобные информационные формы с возможностью углубления в данные (функции drill-down, drill-up), позволяющие проводить сравнение различных данных и показателей на основе запрашиваемой аналитики.Нестандартные запросы (Adhocquery) – возможность самостоятельного формирования пользователями запросов по требованию для создания необходимых отчетов.
ХД строятся на основе многомерной модели данных. Многомерная модель данных подразумевает выделение отдельных измерений (время, география, клиент, счет) и фактов (объем продаж, доход, количество товара), которые анализируются по выбранным измерениям. Она выполняется по схеме "звезда" или "снежинка". Данные схемы предполагают выделение таблиц фактов и таблиц измерений. Каждая таблица фактов содержит детальные данные и внешние ключи на таблицы измерений.
Структура отчетности- Верная структура/формат- Соответствует требованиямДанные- Проверка данных на презентационном слое vs STAGINGПерфоманс- Отчеты должны работать в установленных временных промежуткахДоступ к данным- Проверка системы ролейФормулы и расчеты- Проверка расчетных значений метрикDrills- Проверка отображения данных при смещении к детальному уровню и наоборотSQL queries against source and target databases (varying)SQL queries to compare data at each stage of transformation (varying)Custom-built, reusable test utilities (e.g., Excel macros) to populate data from source systems and reports, automate comparison and flash data errors. Such utilities have the following advantages:Reduction in human errors of omission in identifying data mismatchesProductivity enhancementReusability across different stages and objectsTemplates to track defects/test results Test artifacts - test strategy, test plan and test cases; a common and largely re-usable templatesof these documents can prove handy in gaining speed in initiating testing for new functionalareas/reports/projects
знания DW/BI концепции и инструментовSQLпонимание ETL и OLAP архитектурыОпыт автоматизацииРабота с комплексным тестовым окружением Навыки менеджментаПонимание специфики BI систем и заказчиков