04 элементы business intelligence в работе аналитика ч2

5,391 views
5,353 views

Published on

Во второй части я продолжу говорить о еще более сложных вопросах BI . Поговорим о работе с данными разного объема и разной сложности, пробежимся по реляционной алгебре Кодда и на примере посмотрим, как задачки на анализ проблемы могут порождать составление аналитиком собственных моделей данных, ключевых показателей и сводных отчетов.

Published in: Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
5,391
On SlideShare
0
From Embeds
0
Number of Embeds
4,716
Actions
Shares
0
Downloads
47
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • На прошлых лекциях мы знакомились с ролями писателя и консультанта. Мы много говорили о том, как вести себя, как писать, как говорить, слушать, т.е. мы говорили о внешнем проявлении деятельности аналитика. Сегодня мы углубимся в суть аналитической деятельности и попытаемся определить основы того, как появляются результаты.
  • Как уже упоминалось в самом начале, часто работа аналитика связана с обработкой данных, уже структурированных и сложенных в хранилище. Естественный распространенный способ структуризации – табличное представление, будь то таблицы Excel , реляционные базы данных или списки SharePoint . Как работать с такими данными? Всем наверняка приходилось работать с MS Excel . Все наверняка использовали там формулы для вычисления значения ячейки на основе другой ячейки… Но можно ли это назвать BI анализом в полной мере? Работа с данными отличается от такой работы как обычная математика от векторного счисления. Собственно именно в этом и отличие. В основе формул MS Excel лежит работа с отдельными ячейками. При анализе данных нужны обобщенные способы обработки, не зависящие от количества обрабатываемых записей. Данные – это массивы, вектора, матрицы, если хотите. Но более употребимым термином являются многомерные кубы.
  • Как работать с такими данными? Всем наверняка приходилось работать с MS Excel . Все наверняка использовали там формулы для вычисления значения ячейки на основе другой ячейки… Но можно ли это назвать BI анализом в полной мере? Работа с данными отличается от такой работы как обычная математика от векторного счисления. Собственно именно в этом и отличие. В основе формул MS Excel лежит работа с отдельными ячейками. При анализе данных нужны обобщенные способы обработки, не зависящие от количества обрабатываемых записей. Данные – это массивы, вектора, матрицы, если хотите. Но более употребимым термином являются многомерные кубы.
  • Здесь мы хотим упомянуть такую сложную вещь как реляционная модель данных и табличное представление, которое, по сути, является «житейской интерпретацией» этой довольно строгой математической модели Таблица = отношение Заголовок = схема отношения Строка = кортеж Столбец = атрибут отношения
  • Отсутствие кортежей-дубликатов (Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения) Отсутствие упорядоченности кортежей Отсутствие упорядоченности атрибутов Атомарность значений всех атрибутов (Т.е. значение не содержит своей явной структуры) Первая нормальная форма
  • Отсутствие кортежей-дубликатов (Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения) Отсутствие упорядоченности кортежей Отсутствие упорядоченности атрибутов Атомарность значений всех атрибутов (Т.е. значение не содержит своей явной структуры) Первая нормальная форма
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Объединение, пересечение, разность Декартово произведение Ограничение Проекция Соединение отношений Деление отношений
  • Online Analytical Processing , or OLAP , is an approach to quickly provide answers to analytical queries that are multi-dimensional in nature
  • Давайте рассмотрим практическую задачу и на ее примере проследим процесс формализации, сбора данных, их использование и обработку. Key Performance Indicators (KPI) are financial and non-financial metrics used to help an organization define and measure progress toward organizational goals Пусть у нас есть задача проанализировать эффективность рекрутинговой деятельности отдела кадров.
  • Что из себя представляет схема рекрутинга? (Описание схемы деятельности) Чтобы определить качество деятельности необходимо определить некоторые количественные плановые и фактические показатели и сравнить их. Высокоуровневые показатели, консолидирующие информацию о всем процессе могут сопровождаться более детальными, демонстрирующими качество промежуточных этапов.
  • Итак, на какие высокоуровневые вопросы мы хотим получить ответы? Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот период? (План) Если при анализе данных факт совершенно недотягивает до плана, какие возникнут вопросы? Сколько кандидатов рассматривалось вообще, каким образом, на каких этапах и по каким причинам они отсеивались? Получив ответы на эти вопросы, мы можем получить наш первый отчет о количестве обработанных резюме и количестве кандидатов на каждом этапе обработки.
  • Итак, на какие высокоуровневые вопросы мы хотим получить ответы? Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот период? (План) Если при анализе данных факт совершенно недотягивает до плана, какие возникнут вопросы? Сколько кандидатов рассматривалось вообще, каким образом, на каких этапах и по каким причинам они отсеивались? Получив ответы на эти вопросы, мы можем получить наш первый отчет о количестве обработанных резюме и количестве кандидатов на каждом этапе обработки.
  • Чтобы в конце недели или месяца собрать такой отчет, что нужно делать? Нужно вести журнал, т.е. простую таблицу вот такого вида. Каждое резюме, попадающее в поле зрения рекрутера фиксируется, а затем фиксируется каждый пройденный этап. При некотором навыке владения MS Excel интересующий нас отчет может быть собран за минуту с помощью PivotTable
  • Чтобы в конце недели или месяца собрать такой отчет, что нужно делать? Нужно вести журнал, т.е. простую таблицу вот такого вида. Каждое резюме, попадающее в поле зрения рекрутера фиксируется, а затем фиксируется каждый пройденный этап. При некотором навыке владения MS Excel интересующий нас отчет может быть собран за минуту с помощью PivotTable
  • Расширяя эту модель, мы можем проводить анализ не только эффективности, но и оптимизировать работу. Например, данный журнал позволяет проанализировать, какие источники поступления резюме оказываются наиболее эффективными, проанализировать причины отказов. Расширяя эту модель, можно провести анализ соответствия уровня предложения запросам соискателей и т.п.Итак, сегодня мы познакомились с ролью BI
  • Итак, сегодня мы познакомились с ролью консультанта
  • 04 элементы business intelligence в работе аналитика ч2

    1. 1. Элементы Business Intelligence в работе аналитика Часть 2 Работа с данными, реляционные отношенияСвешникова Н.В.Москва, 2008 1
    2. 2. Сегодня мы завершим BI аналитик рассмотрение оставшихся вопросов…• Операции над данными, формирование отчетов• Табличное представление и реляционные отношения• Реляционная алгебра Кодда• Формирование собственных моделей данных 2
    3. 3. BI аналитик Источники данных Работа аналитика часто связана с обработкой данных, уже структурированных и сложенных в хранилище.Естественный распространенный способ структуризации – табличное представление, будь то таблицы MS Excel, реляционные базы данных или списки MS SharePoint. Data Server 3
    4. 4. BI аналитик Обработка данныхВ зависимости от объема и структуры данных меняются приемы обработки и математический аппарат: • Пока данные умещаются на одном экране в табличке Excel, нам часто проще работать с каждой отдельной ячейкой. Это операции над скалярными величинами. • Данные становятся динамичнее, количество строк в вашей таблице стремительно растет – Вы начинаете оперировать столбцами. Операции становятся векторными. • Усложняется структура данных, вы сопоставляете данные нескольких таблиц с разным набором столбцов и сложными взаимосвязями. Это операции над множествами. 4
    5. 5. BI аналитик Обработка данныхЧтобы оперировать большими объемами сложноструктурированных данных стоит знать основы•Теория множеств•Реляционная алгебра Кодда 5
    6. 6. Табличное представление и BI аналитик реляционное отношениеТабличное представление является «житейской» интерпретацией реляционного отношения – базового понятия реляционной модели данныхТаблица = отношение Столбец = атрибут Заголовок = схема отношения Строка = кортеж 6
    7. 7. Основные свойства BI аналитик отношений• Отсутствие кортежей-дубликатов Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения• Отсутствие упорядоченности кортежей• Отсутствие упорядоченности атрибутов• Атомарность значений всех атрибутов Т.е. значение не содержит своей явной структуры• Нормальна форма отношения 7
    8. 8. BI аналитик 1я нормальная форма • Нормальна форма отношенияНомер Имя Зарплата Отдел113 Иванов 25000 А213 Петров 35000 А134 Сидоров 16000 Б123 Федотова 43000 В421 Пупкина 39000 В Номер Имя Зарплата Отдел 113 Иванов 25000 А 213 Петров 35000 Ненормализованное 134 Сидоров 16000 Б отношение 123 Федотова 43000 В 421 Пупкина 39000 8
    9. 9. Реляционная алгебра BI аналитик Кодда Основана на традиционных теоретико-множественныхоперациях, дополненных некоторыми специальными операциями Объединение Ограничение Пересечение Проекция Разность Соединение отношений Декартово произведение Деление отношений 9
    10. 10. Теоретико-множественные BI аналитик операции: Объединение Результат С объединения А и В содержит кортежи, содержащиеся или в отношении А или в отношении В С Отношение А Отношение В № Имя Зарп. Отдел № Имя Зарп. Отдел113 Иванов 25000 А 234 Васильева 40000 С213 Петров 35000 А 213 Петров 35000 А134 Сидоров 16000 Б 134 Котова 19000 Б123 Федотова 43000 В 123 Федотова 43000 В421 Пупкина 39000 В 421 Макаров 30000 С234 Васильева 40000 С134 Котова 19000 Б421 Макаров 30000 С 10
    11. 11. Теоретико-множественные BI аналитик операции: Пересечение Результат С пересечения А и В содержит кортежи, содержащиеся и в отношении А и в отношении В Отношение А Отношение В № Имя Зарп. Отдел № Имя Зарп. Отдел113 Иванов 25000 А 234 Васильева 40000 С213 Петров 35000 А 213 Петров 35000 А134 Сидоров 16000 Б 123 Федотова 43000 В123 Федотова 43000 В 134 Котова 19000 Б421 Пупкина 39000 В 421 Макаров 30000 С Отношение С № Имя Зарп. Отдел 213 Петров 35000 А 123 Федотова 43000 В 11
    12. 12. Теоретико-множественные BI аналитик операции: Разность Результат С разности А и В содержит кортежи, содержащиеся в отношении А, но не содержащиеся в отношении В Отношение А Отношение В № Имя Зарп. Отдел № Имя Зарп. Отдел113 Иванов 25000 А 234 Васильева 40000 С213 Петров 35000 А 213 Петров 35000 А134 Сидоров 16000 Б 123 Федотова 43000 В123 Федотова 43000 В 134 Котова 19000 Б421 Пупкина 39000 В 421 Макаров 30000 С Отношение С № Имя Зарп. Отдел 113 Иванов 25000 А 134 Сидоров 16000 Б 421 Пупкина 39000 В 12
    13. 13. Теоретико-множественные BI аналитик операции: декартово произведение Кортежи результата С декартового произведения А и В есть объединение каждого кортежа А с каждым кортежом В Отношение А Отношение С№ Имя Зарп. Отдел № Имя Зарп. Отд Пр РМ113 Иванов 25000 А 113 Иванов 25000 А П1 Иванов213 Петров 35000 А 213 Петров 35000 А П1 Иванов134 Сидоров 16000 Б 134 Сидоров 16000 Б П1 Иванов123 Федотова 43000 В 123 Федотова 43000 В П1 Иванов421 Пупкина 39000 В 421 Пупкина 39000 В П1 Иванов 113 Иванов 25000 А П2 Васин Отношение В 213 Петров 35000 А П2 Васин Проект РМ 134 Сидоров 16000 Б П2 ВасинП1 Иванов 123 Федотова 43000 В П2 ВасинП2 Васин 421 Пупкина 39000 В П2 Васин 13
    14. 14. Специальные реляционные BI аналитик операции: ограничение Результат С ограничения А по условию bесть набор кортежей, атрибуты которых удовлетворяют условию b Отношение А Условие b № Имя Зарп. Отдел Заплата > 30000 113 Иванов 25000 А 213 Петров 35000 А 134 Сидоров 16000 Б 123 Федотова 43000 В 421 Пупкина 39000 В Отношение C № Имя Зарп. Отдел 213 Петров 35000 А Можно охарактеризовать, 123 Федотова 43000 В как «горизонтальную» вырезку из таблицы 421 Пупкина 39000 В 14
    15. 15. Специальные реляционные BI аналитик операции: проекцияРезультат С проекции А на множество атрибутов ai есть отношение с соответствующим набором атрибутов и удалением дубликатов Отношение А Проекция на… № Имя Зарп. Отдел Отдел 113 Иванов 25000 А 213 Петров 35000 А 134 Сидоров 16000 Б 123 Федотова 43000 В Отношение С 421 Пупкина 39000 В Отдел А Можно охарактеризовать, Б как «вертикальную» В вырезку из таблицы 15
    16. 16. Специальные реляционные BI аналитик операции: проекция и агрегирование Модель показателей и классификатор, рассмотренная ранее дополняет операцию проецирования операцией агрегирования Отношение А Проекция на… № Имя Зарп. Отдел Зарплату 113 Иванов 25000 А 213 Петров 35000 А Отношение С1 134 Сидоров 16000 Б Зарплата 123 Федотова 43000 В 25000 421 Пупкина 39000 В 35000 16000 Проекция с Отношение С2агрегированием на… 43000 ЗарплатаЗарплату 39000 158000 16
    17. 17. Специальные реляционные BI аналитик операции: Соединение отношений по условию Результат С соединения А и В по условию d есть ограничение по условию декартового произведения А и В Отношение А Условие№ Имя Зарп. Отдел Отдел из А = Отдел из В113 Иванов 25000 А213 Петров 35000 А134 Сидоров 16000 Б Отношение С123 Федотова 43000 В № Имя Зарп. Отд Рук. Ком421 Пупкина 39000 В 113 Иванов 25000 А Петренко 211 Отношение В 213 Петров 35000 А Петренко 211 Отд Рук. Комн 134 Сидоров 16000 Б Сидоренк 221 о А Петренко 211 123 Федотова 43000 В Васильев 315 Б Сидоренко 221 421 Пупкина 39000 В Васильев 315 В Васильев 315 17
    18. 18. Специальные реляционные BI аналитик операции: деление отношений Для выполнения операции А должно содержать все атрибуты В Результат С деления А на В есть множество кортежей А, которым соответствуют каждый из кортежей В Отношение А Отношение В№ Имя Зарп. Проект Проект113 Иванов 25000 П1 П1213 Петров 35000 П2 П2134 Сидоров 16000 П1 Отношение С213 Петров 35000 П1 № Имя Зарп. Проект421 Пупкина 39000 П1 213 Петров 35000 П2123 Федотова 43000 П2 421 Пупкина 39000 П1421 Пупкина 39000 П2 18
    19. 19. Инструменты многомерного BI аналитик анализа Online Analytical Processing, or OLAP, is an approach to quickly provide answers to analytical queries that are multi-dimensional in nature Позволяет запрашивать данные из различных источников: баз данных, отдельных файлов, например, MS Excel. Запросы составляются с помощью пользовательского интерфейса. Широкие вычислительные возможности Связывание данных из различных запросов Поддержка разнообразных представлений данных: таблицы, кросс-таблицы, графики, диаграммы. 19
    20. 20. Формирование собственных BI аналитик моделей данных Key Performance Indicators (KPI) are financial andnon-financial metrics used to help an organization define and measure progress toward organizational goals  Как правило, отчетность – это средство представления Ключевых показателей эффективности  Эти показатели задают метрики, которые позволяют руководству проводить диагностику ситуации и принимать обоснованные решения.  Рассмотрим формирование показателей и отчетности на простом примере. 20
    21. 21. BI аналитик Эффективность рекрутинга Пусть у нас есть задача проанализировать эффективность рекрутинговой деятельности отдела кадров. Для начала необходимо исследовать процесс Поступление заявок от подразделенийПубликация вакансий Активный поиск Обработка резюме, контакт с кандидатомОтказ Проведение собеседованияОтказ Прием на работу 21
    22. 22. BI аналитик Что мы измеряем?Высокоуровневые вопросы:  Сколько сотрудников удалось нанять? (Факт)  Сколько сотрудников требовалось нанять за этот период? (План)Если факт совершенно не соответствует плану, какие возникнут дополнительные вопросы?  Сколько кандидатов рассматривалось вообще?  Каким образом, на каких этапах и по каким причинам они отсеивались? 22
    23. 23. BI аналитик Отчетная форма Отвечая на эти вопросы, мы получаем нашу первую отчетную форму 23
    24. 24. Как собираются данные дляBI аналитик отчета? Для фиксирования плана нужно вести журнал по поступающим заявкам 24
    25. 25. Как собираются данные для BI аналитик отчета? Дляфиксирования факта нужен журнал пообработанным резюме 25
    26. 26. BI аналитик Что можно получить еще?Оптимизировать работу:  Какие источники поступления резюме наиболее эффективны?  Каковы причины отказов?Далее информационную модель можно расширять, чтобы получать ответы на все новые вопросы…  Соответствует ли предложение спросу на рынке труда?  Сколько времени уходит у сотрудника ОК на полную обработку одного резюме? И т.п. 26
    27. 27. BI аналитик | Подведем итогиРеляционные Обработка Реляционная отношения данных операции BI аналитик Сбор Формирование Формирование данных моделей данных отчетов и показателей 27
    28. 28. BI аналитик | Заключение • Вопросы? 28
    29. 29. Введение | Литература www.wikipedia.org С. Д. Кузнецов. «Основы баз данных. Курс лекций. Учебное пособие». – М.: Интернет-Университет Информационных технологий, 2005. – 488 стр. 29

    ×