SlideShare a Scribd company logo
1 of 67
Введение в курс.
Описательная статистика


Гринчук Александр Викторович
Статистика

• Статистика – наука сбора и анализа
  данных (существует более 200
  определений)
• Данные – зарегистрированная
  информация




                                       2
Учебный план

1.   Описательная статистика
2.   Основные статистические распределения
3.   Интервальное оценивание данных
4.   Дисперсионный анализ
5.   Регрессионный и корреляционный анализ
6.   Статистические методы динамики и
     прогнозирования

                                             3
Система оценивания

• Каждая основная тема завершается
  тестом (3 × 5% = 15 %)
• Домашние задания (3 × 5% = 15%)
• Задания для самостоятельной работы
  (15%)
• Контрольная (20%)
• Экзамен (30%)
                                       4
Использование Excel

•   Распространенность
•   Универсальность
•   Большой набор статистических функций
•   Наличие пакетов-расширений
•   Недостатки: иногда сложно реализовать
    нестандартные расчетные методики


                                            5
Статистические пакеты

• Statistica
• SPSS
• SAS




                             6
Решаемые в курсе задачи

•   Описание данных
•   Сравнение
•   Изучение зависимостей
•   Прогнозирование




                               7
Связи между разделами курса




                          8
Описание данных
• Методы описательной статистики
  позволяют эффективно обработать большие
  массивы данных и представить их в виде,
  более пригодном для анализа.
• Происходит своеобразное «сжатие»
  информации, получение небольшого
  количества наиболее важных
  характеристик, дающих возможность
  достаточно полно производить
  предварительный анализ и оценку.

                                        9
Сравнение
• Интервальная оценка и дисперсионный анализ
  позволяют сделать вывод о наличии либо отсутствии
  разницы между двумя ситуациями.
• Эти инструменты оказываются полезными при
  исследовании эффективности новых методов работы
  или в изменяющихся внешних условиях, отвечая на
  вопрос: являются ли наблюдаемые изменения
  случайностью или же можно определенно говорить
  о влиянии?
• Интервальная оценка дает возможность
  проанализировать точность получаемых результатов
  и надежность сделанных предсказаний.

                                                 10
Изучение зависимостей
• Разные факторы практической деятельности
  неизбежно оказываются связанными друг с другом.
• Корреляционный анализ выявляет такую связь на
  фоне неизбежных «шумов» и случайных выбросов.
• Более конкретно о наблюдаемой связи позволяет
  судить регрессионный анализ, дающий
  математическое выражение для обнаруженных
  зависимостей.
• После этого можно производить более подробное
  рассмотрение ситуации по схеме «что-если»: что
  произойдет при увеличении количества клиентов,
  изменении курса валют или закупочных цен и т.д.

                                                    11
Прогнозирование
• Статистические методы позволяют
  выделить основные составляющие
  изменяющегося во времени набора данных:
  долгосрочную тенденцию, периодические
  сезонные колебания, случайную
  составляющую.
• После этого можно не только составить
  прогноз, но и оценить его точность и
  возможность долгосрочного
  прогнозирования в текущих условиях.

                                        12
Почему это работает?

• Статистика опирается на универсальные
  инструменты, практически не зависящие
  от конкретной области применения
• Используются строгие математические
  методы, в результате не все «очевидное»
  оказывается правильным


                                        13
Пример: объединение наборов
                     данных




                          14
Пример: опережающие
                               индикаторы
• Обнаружен ряд показателей, опережающих на 3-6 месяцев спад
  или рост ВВП:
   1.  Продолжительность рабочей недели.
   2.  Средняя за неделю сумма по первичным заявлениям на выплату
       страхового пособия.
   3. Новые заказы производителю.
   4. Эффективность доставки продукции в оптовую торговлю.
   5. Договоры и заказы на производственное оборудование.
   6. Индекс разрешений на новое строительство частного жилья.
   7. Изменение наличных и заказанных товарно-материальных запасов.
   8. Изменение эластичных цен на материалы.
   9. Индекс курсовых цен на акции (S&P 500).
   10. Реальная денежная масса.
   11. Изменение объема непогашенного потребительского кредита и
       кредитов деловым предприятиям.

                                                                  15
Основные понятия

• Генеральная совокупность – все
  возможные (реально или умозрительно)
  значения случайной величины.
• Выборка – реально наблюдаемый набор
  значений.




                                         16
Главная задача
• По свойствам, полученным на основе
  данных выборка, определить свойства
  генеральной совокупности.
• Пример: социологический опрос. По
  данным опроса 1600 человек в РФ
  делаются прогнозы результатов выборов.
• Выборка – 1600 человек, генеральная
  совокупность – все избиратели.

                                       17
Связь с теорией вероятностей

• Теория вероятностей: известны свойства
  генеральной совокупности – можно
  предсказать свойства выборки
• Статистика: измерено свойство выборки
  – можно судить о свойстве генеральной
  совокупности


                                       18
Пример: подбрасывание
                        монеты
• Генеральная совокупность – всевозможные
  результаты бросания.
• Теория вероятностей: половина выпадения
  орлов, половина – решек. Из 200 испытаний
  с вероятностью 0,56 число выпадений орлов
  от 95 до 105.
• Статистика: произведено 200 испытаний,
  орел выпал 105 раз, можно ли сделать
  вывод о равновероятности выпадения орла
  и решки

                                         19
Стадии статистического
                   исследования

•   Планирование
•   Предварительное исследование
•   Оценивание неизвестной величины
•   Проверка статистических гипотез




                                      20
Планирование

• Определение необходимого (или
  доступного) количества данных
• Планирование сбора данных (возможно,
  с использованием случайной выборки)




                                         21
Предварительное исследование
• Оценка соответствия имеющихся данных
  предварительным прогнозам,
  фильтрация выбросов (цензурирование)
• Оценка распределения данных
  (положение, разброс, …)
• Грубая проверка предположения о связи
  данных
Большую роль играет графический анализ
                                      22
Оценка неизвестной величины

• Предсказание значения неизвестной
  величины (победитель на выборах,
  объем продаж в следующем квартале,
  уровень брака, …)
• Оценка точности полученного значения
  (доверительного интервала)


                                         23
Проверка статистических
                         гипотез

• Использование данных для
  осуществления выбора одной из двух
  (или более) различных возможностей.
  – Использование нового метода работы с
    клиентами увеличивает (не увеличивает)
    объем продаж
  – В Вашем учреждении зарплата зависит (не
    зависит) от уровня образования сотрудники

                                            24
Шкалы

•   Номинальная
•   Порядковая
•   Интервальная
•   Отношений




                       25
Шкалы

• Номинальная – качественная
  классификация. Не допускается
  сравнение, вычисления и т.д.
• Пример: пол (муж = 0, жен = 1), регионы
  (брестская =1, гомельская = 2, …)




                                        26
Шкалы

• Порядковая – позволяет ранжировать
  переменные, сравнивать между собой, но
  разность не имеет интерпретации.
• Пример: доход (низкий = 1, средний = 2,
  высокий = 3), шкала твердости
  материалов (алмаз = 10, корунд =9, …)


                                        27
Шкалы

• Интервальная – позволяет ранжировать
  данные и вычислять разности, но значение
  величины не имеет прямой интерпретации.
• Пример: температура по шкале Цельсия
  (20oC не означает вдвое больше, чем 10oC,
  но нагрев от 10oC до 20oC и от 20oC до 30oC
  требуют одинаковых затрат энергии)


                                            28
Шкалы

• Отношений – позволяет сравнивать не
  только разности, но и значения.
• Пример: зарплата, доход, количество
  покупателей.




                                        29
Пример

• Не путать шкалы! Иначе возможны
  ошибки и неоднозначности:
                Десятибальная          Пятибальная
             Группа 1 Группа 2     Группа 1 Группа 2
                    10         9           5         5
                     8         9           4         5
                     6         7           3         4
                     6         4           3         3
                     6         4           3         3

   Среднее         7,2       6,6         3,6        4



                                                         30
Дискретные и непрерывные
                       величины

• Дискретная: принимает только
  определенные набор значений
  (количество посетителей, оценка на
  экзамене, …)
• Непрерывная: может принимать любое
  значение (по крайней мере в
  определенном интервале): рост, вес,
  размер детали, доходность акций
                                        31
Представление данных
№ п/п
         1
         2
             Изменение
                   0,004431848
                   0,009093563
                                 • Гистограмма: данные
         3
         4
                     0,0175283
                   0,031739652     разбиваются на интервалы
         5         0,053990967
         6
         7
                   0,086277319
                   0,129517596
                                   («карманы») с последующим
                                   отображением на графике
         8         0,182649085
         9         0,241970725
        10         0,301137432
        11         0,352065327
        12         0,386668117
        13          0,39894228
        14         0,386668117
        15         0,352065327
        16         0,301137432
        17         0,241970725
        18         0,182649085
        19         0,129517596
        20         0,086277319
        21         0,053990967
        22         0,031739652
        23           0,0175283
        24         0,009093563
        25         0,004431848


                                                               32
Плотность вероятности

• Постепенное увеличение количества
  интервалов (при наличии достаточного
  количества наблюдений)
• Предельный переход к некоторой
  функции




                                         33
Предельный переход
Основной

Основной
Основной

Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной

Основной
Основной

Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной




Основной
           -Основной -Основной -Основной Основной Основной Основной Основной




                                                                               34
Обратный переход
Основной

Основной
Основной

Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной

Основной
Основной

Основной
Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
            Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной
           -Основной



Основной
           -Основной -Основной -Основной Основной Основной Основной Основной




                                                                               35
Геометрическая интерпретация




                           36
Гистограмма




          37
Дискретное распределение
 0,2
0,18
0,16
0,14
0,12
 0,1
0,08
0,06
0,04
0,02
  0
       1   2   3   4   5   6   7   8   9   10   11   12
                                                          38
Частоты и накопленные
                                    частоты
Данные
               Граница Частота       Накопленная Частота Накопленная
 6,858796
                       6         1              1       0,1        0,1
 9,779006
                       9         4              5       0,4        0,5
 10,21438
                      12         2              7       0,2        0,7
 6,330334
                      15         3             10       0,3          1
 6,398201
 12,90365
 7,354134
  13,8862
  4,66927   Основной                               Основной

 13,48427                                          Основной
            Основной
                                                   Основной
            Основной                               Основной
                                                   Основной
            Основной
                                                   Основной
                                                                 Частота
            Основной                               Основной
                                                                 Накопленная
                                                   Основной
            Основной
                                                   Основной
            Основной                               Основной




                                                                               39
Описательная статистика

• Методы описательной статистики –
  методы описания выборок с помощью
  различных показателей и графиков




                                      40
Показатели описательной
                      статистики

• Показатели положения:
  среднее, медиана, мода, минимальной и
  максимальное значения, квартили
• Показатели разброса:
  дисперсия, стандартное
  отклонение, размах, межквартильный
  размах
• Показатели асимметрии: коэффициент
  асимметрии, положение медианы
  относительно среднего
• Показатели формы: эксцесс
                                          41
Выборочное среднее




                 42
Вариационный ряд

• Упорядоченный набор данных
  (отсортированная в порядке возрастания
  выборка)
• 2, 1, 4, 6, 6 – вариационный ряд: 1, 2, 4, 6, 6




                                               43
Медиана




      44
Мода




   45
Квартили

• Нижний (1-й квартиль) – значение, ниже
  которого находятся 25% значений
  вариационного ряда
• Верхний (3-й квартиль) – значение, ниже
  которого находятся 75% значений
  вариационного ряда
• Медиана – второй квартиль

                                        46
Выборочная дисперсия




                   47
Стандартное отклонение




                     48
Асимметрия

  • Показывает, насколько симметрично
    расположены данные относительно
    среднего
Асимметрия > 0   Асимметрия = 0      Асимметрия < 0




                                                      49
Асимметрия




        50
Эксцесс
• Показатель «остроты» распределения.
• Меньше эксцесс – «острее» распределение
                                       Эксцесс = 0
                     0.3




                                       Эксцесс = 1
                     0.2




                     0.1




    3    2    1         1   2   3
                                               51
Эксцесс
• Эталонным является
  нормальное распределение
• Большие отрицательные
  значения эксцесса
  наблюдаются у
  бимодальных
  распределений




                                   52
Нормальное распределение
                                                         x2
                                              1      
Стандартизованное:                 f ( x)       e       2
                                              2

                        ( x )2
                    
            1             2 2
f ( x)         e
           2 


  Среднее значение = µ
  Среднеквадратичное отклонение = σ
  Асимметрия = 0
  Эксцесс = 0

                                                              53
Нормальное распределение

                0.4
                      µ=0
                        1
                      σ=1
                        2
                0.3




                0.2




                0.1




   4      2           2   4




                                54
Некоторые свойства
• 68% значений
  отклоняются от
  среднего не
  более, чем на
  величину одного
  стандартного
  отклонения, 95% --
  двух, 99,7% -- трех.
• Распределение
  симметричное, эксц
  есс равен 0.
                                 55
Excel

• Содержит все основные
  функции, необходимые для расчета
  показателей описательной статистики




                                        56
Надстройка «Пакет анализа»




                         57
Особенности работы




                 58
Особенности работы




                 59
Excel 2007

• Лента вместо панелей
Подключение пакета анализа
Подключение пакета анализа
Подключение пакета анализа
Статистические функции
Подсказки при вводе функций
Мини-панель инструментов
Дополнительно

• Улучшенная точность расчетов
• Упрощенное построение диаграмм
• Хотя, на первых порах, и непривычно

More Related Content

Viewers also liked (15)

Flyer for restaurants
Flyer for restaurantsFlyer for restaurants
Flyer for restaurants
 
Presentatie1
Presentatie1Presentatie1
Presentatie1
 
Presentatie1
Presentatie1Presentatie1
Presentatie1
 
Question 5
Question 5Question 5
Question 5
 
Javascript function
Javascript   functionJavascript   function
Javascript function
 
Sp New Home
Sp New HomeSp New Home
Sp New Home
 
Ranking danone
Ranking danoneRanking danone
Ranking danone
 
Treselle Systems_ CIO cert
Treselle Systems_ CIO certTreselle Systems_ CIO cert
Treselle Systems_ CIO cert
 
Work-Life Balance
Work-Life BalanceWork-Life Balance
Work-Life Balance
 
Qualified to Operate
Qualified to OperateQualified to Operate
Qualified to Operate
 
Ez Mark
Ez MarkEz Mark
Ez Mark
 
Consonante P
Consonante PConsonante P
Consonante P
 
Libro blanco cap1
Libro blanco cap1Libro blanco cap1
Libro blanco cap1
 
CV-zaheer-shah
CV-zaheer-shahCV-zaheer-shah
CV-zaheer-shah
 
Videojuegos y narrativa (UOC Sevilla 29/11/2012)
Videojuegos y narrativa (UOC Sevilla 29/11/2012)Videojuegos y narrativa (UOC Sevilla 29/11/2012)
Videojuegos y narrativa (UOC Sevilla 29/11/2012)
 

Similar to 01 введение 2012

Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Andrii Gakhov
 
Математический аппарат в UX. Как проверять гипотезы на статистических данных
Математический аппарат в UX. Как проверять гипотезы на статистических данныхМатематический аппарат в UX. Как проверять гипотезы на статистических данных
Математический аппарат в UX. Как проверять гипотезы на статистических данныхПрофсоUX
 
Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?
Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?
Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?Sciencehit.by
 
Лекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследованияЛекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследованияКонстантин Князев
 
Инструменты аналитики для интерпретации бизнес-данных, И. Гулида
Инструменты аналитики для интерпретации бизнес-данных, И. ГулидаИнструменты аналитики для интерпретации бизнес-данных, И. Гулида
Инструменты аналитики для интерпретации бизнес-данных, И. ГулидаDataArt
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организацииAlexey Fedorischev
 
HR аналитика - что это
HR аналитика - что этоHR аналитика - что это
HR аналитика - что этоSvetlana Ponomarenko
 
SEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииSEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииСергей Кокшаров
 
инструменты руководителя (мм и рмот)
инструменты руководителя (мм и рмот)инструменты руководителя (мм и рмот)
инструменты руководителя (мм и рмот)Татьяна Сизикова
 
Учебная аналитика
Учебная аналитикаУчебная аналитика
Учебная аналитикаMaxim Skryabin
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Andrii Gakhov
 
Mass fundraising tools and methods
Mass fundraising tools and methodsMass fundraising tools and methods
Mass fundraising tools and methodsAgnessa Sarkisyan
 
Оценка трудоёмкости и сроков разработки ПО
Оценка трудоёмкости и сроков разработки ПООценка трудоёмкости и сроков разработки ПО
Оценка трудоёмкости и сроков разработки ПОSQALab
 
Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"
Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"
Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"Vladimir Leonenko
 
Cl shg 2016 разбор решений-бизнес секция-v2
Cl shg 2016 разбор решений-бизнес секция-v2Cl shg 2016 разбор решений-бизнес секция-v2
Cl shg 2016 разбор решений-бизнес секция-v2Changellenge >> Capital
 
Применение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитикиПрименение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитикиDialogMarketingDays
 
Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...DialogMarketingDays
 

Similar to 01 введение 2012 (20)

Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 
Математический аппарат в UX. Как проверять гипотезы на статистических данных
Математический аппарат в UX. Как проверять гипотезы на статистических данныхМатематический аппарат в UX. Как проверять гипотезы на статистических данных
Математический аппарат в UX. Как проверять гипотезы на статистических данных
 
Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?
Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?
Как проверять свои идеи и быть уверенным, что ваш продукт получится хорошим?
 
Лекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследованияЛекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследования
 
Инструменты аналитики для интерпретации бизнес-данных, И. Гулида
Инструменты аналитики для интерпретации бизнес-данных, И. ГулидаИнструменты аналитики для интерпретации бизнес-данных, И. Гулида
Инструменты аналитики для интерпретации бизнес-данных, И. Гулида
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организации
 
HR аналитика - что это
HR аналитика - что этоHR аналитика - что это
HR аналитика - что это
 
D1.03 ppt market research-v5
D1.03 ppt market research-v5D1.03 ppt market research-v5
D1.03 ppt market research-v5
 
SEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииSEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендации
 
«SEO-эксперименты и к чему они приводят»
«SEO-эксперименты и к чему они приводят» «SEO-эксперименты и к чему они приводят»
«SEO-эксперименты и к чему они приводят»
 
инструменты руководителя (мм и рмот)
инструменты руководителя (мм и рмот)инструменты руководителя (мм и рмот)
инструменты руководителя (мм и рмот)
 
Cl mt code-feedback-senior
Cl mt code-feedback-seniorCl mt code-feedback-senior
Cl mt code-feedback-senior
 
Учебная аналитика
Учебная аналитикаУчебная аналитика
Учебная аналитика
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014
 
Mass fundraising tools and methods
Mass fundraising tools and methodsMass fundraising tools and methods
Mass fundraising tools and methods
 
Оценка трудоёмкости и сроков разработки ПО
Оценка трудоёмкости и сроков разработки ПООценка трудоёмкости и сроков разработки ПО
Оценка трудоёмкости и сроков разработки ПО
 
Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"
Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"
Томас Дэвенпорт и Ким Джин Хо "О чем говорят цифры"
 
Cl shg 2016 разбор решений-бизнес секция-v2
Cl shg 2016 разбор решений-бизнес секция-v2Cl shg 2016 разбор решений-бизнес секция-v2
Cl shg 2016 разбор решений-бизнес секция-v2
 
Применение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитикиПрименение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитики
 
Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...
 

01 введение 2012

  • 1. Введение в курс. Описательная статистика Гринчук Александр Викторович
  • 2. Статистика • Статистика – наука сбора и анализа данных (существует более 200 определений) • Данные – зарегистрированная информация 2
  • 3. Учебный план 1. Описательная статистика 2. Основные статистические распределения 3. Интервальное оценивание данных 4. Дисперсионный анализ 5. Регрессионный и корреляционный анализ 6. Статистические методы динамики и прогнозирования 3
  • 4. Система оценивания • Каждая основная тема завершается тестом (3 × 5% = 15 %) • Домашние задания (3 × 5% = 15%) • Задания для самостоятельной работы (15%) • Контрольная (20%) • Экзамен (30%) 4
  • 5. Использование Excel • Распространенность • Универсальность • Большой набор статистических функций • Наличие пакетов-расширений • Недостатки: иногда сложно реализовать нестандартные расчетные методики 5
  • 7. Решаемые в курсе задачи • Описание данных • Сравнение • Изучение зависимостей • Прогнозирование 7
  • 9. Описание данных • Методы описательной статистики позволяют эффективно обработать большие массивы данных и представить их в виде, более пригодном для анализа. • Происходит своеобразное «сжатие» информации, получение небольшого количества наиболее важных характеристик, дающих возможность достаточно полно производить предварительный анализ и оценку. 9
  • 10. Сравнение • Интервальная оценка и дисперсионный анализ позволяют сделать вывод о наличии либо отсутствии разницы между двумя ситуациями. • Эти инструменты оказываются полезными при исследовании эффективности новых методов работы или в изменяющихся внешних условиях, отвечая на вопрос: являются ли наблюдаемые изменения случайностью или же можно определенно говорить о влиянии? • Интервальная оценка дает возможность проанализировать точность получаемых результатов и надежность сделанных предсказаний. 10
  • 11. Изучение зависимостей • Разные факторы практической деятельности неизбежно оказываются связанными друг с другом. • Корреляционный анализ выявляет такую связь на фоне неизбежных «шумов» и случайных выбросов. • Более конкретно о наблюдаемой связи позволяет судить регрессионный анализ, дающий математическое выражение для обнаруженных зависимостей. • После этого можно производить более подробное рассмотрение ситуации по схеме «что-если»: что произойдет при увеличении количества клиентов, изменении курса валют или закупочных цен и т.д. 11
  • 12. Прогнозирование • Статистические методы позволяют выделить основные составляющие изменяющегося во времени набора данных: долгосрочную тенденцию, периодические сезонные колебания, случайную составляющую. • После этого можно не только составить прогноз, но и оценить его точность и возможность долгосрочного прогнозирования в текущих условиях. 12
  • 13. Почему это работает? • Статистика опирается на универсальные инструменты, практически не зависящие от конкретной области применения • Используются строгие математические методы, в результате не все «очевидное» оказывается правильным 13
  • 15. Пример: опережающие индикаторы • Обнаружен ряд показателей, опережающих на 3-6 месяцев спад или рост ВВП: 1. Продолжительность рабочей недели. 2. Средняя за неделю сумма по первичным заявлениям на выплату страхового пособия. 3. Новые заказы производителю. 4. Эффективность доставки продукции в оптовую торговлю. 5. Договоры и заказы на производственное оборудование. 6. Индекс разрешений на новое строительство частного жилья. 7. Изменение наличных и заказанных товарно-материальных запасов. 8. Изменение эластичных цен на материалы. 9. Индекс курсовых цен на акции (S&P 500). 10. Реальная денежная масса. 11. Изменение объема непогашенного потребительского кредита и кредитов деловым предприятиям. 15
  • 16. Основные понятия • Генеральная совокупность – все возможные (реально или умозрительно) значения случайной величины. • Выборка – реально наблюдаемый набор значений. 16
  • 17. Главная задача • По свойствам, полученным на основе данных выборка, определить свойства генеральной совокупности. • Пример: социологический опрос. По данным опроса 1600 человек в РФ делаются прогнозы результатов выборов. • Выборка – 1600 человек, генеральная совокупность – все избиратели. 17
  • 18. Связь с теорией вероятностей • Теория вероятностей: известны свойства генеральной совокупности – можно предсказать свойства выборки • Статистика: измерено свойство выборки – можно судить о свойстве генеральной совокупности 18
  • 19. Пример: подбрасывание монеты • Генеральная совокупность – всевозможные результаты бросания. • Теория вероятностей: половина выпадения орлов, половина – решек. Из 200 испытаний с вероятностью 0,56 число выпадений орлов от 95 до 105. • Статистика: произведено 200 испытаний, орел выпал 105 раз, можно ли сделать вывод о равновероятности выпадения орла и решки 19
  • 20. Стадии статистического исследования • Планирование • Предварительное исследование • Оценивание неизвестной величины • Проверка статистических гипотез 20
  • 21. Планирование • Определение необходимого (или доступного) количества данных • Планирование сбора данных (возможно, с использованием случайной выборки) 21
  • 22. Предварительное исследование • Оценка соответствия имеющихся данных предварительным прогнозам, фильтрация выбросов (цензурирование) • Оценка распределения данных (положение, разброс, …) • Грубая проверка предположения о связи данных Большую роль играет графический анализ 22
  • 23. Оценка неизвестной величины • Предсказание значения неизвестной величины (победитель на выборах, объем продаж в следующем квартале, уровень брака, …) • Оценка точности полученного значения (доверительного интервала) 23
  • 24. Проверка статистических гипотез • Использование данных для осуществления выбора одной из двух (или более) различных возможностей. – Использование нового метода работы с клиентами увеличивает (не увеличивает) объем продаж – В Вашем учреждении зарплата зависит (не зависит) от уровня образования сотрудники 24
  • 25. Шкалы • Номинальная • Порядковая • Интервальная • Отношений 25
  • 26. Шкалы • Номинальная – качественная классификация. Не допускается сравнение, вычисления и т.д. • Пример: пол (муж = 0, жен = 1), регионы (брестская =1, гомельская = 2, …) 26
  • 27. Шкалы • Порядковая – позволяет ранжировать переменные, сравнивать между собой, но разность не имеет интерпретации. • Пример: доход (низкий = 1, средний = 2, высокий = 3), шкала твердости материалов (алмаз = 10, корунд =9, …) 27
  • 28. Шкалы • Интервальная – позволяет ранжировать данные и вычислять разности, но значение величины не имеет прямой интерпретации. • Пример: температура по шкале Цельсия (20oC не означает вдвое больше, чем 10oC, но нагрев от 10oC до 20oC и от 20oC до 30oC требуют одинаковых затрат энергии) 28
  • 29. Шкалы • Отношений – позволяет сравнивать не только разности, но и значения. • Пример: зарплата, доход, количество покупателей. 29
  • 30. Пример • Не путать шкалы! Иначе возможны ошибки и неоднозначности: Десятибальная Пятибальная Группа 1 Группа 2 Группа 1 Группа 2 10 9 5 5 8 9 4 5 6 7 3 4 6 4 3 3 6 4 3 3 Среднее 7,2 6,6 3,6 4 30
  • 31. Дискретные и непрерывные величины • Дискретная: принимает только определенные набор значений (количество посетителей, оценка на экзамене, …) • Непрерывная: может принимать любое значение (по крайней мере в определенном интервале): рост, вес, размер детали, доходность акций 31
  • 32. Представление данных № п/п 1 2 Изменение 0,004431848 0,009093563 • Гистограмма: данные 3 4 0,0175283 0,031739652 разбиваются на интервалы 5 0,053990967 6 7 0,086277319 0,129517596 («карманы») с последующим отображением на графике 8 0,182649085 9 0,241970725 10 0,301137432 11 0,352065327 12 0,386668117 13 0,39894228 14 0,386668117 15 0,352065327 16 0,301137432 17 0,241970725 18 0,182649085 19 0,129517596 20 0,086277319 21 0,053990967 22 0,031739652 23 0,0175283 24 0,009093563 25 0,004431848 32
  • 33. Плотность вероятности • Постепенное увеличение количества интервалов (при наличии достаточного количества наблюдений) • Предельный переход к некоторой функции 33
  • 34. Предельный переход Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной Основной -Основной -Основной -Основной Основной Основной Основной Основной 34
  • 35. Обратный переход Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной -Основной Основной -Основной -Основной -Основной Основной Основной Основной Основной 35
  • 38. Дискретное распределение 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 38
  • 39. Частоты и накопленные частоты Данные Граница Частота Накопленная Частота Накопленная 6,858796 6 1 1 0,1 0,1 9,779006 9 4 5 0,4 0,5 10,21438 12 2 7 0,2 0,7 6,330334 15 3 10 0,3 1 6,398201 12,90365 7,354134 13,8862 4,66927 Основной Основной 13,48427 Основной Основной Основной Основной Основной Основной Основной Основной Частота Основной Основной Накопленная Основной Основной Основной Основной Основной 39
  • 40. Описательная статистика • Методы описательной статистики – методы описания выборок с помощью различных показателей и графиков 40
  • 41. Показатели описательной статистики • Показатели положения: среднее, медиана, мода, минимальной и максимальное значения, квартили • Показатели разброса: дисперсия, стандартное отклонение, размах, межквартильный размах • Показатели асимметрии: коэффициент асимметрии, положение медианы относительно среднего • Показатели формы: эксцесс 41
  • 43. Вариационный ряд • Упорядоченный набор данных (отсортированная в порядке возрастания выборка) • 2, 1, 4, 6, 6 – вариационный ряд: 1, 2, 4, 6, 6 43
  • 45. Мода 45
  • 46. Квартили • Нижний (1-й квартиль) – значение, ниже которого находятся 25% значений вариационного ряда • Верхний (3-й квартиль) – значение, ниже которого находятся 75% значений вариационного ряда • Медиана – второй квартиль 46
  • 49. Асимметрия • Показывает, насколько симметрично расположены данные относительно среднего Асимметрия > 0 Асимметрия = 0 Асимметрия < 0 49
  • 51. Эксцесс • Показатель «остроты» распределения. • Меньше эксцесс – «острее» распределение Эксцесс = 0 0.3 Эксцесс = 1 0.2 0.1  3  2  1 1 2 3 51
  • 52. Эксцесс • Эталонным является нормальное распределение • Большие отрицательные значения эксцесса наблюдаются у бимодальных распределений 52
  • 53. Нормальное распределение x2 1  Стандартизованное: f ( x)  e 2 2 ( x )2  1 2 2 f ( x)  e 2  Среднее значение = µ Среднеквадратичное отклонение = σ Асимметрия = 0 Эксцесс = 0 53
  • 54. Нормальное распределение 0.4 µ=0 1 σ=1 2 0.3 0.2 0.1  4  2 2 4 54
  • 55. Некоторые свойства • 68% значений отклоняются от среднего не более, чем на величину одного стандартного отклонения, 95% -- двух, 99,7% -- трех. • Распределение симметричное, эксц есс равен 0. 55
  • 56. Excel • Содержит все основные функции, необходимые для расчета показателей описательной статистики 56
  • 60. Excel 2007 • Лента вместо панелей
  • 67. Дополнительно • Улучшенная точность расчетов • Упрощенное построение диаграмм • Хотя, на первых порах, и непривычно