2. Статистика
• Статистика – наука сбора и анализа
данных (существует более 200
определений)
• Данные – зарегистрированная
информация
2
3. Учебный план
1. Описательная статистика
2. Основные статистические распределения
3. Интервальное оценивание данных
4. Дисперсионный анализ
5. Регрессионный и корреляционный анализ
6. Статистические методы динамики и
прогнозирования
3
4. Система оценивания
• Каждая основная тема завершается
тестом (3 × 5% = 15 %)
• Домашние задания (3 × 5% = 15%)
• Задания для самостоятельной работы
(15%)
• Контрольная (20%)
• Экзамен (30%)
4
5. Использование Excel
• Распространенность
• Универсальность
• Большой набор статистических функций
• Наличие пакетов-расширений
• Недостатки: иногда сложно реализовать
нестандартные расчетные методики
5
9. Описание данных
• Методы описательной статистики
позволяют эффективно обработать большие
массивы данных и представить их в виде,
более пригодном для анализа.
• Происходит своеобразное «сжатие»
информации, получение небольшого
количества наиболее важных
характеристик, дающих возможность
достаточно полно производить
предварительный анализ и оценку.
9
10. Сравнение
• Интервальная оценка и дисперсионный анализ
позволяют сделать вывод о наличии либо отсутствии
разницы между двумя ситуациями.
• Эти инструменты оказываются полезными при
исследовании эффективности новых методов работы
или в изменяющихся внешних условиях, отвечая на
вопрос: являются ли наблюдаемые изменения
случайностью или же можно определенно говорить
о влиянии?
• Интервальная оценка дает возможность
проанализировать точность получаемых результатов
и надежность сделанных предсказаний.
10
11. Изучение зависимостей
• Разные факторы практической деятельности
неизбежно оказываются связанными друг с другом.
• Корреляционный анализ выявляет такую связь на
фоне неизбежных «шумов» и случайных выбросов.
• Более конкретно о наблюдаемой связи позволяет
судить регрессионный анализ, дающий
математическое выражение для обнаруженных
зависимостей.
• После этого можно производить более подробное
рассмотрение ситуации по схеме «что-если»: что
произойдет при увеличении количества клиентов,
изменении курса валют или закупочных цен и т.д.
11
12. Прогнозирование
• Статистические методы позволяют
выделить основные составляющие
изменяющегося во времени набора данных:
долгосрочную тенденцию, периодические
сезонные колебания, случайную
составляющую.
• После этого можно не только составить
прогноз, но и оценить его точность и
возможность долгосрочного
прогнозирования в текущих условиях.
12
13. Почему это работает?
• Статистика опирается на универсальные
инструменты, практически не зависящие
от конкретной области применения
• Используются строгие математические
методы, в результате не все «очевидное»
оказывается правильным
13
15. Пример: опережающие
индикаторы
• Обнаружен ряд показателей, опережающих на 3-6 месяцев спад
или рост ВВП:
1. Продолжительность рабочей недели.
2. Средняя за неделю сумма по первичным заявлениям на выплату
страхового пособия.
3. Новые заказы производителю.
4. Эффективность доставки продукции в оптовую торговлю.
5. Договоры и заказы на производственное оборудование.
6. Индекс разрешений на новое строительство частного жилья.
7. Изменение наличных и заказанных товарно-материальных запасов.
8. Изменение эластичных цен на материалы.
9. Индекс курсовых цен на акции (S&P 500).
10. Реальная денежная масса.
11. Изменение объема непогашенного потребительского кредита и
кредитов деловым предприятиям.
15
16. Основные понятия
• Генеральная совокупность – все
возможные (реально или умозрительно)
значения случайной величины.
• Выборка – реально наблюдаемый набор
значений.
16
17. Главная задача
• По свойствам, полученным на основе
данных выборка, определить свойства
генеральной совокупности.
• Пример: социологический опрос. По
данным опроса 1600 человек в РФ
делаются прогнозы результатов выборов.
• Выборка – 1600 человек, генеральная
совокупность – все избиратели.
17
18. Связь с теорией вероятностей
• Теория вероятностей: известны свойства
генеральной совокупности – можно
предсказать свойства выборки
• Статистика: измерено свойство выборки
– можно судить о свойстве генеральной
совокупности
18
19. Пример: подбрасывание
монеты
• Генеральная совокупность – всевозможные
результаты бросания.
• Теория вероятностей: половина выпадения
орлов, половина – решек. Из 200 испытаний
с вероятностью 0,56 число выпадений орлов
от 95 до 105.
• Статистика: произведено 200 испытаний,
орел выпал 105 раз, можно ли сделать
вывод о равновероятности выпадения орла
и решки
19
20. Стадии статистического
исследования
• Планирование
• Предварительное исследование
• Оценивание неизвестной величины
• Проверка статистических гипотез
20
22. Предварительное исследование
• Оценка соответствия имеющихся данных
предварительным прогнозам,
фильтрация выбросов (цензурирование)
• Оценка распределения данных
(положение, разброс, …)
• Грубая проверка предположения о связи
данных
Большую роль играет графический анализ
22
23. Оценка неизвестной величины
• Предсказание значения неизвестной
величины (победитель на выборах,
объем продаж в следующем квартале,
уровень брака, …)
• Оценка точности полученного значения
(доверительного интервала)
23
24. Проверка статистических
гипотез
• Использование данных для
осуществления выбора одной из двух
(или более) различных возможностей.
– Использование нового метода работы с
клиентами увеличивает (не увеличивает)
объем продаж
– В Вашем учреждении зарплата зависит (не
зависит) от уровня образования сотрудники
24
26. Шкалы
• Номинальная – качественная
классификация. Не допускается
сравнение, вычисления и т.д.
• Пример: пол (муж = 0, жен = 1), регионы
(брестская =1, гомельская = 2, …)
26
27. Шкалы
• Порядковая – позволяет ранжировать
переменные, сравнивать между собой, но
разность не имеет интерпретации.
• Пример: доход (низкий = 1, средний = 2,
высокий = 3), шкала твердости
материалов (алмаз = 10, корунд =9, …)
27
28. Шкалы
• Интервальная – позволяет ранжировать
данные и вычислять разности, но значение
величины не имеет прямой интерпретации.
• Пример: температура по шкале Цельсия
(20oC не означает вдвое больше, чем 10oC,
но нагрев от 10oC до 20oC и от 20oC до 30oC
требуют одинаковых затрат энергии)
28
29. Шкалы
• Отношений – позволяет сравнивать не
только разности, но и значения.
• Пример: зарплата, доход, количество
покупателей.
29
30. Пример
• Не путать шкалы! Иначе возможны
ошибки и неоднозначности:
Десятибальная Пятибальная
Группа 1 Группа 2 Группа 1 Группа 2
10 9 5 5
8 9 4 5
6 7 3 4
6 4 3 3
6 4 3 3
Среднее 7,2 6,6 3,6 4
30
31. Дискретные и непрерывные
величины
• Дискретная: принимает только
определенные набор значений
(количество посетителей, оценка на
экзамене, …)
• Непрерывная: может принимать любое
значение (по крайней мере в
определенном интервале): рост, вес,
размер детали, доходность акций
31
32. Представление данных
№ п/п
1
2
Изменение
0,004431848
0,009093563
• Гистограмма: данные
3
4
0,0175283
0,031739652 разбиваются на интервалы
5 0,053990967
6
7
0,086277319
0,129517596
(«карманы») с последующим
отображением на графике
8 0,182649085
9 0,241970725
10 0,301137432
11 0,352065327
12 0,386668117
13 0,39894228
14 0,386668117
15 0,352065327
16 0,301137432
17 0,241970725
18 0,182649085
19 0,129517596
20 0,086277319
21 0,053990967
22 0,031739652
23 0,0175283
24 0,009093563
25 0,004431848
32
33. Плотность вероятности
• Постепенное увеличение количества
интервалов (при наличии достаточного
количества наблюдений)
• Предельный переход к некоторой
функции
33
39. Частоты и накопленные
частоты
Данные
Граница Частота Накопленная Частота Накопленная
6,858796
6 1 1 0,1 0,1
9,779006
9 4 5 0,4 0,5
10,21438
12 2 7 0,2 0,7
6,330334
15 3 10 0,3 1
6,398201
12,90365
7,354134
13,8862
4,66927 Основной Основной
13,48427 Основной
Основной
Основной
Основной Основной
Основной
Основной
Основной
Частота
Основной Основной
Накопленная
Основной
Основной
Основной
Основной Основной
39
40. Описательная статистика
• Методы описательной статистики –
методы описания выборок с помощью
различных показателей и графиков
40
41. Показатели описательной
статистики
• Показатели положения:
среднее, медиана, мода, минимальной и
максимальное значения, квартили
• Показатели разброса:
дисперсия, стандартное
отклонение, размах, межквартильный
размах
• Показатели асимметрии: коэффициент
асимметрии, положение медианы
относительно среднего
• Показатели формы: эксцесс
41
46. Квартили
• Нижний (1-й квартиль) – значение, ниже
которого находятся 25% значений
вариационного ряда
• Верхний (3-й квартиль) – значение, ниже
которого находятся 75% значений
вариационного ряда
• Медиана – второй квартиль
46
55. Некоторые свойства
• 68% значений
отклоняются от
среднего не
более, чем на
величину одного
стандартного
отклонения, 95% --
двух, 99,7% -- трех.
• Распределение
симметричное, эксц
есс равен 0.
55
56. Excel
• Содержит все основные
функции, необходимые для расчета
показателей описательной статистики
56