2. УДК 510.8
У76
У с о в а Э.А., К о т ю к о в В.И. Моделирование систем: Учеб.
пособие.— Новосибирск: Изд-во СГУПСа, 2008. — 124 с.
ISBN 5-93461-341-3
Рассматриваются вопросы математического моделирования стохасти-
ческих систем. Работа содержит следующие разделы: модели систем и их
классификация, формы и принципы построения математических моделей,
случайные события и случайные величины, их точечные и интервальные
оценки, статистическая проверка гипотез, корреляционный, дисперсион-
ный и регрессионный анализы, анализ зависимости между качественными
факторами, вероятностные основы теории информации, случайные процес-
сы и временные ряды, теория распознавания образов и теория массового
обслуживания, имитационное моделирование систем.
Рекомендовано студентам специальностей «Информационные системы
и технологии», «Прикладная информатика (в экономике)» и других
технических специальностей.
Утверждено редакционно-издательским советом универси-
тета в качестве учебного пособия.
О т в е т с т в е н н ы й р е д а к т о р
д-р техн. наук, проф. В.И. Хабаров
Р е ц е н з е н т ы:
кафедра «Программные системы и базы данных» Новоси-
бирского государственного технического университета (зав-
кафедрой А.А. Попов)
канд. техн. наук, доц. кафедры ППиМЭ П.П. Люмаров
Усова Э.А., Котюков В.И., 2008
Сибирский государственный университет
путей сообщения, 2008
ISBN 5-93461-341-3
3. 3
ВВЕДЕНИЕ
Моделирование широко используются в различных сфе-
рах человеческой деятельности, особенно в сферах проектиро-
вания и управления, где особенными являются процессы приня-
тия эффективных решений на основе получаемой информации.
Любой закон природы или общественного развития может
быть выражен в виде описания характера или структуры вза-
имосвязей, существующих между изучаемыми явлениями или
показателями.
Для использования ЭВМ при решении прикладной задачи
последняя прежде всего должна быть «переведена» на фор-
мальный математический язык, т.е. для реального объекта, про-
цесса или системы должна быть построена своя математичес-
кая модель.
Модель — образ реальной системы (объекта, процесса) в
материальной или теоретической форме. Этот образ отражает
существенные свойства объекта, он замещает реальный объект
в ходе исследования и управления. Моделирование основы-
вается на принципе аналогии, т.е. возможности изучения ре-
ального объекта (системы) не непосредственно, а опосредо-
ванно, через рассмотрение подобного ему и более доступного
объекта (модели).
Целью моделирования является получение, обработка, пред-
ставление и использование информации об объектах, которые
взаимодействуют между собой и внешней средой; модель здесь
выступает как средство познания свойств и закономерностей
4. 4
поведения объекта. Суть компьютерного моделирования со-
стоит в следующем: на основе математической модели с помо-
щью ЭВМ проводится серия вычислительных экспериментов,
т.е. исследуются свойства объектов или процессов, находятся
их оптимальные параметры и режимы работы, уточняется мо-
дель. Например, располагая уравнением, описывающим проте-
кание того или иного процесса, можно, изменяя его коэффици-
енты, начальные и граничные условия, исследовать, как при
этом будет вести себя объект.
В аналитических моделях поведение реальных процессов и
систем задается в виде явных функциональных зависимостей.
Когда явления сложны и многообразны, исследователю прихо-
дится идти на упрощенные представления сложных систем. В
результате аналитическая модель становится слишком грубым
приближением к действительности. Если все же для сложных
систем удается получить аналитические модели, то зачастую
они превращаются в трудно разрешимую проблему. Поэтому
исследователь часто вынужден использовать имитационное мо-
делирование.
Имитационное моделирование представляет собой числен-
ный метод проведения на ЭВМ вычислительных эксперимен-
тов с математическими моделями, имитирующими поведение
реальных объектов, процессов и систем во времени в течение
заданного периода. При этом функционирование системы раз-
бивается на элементарные явления, подсистемы и модули.
Функционирование этих элементарных явлений, подсистем и
модулей описывается набором алгоритмов, которые имитиру-
ют элементарные явления с сохранением их логической струк-
туры и последовательности протекания во времени.
Данное учебное пособие посвящено математическому моде-
лированию стохастических процессов, в нем рассматривается
исследование реальных процессов и систем с помощью двух
типов математических моделей: аналитических и имитацион-
ных.
5. 5
1. МАТЕМАТИЧЕСКИЕ МОДЕЛИ И ИХ КЛАССИФИКАЦИЯ
Модель всегда строится с определенной целью, которая вли-
яет на то, какие свойства объективного явления окажутся су-
щественными, а какие — нет. Модель представляет собой как
бы проекцию объективной реальности под определенным уг-
лом зрения. Иногда, в зависимости от целей, можно получить
ряд проекций объективной реальности, вступающих в проти-
воречие. Это характерно, как правило, для сложных систем, у
которых каждая проекция выделяет существенное для опре-
деленной цели из множества несущественного.
В основе теории моделирования лежит теория подобия. При
моделировании абсолютное подобие не имеет места и лишь
стремится к тому, чтобы модель достаточно хорошо отобража-
ла исследуемую сторону функционирования объекта. Абсо-
лютное подобие может иметь место лишь при замене одного
объекта другим, точно таким же.
Важнейшим понятием моделирования является понятие
адекватности модели или соответствия модели реальному объек-
ту. При проверке модели на адекватность выделяют два ас-
пекта, а именно: верификация модели (проверка правильнос-
ти структуры модели) и валидация модели (проверка соответ-
ствия данных моделирования реальному процессу).
Модели можно разделить на:
— вещественные;
— идеальные.
В свою очередь, вещественные модели можно разделить на:
— натурные;
— физические;
— математические.
Идеальные модели можно разделить на:
— наглядные;
— знаковые;
— математические.
Вещественные натурные модели — это реальные объекты,
процессы и системы, над которыми выполняются эксперимен-
ты научные, технические и производственные.
6. 6
Вещественные физические модели — это макеты, муляжи,
воспроизводящие физические свойства оригиналов (кинема-
тические, динамические, гидравлические, тепловые, электричес-
кие, световые модели).
Вещественные математические — это аналоговые, структур-
ные, геометрические, графические, цифровые и кибернетичес-
кие модели.
Идеальные наглядные модели — это схемы, карты, чертежи,
графики, графы, аналоги, структурные и геометрические модели.
Идеальные знаковые модели — это символы, алфавит, язы-
ки программирования, упорядоченная запись, топологическая
запись, сетевое представление.
Идеальные математические модели — это аналитические,
функциональные, имитационные, комбинированные модели.
В приведенной классификации некоторые модели имеют
двойное толкование (например, аналоговые). Все модели, кро-
ме натурных, можно объединить в один класс мысленных мо-
делей, так как они являются продуктом абстрактного мышле-
ния человека.
Остановимся на одном из наиболее универсальных видов
моделирования — математическом. Математическое модели-
рование ставит в соответствие изучаемому физическому про-
цессу систему математических соотношений, решение которой
позволяет получить ответ на вопрос о поведении объекта без
создания физической модели, которая часто оказывается до-
рогостоящей и неэффективной.
Математическое моделирование — это средство изучения
реального объекта, процесса или системы путем их замены ма-
тематической моделью, более удобной для экспериментально-
го исследования с помощью ЭВМ.
Математическая модель является приближенным представ-
лением реальных объектов, процессов или систем, выражен-
ным в математических терминах и сохраняющим существен-
ные черты оригинала.
Построение математической модели заключается в опреде-
лении связей между теми или иными процессами и явлениями,
создании математического аппарата, позволяющего выразить
количественно и качественно связь между теми или иными
7. 7
процессами и явлениями, между интересующими специалиста
физическими величинами и факторами, влияющими на конеч-
ный результат.
Обычно их оказывается настолько много, что ввести в мо-
дель всю их совокупность не удается. При построении мате-
матической модели перед исследованием возникает задача
выявить и исключить из рассмотрения факторы, несуществен-
но влияющие на конечный результат (математическая модель
обычно включает значительно меньшее число факторов, чем в
реальной действительности). На основе данных эксперимента
выдвигаются гипотезы о связи между величинами, выражаю-
щими конечный результат, и факторами, введенными в матема-
тическую модель.
Конечной целью этого этапа является формулирование ма-
тематической задачи, решение которой с необходимой точнос-
тью выражает результаты, интересующие специалиста.
Форма и принципы представления математической модели
зависят от многих факторов.
По принципам построения математические модели разде-
ляют на:
— аналитические;
— имитационные.
В аналитических моделях процессы функционирования ре-
альных объектов, процессов или систем записываются в виде
явных функциональных зависимостей.
Аналитическая модель разделяется на типы в зависимости
от математической проблемы:
— уравнения (алгебраические, трансцендентные, дифферен-
циальные, интегральные);
— аппроксимационные задачи (интерполяция, экстраполя-
ция, численное интегрирование и дифференцирование);
— задачи оптимизации;
— стохастические проблемы.
Однако по мере усложнения объекта моделирования пост-
роение аналитической модели превращается в трудноразре-
шимую проблему. Тогда исследователь вынужден использо-
вать имитационное моделирование.
8. 8
В имитационном моделировании функционирование объек-
тов, процессов или систем описывается набором алгоритмов.
Алгоритмы имитируют реальные элементарные явления, со-
ставляющие процесс или систему с сохранением их логичес-
кой структуры и последовательности протекания во времени.
Имитационное моделирование позволяет по исходным дан-
ным получить сведения о состояниях процесса или системы в
определенные моменты времени, однако прогнозирование по-
ведения объектов, процессов или систем здесь затруднитель-
но. Можно сказать, что имитационные модели — это проводи-
мые на ЭВМ вычислительные эксперименты с математически-
ми моделями, имитирующими поведение реальных объектов,
процессов или систем.
В зависимости от характера исследуемых реальных про-
цессов и систем математические модели могут быть:
— детерминированные;
— стохастические.
В детерминированных моделях предполагается отсутствие
всяких случайных воздействий, элементы модели (переменные,
математические связи) достаточно точно установленные, пове-
дение системы можно точно определить. При построении де-
терминированных моделей чаще всего используются алгебра-
ические уравнения, интегральные уравнения, матричная алгеб-
ра. Данные модели рассматриваются в классических курсах:
«Численные методы», «Исследование операций и методы оп-
тимизаций».
Стохастическая модель учитывает случайный характер
процессов в исследуемых объектах и системах, который опи-
сывается методами теории вероятности и математической ста-
тистики. Данные модели рассматриваются в курсах: «Мате-
матическая статистика», «Теория принятия решения», «Сис-
темный анализ», «Моделирование систем», «Имитационное
моделирование экономических систем», «Эконометрика».
По виду входной информации модели разделяются на:
— непрерывные;
— дискретные.
Если информация и параметры являются непрерывными, а
математические связи устойчивы, то модель — непрерывная.
9. 9
И наоборот, если информация и параметры дискретны, а связи
неустойчивы, то и математическая модель — дискретная.
По поведению во времени модели разделяются на:
— статические;
— динамические.
Статические модели описывают поведение объекта, процес-
са или системы в какой-либо момент времени. Динамические
модели отражают поведение объекта, процесса или системы во
времени.
По степени соответствия математической модели реально-
му объекту, процессу или системе математические модели раз-
деляют на:
— изоморфные (одинаковые по форме);
— гомоморфные (разные по форме).
Модель называется изоморфной, если между нею и реаль-
ным объектом, процессом или системой существует полное
поэлементное соответствие. Гомоморфной — если существует
соответствие лишь между наиболее значительными составны-
ми частями объекта и модели.
Можно привести другую классификацию математических
моделей:
— по целевому назначению: теоретико-аналитические и при-
кладные модели;
— по степени связи с окружающей средой: открытые, от-
носительно обособленные, закрытие и изолированные;
— по специфике содержания: социальные, экономические,
технические, технологические, информационные и пр.;
— по степени агрегированности объектов моделирования:
макроэкономические и микроэкономические модели;
— по конкретному предназначению: балансовые модели (вы-
ражают требования соответствия наличия ресурсов и их ис-
пользования); трендовые модели (выражают развитие моде-
лируемой экономической системы через тренд ее основных
показателей); оптимизационные модели (предназначены для
выбора наилучшего варианта из определенного числа вариан-
тов решений);
— имитационные модели (изучают экономические явления
с помощью машинных экспериментов);
10. 10
— по типу информации: аналитические (построенные на
априорной информации) и идентифицируемые модели (пост-
роенные на апостериорной информации);
— по учету фактора времени: статические (все зависимос-
ти отнесены к одному моменту времени) и динамические моде-
ли (описывают эволюцию процесса во времени);
— по фактору определенности: детерминированные и ве-
роятностные модели (стохастические);
— по типу математического аппарата, положенного в осно-
ву модели: матричные модели; модели линейного и нелиней-
ного программирования; регрессионные модели; модели тео-
рии игр; модели теории графов; сетевые модели; модели мас-
сового обслуживания; модели управления запасами.
Рассмотрим в качестве примера экономическую систему.
Экономические системы — искусственные; материальные; от-
крытые; динамические; стохастические. На различных уров-
нях это суперсистемы, большие системы, подсистемы или их
объекты. Искусственность экономических систем означает, что
они созданы трудом человека, даже если максимально исполь-
зуют природный ресурс. Искусственность предполагает так-
же большую степень возможного разнообразия систем, что и
обусловливает многообразие экономик. Материальный харак-
тер экономических систем означает не только объективность
их существования, но и тот или иной уровень материальных и
финансовых затрат. Для информационных подсистем эконо-
мики, например, необходимы значительные затраты на покупку
компьютерной техники и технологии. Экономические системы
являются системами открытого типа, так как покупка или про-
дажа товара связана с открытостью рынка, открытостью дея-
тельности фирмы. Однако при этом любая фирма борется с
промышленным шпионажем, тщательно оберегает коммерчес-
кие и производственные секреты. Экономические системы яв-
ляются системами динамического типа, они подвержены старе-
нию, развитию, движению, прогрессу и регрессу, делению и сли-
янию и т. д. В любой динамической системе протекают те или
иные процессы. Если эти процессы не совершенствовать, то
система деградирует, а если их не поддерживать, то система
прекратит свое существование. Желательно все процессы сис-
11. 11
темы прогнозировать, предвидеть, влиять на их развитие. Эко-
номические системы характеризуются вероятностью структу-
ры, функций, целей, задач, ресурсов и т. д. Это значительно
повышает роль индивидуальных, творческих начал в управле-
нии системами, роль учета тех факторов, которые делают пове-
дение фирмы более предсказуемым.
Для построения математической модели сложных систем
необходимо:
— тщательно проанализировать реальный объект, процесс
или систему;
— выделить его наиболее существенные черты и свойства;
— определить переменные, т.е. параметры, значения кото-
рых влияют на основные черты и свойства объекта;
— описать зависимость основных свойств объекта, процес-
са или системы от значения переменных с помощью логико-
математических соотношений (уравнения, равенства, неравен-
ства, логико-математические конструкции);
— выделить внутренние связи объекта, процесса или систе-
мы с помощью ограничений, уравнений, равенств, неравенств,
логико-математических конструкций;
— определить внешние связи и описать их с помощью ог-
раничений, уравнений, равенств, неравенств, логико-математи-
ческих конструкций.
Математическое моделирование, кроме исследования объекта,
процесса или системы и составления их математического опи-
сания, также включает:
— построение алгоритма, моделирующего поведение объек-
та, процесса или системы;
— проверку адекватности модели и объекта, процесса или
системы на основе вычислительного и натурного эксперимента;
— корректировку модели;
— использование модели.
Математическое описание исследуемых процессов и систем
зависит от:
— природы реального процесса или системы и составляется
на основе законов физики, химии, механики, термодинамики,
гидродинамики, электротехники, теории пластичности, теории
упругости и т. д.
12. 12
— требуемой достоверности и точности изучения и иссле-
дования реальных процессов и систем.
Предварительный, системный анализ исследуемой системы
позволяет описать ее структуру и функционирование на язы-
ке ряда факторов (показателей, переменных). Среди этих
факторов следует выделить совокупность «входных» показа-
телей Х = {x1
, …, xm
}, определяющих условия функционирова-
ния объекта и его внутреннее строение, и совокупность «вы-
ходных» (результирующих) показателей Y = {y1
, …, yk
}, харак-
теризующих результаты функционирования объекта (объек-
тов), а также скрытые (не поддающиеся непосредственному из-
мерению) случайные «остаточные» компоненты = {1
, …, r
}.
Изучаемая система представлена на рис. 1.
Рис. 1. Изучаемая система
Тогда задача статистического исследования зависимостей
может быть сформулирована следующим образом: по резуль-
татам n измерений {Xi
, Yi
} = (x1i
, x2i
, …, xmi
, y1i
, y2i
, …, yki
),
ni ,1 , исследуемых переменных построить функцию (модель)
g = (x1
, …, xm
), которая позволит наилучшим (в определенном
смысле) образом восстанавливать значения результирующих
(прогнозируемых) переменных Y*
по заданным значениям
входных переменных Х. Через Yi
*
будем обозначать не «ис-
тинные», а определяемые по модели g() значения фактора Yi
,
что отражает условный характер любой математической модели.
Построение стохастической математической модели объек-
та (системы) может быть осуществлено различными способа-
ми. Среди них можно выделить следующие:
— естественно-научный (феноменологический) подход;
13. 13
— подход, основанный на анализе данных.
Первый подход является традиционным путем развития
соответствующей науки, путем «открытия законов природы».
Этот подход трудно формализуем и сугубо индивидуален от-
носительно исследователя и области знаний.
Второй подход основан на предварительном получении
выборочных данных относительно значений факторов {X,Y},
характеризующих различные состояния объекта. На последу-
ющем этапе данные обрабатываются с целью непосредствен-
ного построения математической модели объекта. Часто оба
подхода дополняют друг друга в общем процессе математи-
ческого моделирования.
На этапе выбора математической модели устанавливаются:
линейность и нелинейность объекта, процесса или системы,
динамичность или статичность, стационарность или нестацио-
нарность, а также степень детерминированности исследуемого
объекта или процесса. При математическом моделировании
сознательно отвлекаются от конкретной физической природы
объектов, процессов или систем и сосредотачиваются в основ-
ном на изучении количественных или качественных зависи-
мостей между величинами, описывающими эти процессы. Изу-
чение данных зависимостей необходимо проводить, используя
качественные или количественные шкалы.
1. Качественная шкала.
Номинальная (классификационная) шкала. Используется
только для того, чтобы отнести объект к определенному клас-
су. Например: цвет — красный, синий.
Порядковая шкала. Это номинальная шкала, в которой вве-
дена степень выраженности данного свойства, т. е. упорядочи-
вает классы. Например: список лиц в алфавитном порядке.
2. Количественная шкала.
Интервальная шкала. Шкала, в которой можно отразить, на
сколько по степени выраженности заданного свойства один
объект отличается от другого. Для этого задают начальную
точку отсчета и единицу измерения. Например: температур-
ная шкала, где 0° — начальная точка, 1°— единица измерения.
14. 14
Шкала отношений. Шкалы, в которых обычно не вводят
начальную точку, но есть единица измерения. Например, вре-
менная шкала.
На количественных шкалах можно ввести арифметические
преобразования и операции отношения.
Факторы (переменные) могут быть различных размерностей:
1. Скаляр. Конкретное значение Х = х.
2. Вектор. Например: фактор вес х = (2, 3, 0), где 2, 3, 0 —
реализации; х = (х1
, х2
, х3
).
3. Матрица и т.д.
Контрольные вопросы к разделу 1
1. Понятие модели. Цели моделирования.
2. Адекватности модели. Критерии адекватности модели.
3. Классификация моделей.
4. Какой тип модели учитывает случайный характер про-
цессов?
5. Этапы построения математической модели.
6. Подходы к построению стохастической математической
модели.
7. Понятие качественной и количественной шкал.
2. СЛУЧАЙНЫЕ СОБЫТИЯ, СЛУЧАЙНЫЕ ВЕЛИЧИНЫ
На практике человек часто сталкивается со случайными
явлениями.
Случайным называют событие, которое при осуществлении
совокупности условий S может либо произойти, либо не про-
изойти. Заранее предсказать, произойдет единичное событие
или нет, нельзя.
Однако достаточно большое число случайных событий, ко-
торые многократно наблюдаются при осуществлении одних и
тех же условий, подчиняются определенным закономерностям.
Установлением этих закономерностей и занимается теория
вероятностей. Знание этих закономерностей позволяет пред-
видеть, как эти события будут протекать.
Система понятий, приемов и математических методов, пред-
назначенных для сбора, систематизации, интерпретации и об-
работки статистических данных с целью получения научных
15. 15
и практических выводов — это задачи математической стати-
стики.
2.1. Случайные величины
Случайные величины делятся на:
— дискретные;
— непрерывные.
Дискретной случайной величиной называется случайная
величина, которая может принять одно из конечного или счет-
ного множества возможных значений с определенной вероят-
ностью. Множество же возможных значений непрерывных
случайных величин несчетно (например, одно из значений из
некоторого конечного или бесконечного промежутка).
Вероятностный характер распределения значений случай-
ных величин задается с помощью закона распределения.
Дискретную случайную величину можно задать:
1. Табличным способом — соответствием между возмож-
ными значениями и их вероятностями (табл. 1).
Таблица 1
Табличный способ задания дискретной случайной величины
Случайная величина может принять n значений: x1
, … , xn
,
причем выполняется условие .1
1
n
i
ip
2. С помощью многоугольника распределения (рис. 2).
Х x1 … xn
Р p1 … pn
Рис. 2. Многоугольник распределения
16. 16
3. С помощью закона распределения (функции распреде-
ления).
Непрерывную случайную величину обычно задают с помо-
щью функции распределения или с помощью функции плот-
ности распределения.
Функция распределения (закон распределения) F(x) —
это вероятность того, что случайная величина X примет значе-
ние меньшее, чем x, т. е. F(x) = P(X < x), X R.
Геометрически функцию распределения можно интерпре-
тировать так: F(x) — это вероятность того, что случайная ве-
личина примет значение, которое изображается на числовой
оси лучом, лежащим левее точки х (рис. 3).
Свойства функции распределения:
1. F(–) = 0; F(+) = 1, т.е. 0 F(x) 1.
2. x1
< x2
, F(x1
) F(x2
), т.е. функция распределения —
неубывающая функция.
3. )()(lim 0
00
xFxF
xx
, т.е. функция распределения — не-
прерывная слева функция.
Если F(x) — непрерывна, то можно определить функцию
плотности распределения: ),(
)(
)( xF
dx
xdF
xf
.
)()(
lim)(
0 x
xFxxF
xf
x
Зная функцию плотности распределения, можно найти фун-
кцию распределения: .)()(
x
duufxF
Рис. 3. Геометрическая интерпретация функции распределения
17. 17
Функция плотности распределения вероятности определя-
ет плотность вероятности в этой точке. Геометрическая интер-
претация связи функции плотности вероятности и функции
распределения приведена на рис. 4.
Рис. 4. Геометрическая интерпретация связи функции плотности
вероятности и функции распределения
Рис. 5. Геометрическая интерпретация вероятности попадания в интервал
Свойства функции плотности распределения:
1. f(x) 0;
2. .1)(
dxxf
Вероятность попадания случайной величины в интервал
(a, b] можно вычислить по формуле
).()()()( aFbFdxxfbxaP
b
a
Геометрическая интерпретация вероятности попадания в
интервал (a, b] — это площадь криволинейной трапеции, огра-
ниченной функцией плотности распределения в заданном ин-
тервале (рис. 5).
X
X
18. 18
Закон распределения двухмерной дискретной случайной
величины можно задать матрицей (табл. 2).
Таблица 2
Закон распределения двухмерной случайной величины
Причем имеет место
n
i
m
j
ijp
1 1
.1 Если X и Y независимы,
то pij
= pi
pj
.
2.2. Основные числовые характеристики
Функция распределения или плотность распределения яв-
ляются полной, исчерпывающей характеристикой случайной
величины. Однако наиболее существенные особенности зако-
на распределения можно выразить при помощи числовых ха-
рактеристик.
1. Математическое ожидание для дискретной случайной
величины вычисляется по формуле ,)(
1
n
i
iipxXM а для
непрерывной случайной величины — .)()(
dxxxfXM
Математическое ожидание уже не является случайной вели-
чиной.
Отметим свойства математического ожидания: M(C) = 0,
где C = const; M(CX) = CM(X); M(X+Y) = M(X) + M(Y);
M(XY) = M(X)M(Y), X и Y независимы.
Проинтерпретировать математическое ожидание можно сле-
дующим образом: математическое ожидание M(X) — как
центр масс стержня, где xi
— расстояние i-го кусочка стержня
от центра масс, а pi
— вес этого кусочка стержня.
Y
X
y1 y2 … ym
x1 p11 p12 … p1m
x2 p21 p22 … p2m
… … … … …
xn pn1 pn2 … pnm
19. 19
2. Дисперсия определяет среднеожидаемый квадрат раз-
броса значений случайной величины X относительно матема-
тического ожидания M(X). Дисперсию можно вычислить по
формуле D(X) = M[(X – M(X))2
] = M(X2
) – [M(X)]2
.
Дисперсия дискретной случайной величины вычисляется по
формуле ,)()(
1
22
1
22
n
i
ii
n
i
ii pxpxXD а для не-
прерывной случайной величины —
.)()()()( 2222
dxxfxdxxfxXD
Свойства дисперсии: D(C) = 0; D(CX) = C2
D(X); D(X+Y)=
= D(X) + D(Y), если X иY независимы; D(C+X) = D(X);
D(X+Y) = D(X)+D(Y), если X иY независимы.
3. Среднеквадратическое отклонение вычисляется по фор-
муле .)(XD
Имеет место равенство ,)()()( YDXDYX если X и
Y независимы.
Дисперсия D(Х) и среднеквадратичное отклонение ха-
рактеризуют степень рассеивания случайной величины отно-
сительно ее математического ожидания. Чем меньше D(Х),
тем меньше степень рассеивания случайной величины. Это ут-
верждение наглядно представлено на рис. 6.
Рис. 6. Рассеивание данных с различными значениями
среднеквадратичных отклонений
x
f(x)
M(x)
Примечание. Глядя лишь на одно значение дисперсии, нельзя сказать,
большое рассеивание данных относительно математического ожидания или
нет. Ведь при вычислении значения дисперсии большое значение имеет,
например, масштабирование данного фактора (можно измерять в тоннах
или граммах), значение математического ожидания, минимальное и макси-
мальное значения, которые может принимать фактор.
20. 20
4. Мода — значение случайной величины Х, при котором
достигается локальный максимум функции плотности распре-
деления f(x). Иными словами, мода определяет наиболее ве-
роятное значение случайной величины. Разные распределения
могут иметь различное число локальных максимумов (рис. 7).
Рис. 7. Одномодальное и бимодальное распределения
5. Медиана для дискретной случайной величины — это зна-
чение фактора, которое делит ранжированный ряд наблюде-
ний на две равные по объему группы. Ранжированный — зна-
чит упорядоченный, т.е. x1
< x2
< ... < xn
. Иными словами,
медиана делит выборку на две равные по объему части.
Для непрерывной случайной величины понятие медианы мож-
но ввести следующим образом: ,
2
1
)()(
med
med
x
x
dxxfdxxf что
графически представлено на рис. 8.
а)
б)
Рис. 8. Геометрическая интерпретация медианы для непрерывной
случайной величины
21. 21
Можно ввести универсальное определение медианы.
Медиана xmed
— это такое значение случайной величины Х,
что F(xmed
) = P(X < xmed
) = P(X > xmed
) =
2
1
. То есть вероят-
ность того, что случайная величина X примет значение мень-
ше, чем xmed
, равна
2
1
(рис. 9).
Рис. 9. Универсальное определение медианы
Рис. 10. Виды функций плотности распределений с различными
значениями асимметрии
6. Асимметрия (асимметричность) — характеристика сим-
метричности функции плотности распределения (многоуголь-
ное распределение) относительно моды. Для дискретной слу-
чайной величины асимметрия вычисляется по формуле
,/)( 33
i
n
i
is pxA а для непрерывной —
33
/)()(
dxxfxAs (рис. 10). Асимметрия нормаль-
но распределенной случайной величины считается равной нулю.
У нормально распределенной случайной величины (НРСВ)
функция плотности распределения описывается формулой
.
2
1
)(
2
2
2
)(
x
exf
X
22. 22
7. Эксцесс — характеристика островершинности кривой
функции плотности распределения по сравнению с нормально
распределенной случайной величиной с такими же значениями
математического ожидания М(X) и дисперсии D(X) (рис. 11).
Для дискретной случайной величины эксцесс вычисляется по
формуле ,3/)( 4
1
4
i
n
i
ik pxE а для непрерывной —
.3/)()( 44
dxxfxEk
Рис. 11. Виды функций плотности распределений с различными
значениями эксцесса
Примечание. По значению эксцесса можно судить о разбросе данных
относительно математического ожидания. Если эксцесс положительный, то
разброс данных меньше, чем у НРСВ; если отрицательный, то больше, чем у
НРСВ (см. свойства функции плотности распределения).
8. Квантиль q
— это такое значение случайной величины
Х, при котором функция распределения принимает значение,
равное . F(q) = (рис. 12).
Рис. 12. Геометрическая интерпретация квантиля
X
23. 23
Вводят специальные значения квантиля: q0,25
— нижний
квартиль (от слова кварта — четверть); q0,75
— верхний квар-
тиль; q0,5
— медиана.
2.3. Некоторые специальные законы распределения
2.3.1. Биномиальное распределение
Рассмотрим частный случай распределения дискретной слу-
чайной величины. Пусть производится n независимых испы-
таний. В каждом из них может произойти с вероятностью p
событие A и не произойти с вероятностью q = 1 – p.
Пусть X дискретная случайная величина, равная числу
появления события A. Величина X может иметь такие значе-
ния: x = 0; x = 1; …; x = n.
Формула Бернулли позволяет найти вероятность появле-
ния события A в n испытаниях ровно k раз по формуле Pk
(k)=
= Cn
m
pk
(1 – p)n–k
, где .
)!(!
!
knk
n
Cm
n
Закон распределения, определяемый формулой Бернулли,
называется биномиальным.
Приближенное значение Pn
(k) при больших n и малых p
можно аппроксимировать формулой Пуассона ,
!
)(
k
e
kP
k
n
где = n p.
Для закона Бернулли математическое ожидание и диспер-
сия случайной величины X = k можно вычислить по форму-
лам M(X) = np и D(X) = npq соответственно.
Рассмотрим двухточечное распределение для одного испы-
тания случайной величины. Пусть x = 0, если событие A не
наступило; x = 1, если наступило. Вероятности данных собы-
тий равны соответственно P(x = 0) = 1 – p и P(x = 1) = p.
Математическое ожидание в этом случае равно M(X) =
= 0(1 – p) + 1p = p, а дисперсия вычисляется по формуле
D(X) = p – p2
= p.
24. 24
2.3.2. Геометрическое распределение
Схема здесь такая же, что и у биномиального распределе-
ния. Испытания заканчиваются, когда событие A произойдет.
Пусть x — число испытаний до первого появления события
A. Тогда вероятность, что число испытаний равняется k, можно
вычислить по формуле P(x = k) = qk – 1
p; x < . Математичес-
кое ожидание и дисперсия равны соответственно ;
1
)(
p
XM
.
1
)( 2
p
p
XD
2.3.3. Распределение Пуассона
Здесь схема испытаний, как и у биномиального закона. Толь-
ко пусть при числе испытаний n имеем = np = const, т.е.
имеет место массовые испытания редких событий.
Вероятность того, что событие A в n испытаниях появится
ровно k раз, вычисляется по формуле .
!
)(
k
e
kP
k
n
Эта ве-
роятность зависит только от .
Математическое ожидание и дисперсия равны соответственно
M(X) = ; D(X) = .
2.3.4. Равномерное распределение
Равномерное (прямоугольное) распределение можно задать
функцией плотности распределения
ab
xf
1
)( при a < x < b
(рис. 13) или функцией распределения
ab
ax
xF
)( (рис.
14). У равномерно распределенной случайной величины
;
2
)( medx
ba
XM
.
)(
)(
2
ab
ab
XD
25. 25
2.3.5. Нормальное распределение
Функция плотности нормального распределения описыва-
ется формулой
2
2
2
)(
2
1
)(
x
exf (рис. 15). Случайная ве-
личина X изменяется – < x < +. У данного распределения
два параметра: — математическое ожидание; 2
— диспер-
сия. Функция распределения выражается формулой
x
duufxF )()( (рис. 16).
ab
1
f(X)
X
a b
Рис. 13. Функция плотности
равномерного распределения
Рис. 14. Функция
равномерного распределения
F(X)
X
1
ba
Рис. 15. Функция плотности нормального распределения
f(X
)
X
26. 26
У нормально распределенной случайной величины M(X) =
= xmed
= xmod
; D(X) = 2
. Справедливы следующие правила:
;68,0)( xP ;95,0)22( xP
97,0)33( xP (правило «трех сигм»).
Двухмерный закон распределения нормальной случайной
величины (X, Y) можно описать функцией распределения
))(),((),( yYxXPyxF или функцией плотности распре-
деления .
),(
),(
yx
yxF
yxf
Причем выполняются следующие соотношения: M(X,Y) =
(MX),M(Y)); ,
)(),cov(
),cov()(
),(
YDYX
YXxD
YXD здесь кова-
риация ;),cov(),cov( xyXYYX
))]())(([( YMYXMXMxy
.)],())())(([(
dxdyyxfYMyXMx
Коэффициент корреляции между X и Y может быть опре-
делен по формуле .11
yx
xy
xy
Рис. 16. Функция нормального распределения
F(X)
X
1
27. 27
Контрольные вопросы к разделу 2
1. Понятие случайного события. Дискретные и непрерыв-
ные случайные величины.
2. Свойства и геометрический смысл функции распределе-
ния и функции плотности распределения.
3. Как вычислить вероятность попадания случайной вели-
чины в интервал ( a, b]?
4. Основные числовые характеристики.
5. Специальные законы распределения.
3. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ СЛУЧАЙНЫХ
ВЕЛИЧИН. СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ
Знания законов распределения случайных величин доста-
точно для проведения полных вероятностных расчетов.
Однако при решении прикладных задач обычно ни законы
распределения, ни значение их числовых характеристик не
известны. Поэтому исследователь обращается к обработке
опытных данных, которые получены в результате проведенно-
го эксперимента.
Основные задачи в этом случае следующие:
— указать способы сбора и группировки опытных (эмпи-
рических) данных;
— разработать методы анализа статистических данных в за-
висимости от целей исследования.
Введем понятия генеральной совокупности и выборки.
Под генеральной совокупностью будем понимать совокуп-
ность всех мыслимых наблюдений, которые могли бы быть
сделаны при данном комплексе условий.
Но на практике исследование всей генеральной совокупно-
сти либо слишком трудоемко, либо принципиально невозмож-
но. Например, определить продолжительность работы лампоч-
ки. Если мы будем проводить исследование всей генеральной
совокупности, то нечем будет освещать комнаты. Приходится
ограничиваться анализом лишь некоторой выборки из анали-
зируемой генеральной совокупности.
Наблюдения выборки получены с помощью случайного ме-
ханизма из генеральной совокупности, причем каждое из на-
блюдений имеет одинаковый шанс попасть в выборку.
28. 28
Назначение статистических методов состоит в том, чтобы на
основе анализа выборки V выносить обоснованное суждение
о всей генеральной совокупности.
Пусть из генеральной совокупности извлечена выборка V.
х1
наблюдается n1
раз.
х2
наблюдается n2
раз.
……………………….
хk
наблюдается nk
раз.
k
i
i nn
1
— объем выборки (число элементов в выборке).
Наблюдаемые значения xi
называют вариантами, последо-
вательность вариант в возрастающем порядке — вариацион-
ным рядом.
3.1. Частота
Числа наблюдений ni
называются частотами (рис. 17), а их
отношение к объему выборки i
i
w
n
n
— относительными час-
тотами (рис. 18).
Рис. 17. Полигон частот
Рис. 18. Полигон относительных частот
29. 29
Введем еще понятия кумулятивной (интегральной) частоты
(рис. 19) и относительной кумулятивной частоты. Формула
вычисления кумулятивной частоты
j
i
ij nE
1
(число наблю-
дений вариант x1
,x2
, …, xj
в вариационном ряду, причем Ek
= n),
а относительной кумулятивной частоты — nnE
j
i
ij /
1
отн
(рис. 20).
Рис. 19. Полигон кумулятивных частот
Рис. 20. Полигон относительных кумулятивных частот
Статистическим распределением выборки называют пере-
чень вариант и соответствующих им частот или относитель-
ных частот (табл. 3).
Таблица 3
Статистическое распределение выборки
xi 2 6 12
ni 3 10 7
30. 30
Эмпирической функцией распределения называют функцию
F*
(x), определяющую для каждого значения х относительную
кумулятивную частоту события Х < x: ,/)(
1
*
nnxF
j
i
i
где
nx
— частоты попадания в интервалы, лежащие левее x; n —
объем выборки.
F(x) — функция распределения для генеральной совокуп-
ности. Ее называют теоретической функцией распределения.
Пример нахождения эмпирической функции распределе-
ния. Исходные выборочные данные приведены в табл. 4.
Таблица 4
Исходные данные
Вычислим объем выборки .207103
1
k
i
inn
Эмпирическая функция распределения получится следую-
щего вида:
,1
,20/13
,20/3
,0
)(*
xF
12
126
62
2
x
x
x
x
Графически данная функция представлена на рис. 21.
xi 2 6 12
ni 3 10 7
Рис. 21. Эмпирическая функция распределения
Примечание. Отличие теоретической функции распределения F(x) от
эмпирической функции распределения F*
(x) состоит в том, что F(x) опре-
деляет вероятность события Х < х, а F*
(x) определяет относительную ку-
мулятивную частоту этого события X < x.
31. 31
Гистограммой частот называют ступенчатую фигуру, состо-
ящую из прямоугольников, основаниями которых служат час-
тичные интервалы длиной h, а высоты равны отношению .
h
ni
Пример. На рис. 22 сверху отображена гистограмма с ша-
гом h = 2, а снизу — с шагом h = 5.
Рис. 22. Гистограммы с различными шагами разбиения интервала
3.2. Оценка параметров
Закон распределения F(x) случайной величины Х, опреде-
ляющий генеральную совокупность ее значений, характеризу-
ется набором числовых параметров = (1
, 2
, …, n
).
Пример.
1. У нормально распределенной случайной величины два
параметра распределения (математическое ожидание и стан-
дартное отклонение): ).,(
2
1
)(
2
2
2
)(
NexF
x x
2. У показательного распределения один параметр распре-
деления: .0),(
0,
0,0
)(
xe
x
xf x
32. 32
Параметры обычно неизвестны. Их необходимо оценить
на основе анализа выборки V. Часто неизвестен и сам вид
функции распределения F(x).
Оценкой
параметра называется статистика, реализа-
цию которой принимают за неизвестное истинное значение па-
раметра .
Так как выборка V случайна, то и оценка
— случайная
величина, которая может принимать какие-то значения
.,,, 21 k
Возникает вопрос, какую из этих оценок выбрать.
Рассмотрим некоторые характеристики «надежности»
оценки.
1. Оценка
называется несмещенной, если ее математи-
ческое ожидание равняется значению оцениваемого парамет-
ра: .)(
M Иначе — смещенная.
2. Оценка
называется эффективной, если она является
несмещенной и имеет при заданном объеме выборки n наи-
меньшую дисперсию.
3. Оценка
называется состоятельной, если при неогра-
ниченном увеличении числа наблюдений n она сходится по
вероятности к , т.е. .0.0lim
P
n
3.3. Примеры оценок
1. Среднеарифметическое значение (выборочное среднее)
является эффективной, состоятельной оценкой для математи-
ческого ожидания М(X). Средневыборочное вычисляется по
формулам: ,1
n
nx
x
n
i
ii
n
i
inn
1
или .1
n
x
x
n
i
i
2. Оценка дисперсии характеризует разброс данных отно-
сительно среднеарифметического x и вычисляется по форму-
лам: ,
)(
1
2
n
xx
D
n
i
i
B
.
1
)(
1
2
2
n
xx
S
n
i
i
Оценка DB
(ее так-
33. 33
же обозначают 2
) является смещенной оценкой для генераль-
ной дисперсии, а S2
является несмещенной.
3. В качестве оценки вероятности события используют от-
носительную частоту данного события.
Эти оценки являются точечными, так как определяются од-
ним числом.
3.4. Доверительный интервал
При выборке малого объема точечная оценка может значи-
тельно отличаться от оцениваемого параметра. Поэтому при
небольшом объеме выборки следует пользоваться интерваль-
ными оценками.
Интервальной называют оценку, которая определяется дву-
мя числами — концами интервала
и .
Надежностью оценки или доверительной вероятностью на-
зывают вероятность , с которой осуществляется неравенство
,
т.е. )(
P (рис. 23).
Рис. 23. Доверительный интервал, построенный с надежностью
Иными словами, вероятность того, что интервал ),(
заключает в себя (покрывает) неизвестный параметр , равна .
Как видно из рис. 23, с увеличением надежности довери-
тельный интервал должен стать шире, так как увеличивает-
ся. Но определяет информативность оценки и, следователь-
но, информативность оценки станет меньше. С одной стороны,
чем меньше надежность , тем доверительный интервал уже и,
следовательно, это хорошо, так как увеличилась информатив-
ность оценки. Но, с другой стороны, — это надежность и
значит, чем выше, тем лучше, так как с большей вероятностью
f()
34. 34
оценим . Получили противоречие. Обычно в статистике ис-
пользуют = 0,95; 0,99; 0,999.
Надежность и уровень значимости (доверительный уро-
вень) связаны формулой = 1 – .
Пример 1. Доверительный интервал для математического
ожидания М(X) с надежностью = 1 – вычисляется по
формуле ,
1
)(
1
1,
2
1,
2
n
St
xXM
n
St
x
nn
где x — выбороч-
ное среднее; S
— несмещенная оценка среднеквадратическо-
го отклонения; n — объем выборки;
1,
2
n
t — значение функ-
ции распределения Стьюдента, взятое при уровне значимости
2
и с n – 1 степенью свободы.
Пример 2. Доверительный интервал для вероятности изоб-
ражен на рис. 24.
В качестве точечной оценки вероятности биномиального
закона распределения ( jjj nn
j
n
j
n
nj ppCnp
)1()( ) возьмем ве-
личину .
n
n
p
j
Для построения доверительного интервала
Рис. 24. Доверительный интервал для вероятности
1
1
p
p
p
p
р
35. 35
вычислим ,
)1(
2
1 n
pp
u
где
2
1
u — значение квантиля
2
1
стандартного нормального распределения (M(x) = 0;
D(x) = 1). Тогда доверительный интервал для вероятности:
. ppp
Пример 3. Доверительный интервал для дисперсии имеет
вид (sn
2
– k(sn
2
), sn
2
+ k(sn
2
)). Коэффициент k определяется
из уравнения = 2(k) – 1; — функция распределения
стандартного нормального закона (с нулевым математическим
ожиданием и единичной дисперсией); — уровень значимос-
ти (квантиль порядка
2
1
стандартного нормального зако-
на); среднеквадратичное отклонение (sn
2
) статистики sn
2
вы-
числяется по формуле .
)(
1
)(
2
1
4
2
n
sxx
n
s
n
i
i
n
3.5. Статистическая проверка гипотез
Ясно, что никаких точных утверждений о параметрах зако-
на распределения на основе анализа случайной выборки V
делать нельзя. Можно лишь высказывать различные предпо-
ложения о них — гипотезы.
Статистической называют гипотезу о виде неизвестного рас-
пределения, или о параметрах неизвестного распределения.
Примеры гипотез:
1) генеральная совокупность распределена по нормально-
му закону распределения;
2) дисперсии двух генеральных совокупностей равны меж-
ду собой.
Примечание. Гипотеза — это не вопросительное предложение, это ут-
верждение.
Наряду с выдвинутой гипотезой H0
рассматривают и про-
тиворечащую ей гипотезу Н1
.
36. 36
Нулевой (основной) называют выдвинутую гипотезу H0
.
Конкурирующей (альтернативной) называют гипотезу Н1
, ко-
торая противоречит основной.
Простой называют гипотезу, содержащую только одно пред-
положение.
В зависимости от вида альтернативной гипотезы мы можем
говорить о двухсторонней, левосторонней или правосторонней
альтернативных гипотезах.
Примеры гипотез:
1) двусторонняя гипотеза: Н0
: М(X) = 10; Н1
: М(X) 10;
2) правосторонняя гипотеза: Н0
: М(X) = 10; Н1
: М(X) 10;
3) левосторонняя гипотеза: Н0
: М(X) = 10; Н1
: М(X) 10.
Сложной называют гипотезу, которая состоит из конечного
или бесконечного числа простых гипотез.
Пример. Н0
: М(X) 5; D(X) — неизвестна. То есть
М(Х) = 5, М(X) = 6 и т.д.
Выдвинутая гипотеза может быть правильной или непра-
вильной, следовательно, существует необходимость проверять
гипотезы с помощью статистических методов (табл. 5).
Таблица 5
Проверка гипотез
Ошибка первого рода состоит в том, что будет отвергнута
правильная гипотеза.
Ошибка второго рода состоит в том, что не будет отвергну-
та неправильная гипотеза.
Вероятность совершить ошибку первого рода называют
уровнем значимости и обозначают . Вероятность совершить
ошибку второго рода обозначают .
Например, пусть = 0,05. Это означает, что в пяти случаях
из ста мы рискуем совершить ошибку первого рода — отверг-
нуть правильную гипотезу.
Проверка гипотез базируется на выборочных данных. Вы-
борочное пространство можно разделить на две области так,
Н0 Не верна Верна
Отвергаем +
– ошибка первого
рода
Нет оснований отвергнуть – ошибка второго рода +
37. 37
что попадание полученной выборки в одну из частей ведет к
принятию одной гипотезы, а в другую — другой. Таким обра-
зом, основной гипотезе будет соответствовать одна область, а
конкурирующей — другая.
Пример. Рассмотрим правостороннюю гипотезу (рис.25).
Н0
: М(Х) = 10;
Н1
: М(Х) > 10.
Рис. 25. Правосторонняя гипотеза
Критической областью называют совокупность значений
критерия, при которой нулевую гипотезу отвергают.
Областью принятия гипотезы (областью допустимых зна-
чений) называют совокупность значений критерия, при кото-
рых гипотезу не отвергают.
Мощностью критерия называют вероятность попадания
критерия в критическую область, при условии, что справедли-
ва конкурирующая гипотеза, т.е. вероятность отвергнуть ну-
левую гипотезу Н0
, если верна конкурирующая гипотеза Н1
,
равна 1 – .
Примечание. Необходимо выдвигать конкурирующую гипотезу с мак-
симальной мощностью критерия.
Основные принципы проверки статистических гипотез:
1. Если наблюдаемое значение критерия принадлежит кри-
тической области, гипотезу отвергают (прямой метод).
2. Если вычисленный уровень значимости меньше теорети-
ческого уровня значимости, то гипотезу отвергают (обратный
метод).
38. 38
3.6. Проверка простой гипотезы о том, что значение
математического ожидания равняется значению b
Для проверки гипотезы о том, что значение математического
ожидания равняется конкретному значению (H0
: M(Х) = b),
вычисляется t-статистика
.набл
s
nbx
t
Прямой метод проверки гипотезы зависит от вида альтерна-
тивной гипотезы. В нашем случае возможны три вида альтер-
нативных гипотез:
1. Двусторонняя гипотеза H1
: M(Х) b. Вычисляется зна-
чение критической точки tдвухст.кр
(, n – 1). Если |tнабл
| > tдвухст.кр
,
то гипотезу отвергают.
2. Правосторонняя гипотеза H1
: M(Х) > b. Вычисляется зна-
чение критической точки tправост.кр
(, n – 1). Если tнабл
> tправост.кр
,
то гипотезу отвергают.
3. Левосторонняя гипотеза H1
: M(Х) < b. Вычисляется зна-
чение критической точки tлевост.кр
(, n – 1). Если tнабл
< tлевост.кр
,
то гипотезу отвергают.
При проверке гипотезы обратным методом вид альтерна-
тивной гипотезы не влияет на выводы об отвержении гипоте-
зы. На основе tнабл
и объема выборки находится значение вы-
численного уровня значимости в
. Если вычисленный уровень
значимости меньше теоретического уровня значимости (в
< ),
то гипотезу отвергают.
3.7. Проверка гипотезы о законе распределения F(x)
На практике не всегда известны две гипотезы: основная и
конкурирующая. Часто под конкурирующей гипотезой подра-
зумевается то, что просто не выполнена основная гипотеза.
Тогда задача ставится так: согласуются ли результаты наблю-
дений с выдвинутым утверждением.
С помощью оценок параметров функции распределения, а
следовательно, и оценки функции распределения, можно про-
верить гипотезы о том, насколько хорошо выборочные данные
согласуются с теоретическими выводами о виде функции рас-
пределения.
39. 39
Рассмотрим критерий согласия 2
. Пусть известны вариан-
ты x1
, x2
, …, xv
и эмпирические частоты; n1
*
, n2
*
, …, nk
*
; ,
1
*
k
i
i nn
где п — объем выборки. Разобьем вариационный ряд на k
группы так, чтобы в группу попали 5–10 наблюдений (рис.
26).
0
1
2
… m–1
k
xmin
xmax
Рис. 26. Вариационный ряд
Для того чтобы вычислить теоретические вероятности по-
падания в i-й интервал pi
= F(ai
) – F(ai–1
), ,,1 ki вместо па-
раметров распределения используются их эффективные оцен-
ки, которые находятся на основе выборки. Таким образом, на-
ходят оценки вероятностей. Умножив оценки вероятностей на
объем выборки n, находят оценки теоретических частот попа-
дания в i-й интервал.
Вычисляют статистику ,
)(
1
2*
2
k
i i
ii
np
npn
которая имеет
k – r – 1 степеней свободы, где k — число интервалов; r —
число оцениваемых параметров исследуемого распределения.
На основе этой статистики 2
находится вычисленный уровень
значимости
. Затем вычисленный уровень значимости срав-
нивается с исходным уровнем значимости для проверки ги-
потезы. Если
< , то гипотеза отвергается.
Критерий 2
не доказывает справедливость гипотезы, а лишь
устанавливает при принятом уровне значимости ее согласие
или несогласие с данными наблюдениями.
Рассмотрим критерий согласия Колмагорова—Смирнова.
Вычисляются статистики )};()({max *
XFXFD n
X
n
)},()({max *
XFXFD n
X
n
где Fn
*
(Х) — эмпирическая фун-
кция распределения; F(Х) — функция распределения, кото-
40. 40
рая вычисляется, используя оцениваемые параметры на основе
выборки (рис. 27).
Рис. 27. Критерий Колмагорова—Смирнова
На основе этих статистик находится значение
},max{
nnn DDD — максимальное отклонение эмпиричес-
кой функции распределения от теоретической, вычисленной
на основе оценок параметров распределения.
Критическую область находят из неравенства: , dDn n
где d
— квантиль предельного распределения Колмагорова
1 – Кp
(d
) = . На основе критической точки Кp
находится
вычисленный уровень значимости
. Если
< , то гипотеза
отвергается.
Примечание. Хорошо, если по обоим критериям нет основания отверг-
нуть гипотезу. Что делать, если по одному критерию гипотеза отвергается, а
по другому критерию нет основания отвергнуть эту же гипотезу? Тогда
среди гипотез нужно выбрать ту, для которой оба вычисленных уровня
значимости максимальны, то есть близки к тому, чтобы не отвергать гипоте-
зу (так как если
< , то Н0
отвергается).
Контрольные вопросы к разделу 3
1. Понятие выборки и генеральной совокупности.
2. Понятие частоты, относительной частоты, кумулятивной
частоты, относительной кумулятивной частоты.
3. Эмпирическая функция распределения.
4. Какая числовая характеристика является аппроксимацией
вероятности?
5. Критерии качества оценки параметра.
6. Точечные и интервальные оценки. В каких случаях воз-
никает необходимость строить интервальные оценки?
41. 41
7. Понятие надежности (доверительной вероятности) пост-
роения доверительного интервала.
8. Связь между уровнем значимости и доверительной веро-
ятностью.
9. Связь между доверительной вероятностью и доверитель-
ным интервалом.
10. Связь между объемом выборки и доверительным ин-
тервалом. Как изменится доверительный интервал, если объем
выборки устремить к бесконечности?
11. Верно ли утверждение: поскольку доверительный ин-
тервал стал шире, следовательно, доверительный интервал по-
строен с большей надежностью?
12. Основная и альтернативная гипотезы. Двухсторонняя,
правосторонняя и левосторонняя гипотезы.
13. Прямой и обратный метод проверки гипотез. Существу-
ет ли связь между данными методами?
14. Возможна ли ситуация, когда прямым методом гипотеза
отвергнута, а обратным методом нет оснований отвергнуть дан-
ную гипотезу?
15. Влияет ли вид альтернативной гипотезы на методику
принятия решения об отвержении гипотезы прямым методом?
Обратным методом?
16. Ошибка первого и второго рода. Связь между данными
ошибками.
17. Уровень значимости, мощность критерия.
18. Можно ли при проверке гипотезы установить вероят-
ность совершения ошибки первого рода нулевой? Если нет, то
почему?
19. Суть метода проверки гипотезы о том, что значение ма-
тематического ожидания равняется значению b.
20. Суть метода проверки гипотезы о законе распределе-
ния. Основные ограничения критерия согласия Пирсона.
21. Критерий согласия и критерий Колмагорова—Смирнова.
42. 42
4. ДИСПЕРСИОННЫЙ АНАЛИЗ
Это статистический метод анализа результатов наблюдений,
зависящих от различных, одновременно действующих факто-
ров, выбор наиболее важных факторов и оценки их влияния.
Идея дисперсионного анализа заключается в разложении об-
щей дисперсии случайной величины на независимые случай-
ные слагаемые, каждое из которых характеризует влияние того
или иного фактора или их взаимодействие.
Сравнивая остаточную дисперсию, которая учитывает вли-
яние неучтенных или случайных факторов, и дисперсию вход-
ного фактора Х, можно установить степень влияния фактора
Х на величину Y по сравнению с неучтенными факторами.
4.1. Однофакторный дисперсионный анализ
На практике дисперсионный анализ применяют, чтобы ус-
тановить, оказывает ли влияние некоторый качественный фак-
тор Х, который имеет k уровней Х1
, Х2
, …, Хk
(k — значений),
на изучаемую величину Y.
В этом случае основная идея дисперсионного анализа со-
стоит в сравнении факторной дисперсии (порождаемой воз-
действием фактора) и остаточной дисперсии (обусловленной
случайными причинами). Если различие между этими дис-
персиями значимо, то фактор оказывает существенное влия-
ние на Y. Средние наблюдаемых значений на каждом уровне
(групповые средние) будут различаться также значимо.
Иногда дисперсионный анализ применяют, чтобы устано-
вить однородности нескольких совокупностей. То есть прове-
ряют гипотезу о равенстве математических ожиданий в каж-
дой группе: Н0
: М(Х1
) = М(Х2
) = … = М(Хk
). Дисперсии
этих совокупностей могут быть одинаковыми или различными.
Если гипотеза не отвергается, то однородные совокупности
можно объединить в одну. Это позволяет получить более пол-
ную информацию и, следовательно, делать более надежные ста-
тистические выводы.
В этом случае дисперсионный анализ заключается в разло-
жении общей дисперсии случайной величины на независимые
случайные слагаемые, каждое из которых характеризует вли-
яние того или иного фактора или их взаимодействие.