теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу
1. ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ
БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ
М. Г. Богданова, О. В. Старожилова
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
ЧАСТЬ 2. РЕГРЕССИОНЫЙ АНАЛИЗ, ДИСПЕРСИОННЫЙ
АНАЛИЗ
Учебное пособие
Самара - 2015
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2. 2
ФЕДЕРАЛЬНОЕ АГЕНСТВО СВЯЗИ
Федеральное государственное образовательное бюджетное учреждение высшего
профессионального образования
«ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ»
Кафедра высшей математики
М.Г. БОГДАНОВА, О.В.СТАРОЖИЛОВА
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
ЧАСТЬ 2 РЕГРЕССИОНЫЙ АНАЛИЗ, ДИСПЕРСИОННЫЙ
АНАЛИЗ
Учебное пособие
Самара, 2015
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4. 4
Оглавление
1 Статистические оценки параметров распределения 6
1.1 Интервальные оценки. Доверительные интервалы 7
1.2 Доверительный интервал для оценки математического ожидания нормального
распределения при неизвестной дисперсии…………………………………………………. .8
1.3 Доверительный интервал для оценки математического ожидания нормального
распределения при известной дисперсии………………………………………………… 10
Контрольные вопросы………………………………………………………………………12
1.4 Доверительные интервалы для оценки среднего квадратического отклонения
нормального распределения…………………………………………………………………… 12
Контрольные вопросы………………………………………………………………………….. 15
Задачи для самостоятельного решения……………………………………………………16
2 Дисперсионный анализ 21
2.1 Однофакторный дисперсионный анализ………………………………………………21
Задачи для самостоятельного решения………………………………………………………. 28
2.2 Двухфакторный дисперсионный анализ……………………………………………… …34
Задания для самостоятельного решения…………………………………………………… …41
2.3 Двухфакторный дисперсионный анализ с несколькими наблюдениями в
клетке…………………………………………………………………………………………… …43
3 Регрессионный анализ 49
3.1 Задачи регрессионного анализа…………………………………………………………… 49
3.2 Многомерная нормальная регрессионная модель…………………………………….49
3.3 Метод наименьших квадратов для получения уравнения выборочной линии
регрессии…………………………………………………………………………………….50
Задачи для самостоятельного решения 55
4 Линейный регрессионный анализ 57
4.1 Оценка модели регрессии……………………………………………………………… …..58
4.2 Проблемы применения метода линейной регрессии…………………………………61
4.3 Основные предпосылки статистической модели линейной регрессии…………… 62
4.4 Линейная регрессия с негруппированными данными…………………………… …62
Контрольные вопросы………………………………………………………………… …65
Задачи для самостоятельного изучения………………………….………………………65
4.5 Линейная регрессия со сгруппированными данными…….…………………… ….69
Задачи для самостоятельного решения…………………………………………………..76
5 Параметрический кореляционный анализ 82
5.1 Исследование связей между двумя переменными в Excel……………………… …83
5.2 Построение регрессионной модели средствами Excel………………………… …..85
5.3 Прогнозирование данных………………………………………………………… .…89
5.4 Линейная и нелинейная парная регрессия……………………………………… ….90
5.5 Статистические функции, полезные при построении парной линейной
регрессии……………………………………………………………………………………… ...93
5.6 Построение интервальной оценки для функции парной линейной регрессии… ..94
5.7 Проверка значимости уравнения линейной регрессии по критерию Фишера……95
5.8 Нелинейная парная регрессия………………………………………………………...97
Глоссарий 101
Список основных формул 103
Приложение 1Таблица значений функции 104
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5. 5
Приложение 2 Таблица значений n,tt …………………………………………….105
Приложение 3 Критические точки распределения 2
……………………………………106
Приложение 4 Критические точки распределения Стьюдента……………………… ….107
Список литературы………………………………………………………………………… ….108
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6. 6
1 Статистические оценки параметров распределения
Смысл статистических методов заключается в том, чтобы по выборке ограниченного
объема, т.е. по некоторой части генеральной совокупности, высказать обоснованное
суждение об ее свойствах в целом. Числовые значения, характеризующие генеральную
совокупность, называются параметрами.
Одна из задач математической статистики – определение параметров большого
массива по исследованию его части.
Определение Статистической оценкой неизвестного параметра
теоретического распределения называют его приближенное значение, зависящее от данной
выборки 1 2 1 2, , ,k kx x x n n n , т.е. некоторую функцию этих величин, где 1 2, kx x x -
значения признака, 1 2, kn n n - соответствующие частоты.
Статистическая оценка является случайной величиной. Статистические оценки могут
быть точечными и интервальными. Статистическое оценивание может выполняться двумя
способами:
точечная оценка – оценка, которая дается для некоторой определенной точки;
интервальная оценка – по данным выборки оценивается интервал, в котором
лежит истинное значение с заданной вероятностью.
Точечная оценка определяется по выборке одним числом.
Обозначим через - оцениваемый параметр (им может быть и математическое
ожидание и дисперсия и т.д.), а через - его статистическую оценку.
Определение Величину называют точностью оценки. Чем меньше числовое
значение точности оценки , тем точнее определен неизвестный параметр.
Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых
параметров, они должны удовлетворять определенным требованиям.
Чтобы оценка имела практическое значение, она не должна содержать
систематической ошибки и иметь возможно меньшую дисперсию. Кроме того, при
увеличении объема выборки вероятность сколь угодно малых отклонений должна
быть близка к 1.
Определение Оценка параметра называется несмещенной, если ее
математическое ожидание ( )M равно оцениваемому параметру , при любом объеме
выборки, т.е.
( )M
,
и смещенной, если ( )M .
Определение Оценка называется эффективной, если при заданном n она
имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема ( n велико) к статистическим оценкам
предъявляется требование состоятельности.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
7. 7
Определение Оценка называется состоятельной, если при увеличении
объема выборки она стремится по вероятности к оцениваемому параметру.
Теория точечных статистических оценок не даѐт возможности сделать заключение о
"точности" таких оценок. В этом отношении статистические оценки неизвестных параметров
существенно дополняются результатами интервального оценивания с помощью
доверительных интервалов.
1.1 Интервальные оценки. Доверительные интервалы
В ряде задач требуется не только найти для параметра a подходящие числовые значения
a (дать точечную оценку), но и оценить его точность и надежность. Такого рода задачи
очень важны при малом числе наблюдений, т.к. точечная оценка a в значительной мере
является случайной, и приближенная замена a на a может привести к серьезным ошибкам.
Чтобы избежать этих ошибок, пользуются интервальными оценками, а для определения
надежности – доверительными вероятностями.
Если статистическая оценка параметров закона распределения случайной величины Х
характеризуется двумя числами – концами интервала, то такая оценка называется
интервальной.
Пусть для параметра a получена из опыта несмещенная оценка a . Требуется оценить
возможную при этом ошибку. Зададим некоторую вероятность и находим такое значение
0 , для которого
p a a
или
aaap .
Это равенство означает, что неизвестное значение параметра a с вероятностью
попадает в интервал aa ; .
Определение Надежностью (доверительной вероятностью) оценки *
параметра называется вероятность того, что выполняется неравенство
*
.
Определение Доверительным называется интервал, в который попадает
неизвестный параметр с заданной надежностью .
Т.к. неизвестное значение параметра a является неслучайной величиной, а
доверительный интервал является случайной величиной, то лучше говорить, что -
вероятность того, что случайный интервал aa ; накроет точку a .
Доверительный интервал применяется в случае сравнительно небольшого объема
выборки, когда предполагается, что надежность точечной оценки может быть
невысокой.Величина доверительного интервала существенно зависит от объема выборки n
(уменьшается с ростом n ) и от значения доверительной вероятности (увеличивается с
приближением к единице).
При выборке малого объема точечная оценка может значительно отличаться от
оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше
пользоваться интервальными оценками, то есть указывать интервал, в который с заданной
вероятностью попадает истинное значение оцениваемого параметра. Разумеется, чем меньше
длина этого интервала, тем точнее оценка параметра.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
8. 8
Доверительный интервал является показателем точности измерений. Это также
показатель того, насколько стабильна полученная величина, то есть насколько близкую
величину (к первоначальной величине) получите при повторении измерений (эксперимента).
1.2 Доверительный интервал для оценки математического ожидания
нормального распределения при неизвестной дисперсии
Пусть произведено n опытов над величиной Х с неизвестными математическим
ожиданием xm и дисперсией xD . Результаты опытов приведены в таблице:
i 1 2 3 n
iX 1x 2x 3x nx
На основе опытных данных для этих параметров построены оценки:
n
x
xm
n
i
i
в
1
- выборочная средняя,
n
i
вiв xx
n
D
n
n
D
1
2
1
1
1
- несмещенная выборочная дисперсия.
(Эти оценки являются состоятельными и несмещенными).
Требуется построить доверительный интервал, соответствующий доверительной
вероятности для математического ожидания случайной величины Х. Т.к. m представляет
собой сумму n независимых величин iX , то согласно центральной предельной теореме ее
закон распределения близок к нормальному.
Т.к. оценка m является несмещенной, то xmmM .
Пользуясь свойствами дисперсии, находим:
n
D
XD
nn
X
DmD x
n
i
i
n
i
i
1
2
1 1
Найдем теперь величину , для которой xmmp .
Учитывая, что закон распределения случайной величины m близок к нормальному,
выразим вероятность через функцию Лапласа:
m
x Фmmp 2 ,
где
n
D
mD x
m - среднее квадратическое отклонение оценки.
Из уравнения
m
Ф2 находим значение
2
1
Фm ,
где xФ 1
- функция, обратная функции Лапласа.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
9. 9
Величина
n
Dx
m выражается через неизвестную нам дисперсию xD , поэтому в
качестве ее ориентировочного значения можно взять оценку D и положить приближенно
nn
D
m .
Таким образом, доверительный интервал для математического ожидания случайной
величины Х, соответствующий доверительной вероятности приближенно определяется на
основе неравенств
n
t
mm
n
t
m x ,
где D , t - значение аргумента функции Лапласа, получаемое из таблиц, с учетом того,
что
2
tФ , т.е.
2
1
Фt .
Значения t , удовлетворяющие равенству
tФ2 :
0,8 0,86 0,9 0,95 0,98 0,99 0,998
t 1,34 1,476 1,645 1,96 2,326 2,576 3,09
Для точного построения доверительного интервала необходимо знать закон
распределения случайной величины
n
x
xm
n
i
i
в
1
, который в общем случае зависит от
самых неизвестных параметров величины Х.
Пример Пусть объем выборки 25n , 3Bx , 5,1s . Найдем доверительный
интервал для a при 0.99.
Из таблицы находим, что 2.797t . Тогда
25
5,1797,2
3
25
5,1797,2
3 a ,
839,3161,2 a – доверительный интервал, в который попадает a с вероятностью 99,0 .
Пример Для контроля срока службы электроламп из большой партии было отобрано
16 электроламп. В результате испытаний оказалось, что средний срок службы отобранных
ламп равен 980 часов, а среднее квадратическое отклонение их срока службы – 18 часов.
Найти границы, в которых с вероятностью 0,95 заключен средний срок службы ламп во
всей партии.
Решение:
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
10. 10
16
18961
980
16
18961
980
9611898016950
..
.;;;;.
x
в
m
txmn
8298818971 .. xm
Пример На овцеводческой ферме из стада произведена выборка для взвешивания 36
овец. Их средний вес оказался равным 50 кг.
Предположив распределение веса нормальным и определив несмещенную оценку
выборочной дисперсии 36D ,
Найти доверительный интервал для оценки математического ожидания с надежностью а)
0,8; б) 0,9; в) 0,95.
Решение:
36; 36; 6; 50
) 0.8; 2 0.8; t 1.34
1.34 6 1.34 6
50 50
6 6
в
в x в
x
n D m x
а Ф t
t t
x m x
n n
m
48.66 51.34
) 0,9; 2 0.9; t 1,645
1.645 6 1,645 6
50 50
6 6
48.355 51.645
) 0,95; 2 0.95; t 1,96
1.96 6 1,96 6
50 50
6 6
48.04 51.96
x
x
x
x
x
m
б Ф t
m
m
в Ф t
m
m
1.3 Доверительный интервал для оценки математического ожидания
нормального распределения при известной дисперсии
Пусть теперь случайная величина Х имеет нормальное распределения с неизвестным
математическим ожиданием xm и известной дисперсией 2
.
По выборке nXXX ,,, 21 объема n вычислена выборочная средняя
n
X
xm
n
i
i
в
1
.
Определить доверительный интервал для неизвестного математического ожидания,
соответствующий заданной надежности .
Если случайная величина Х распределена нормально, то и выборочная средняя m
также распределена нормально.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
11. 11
С учетом этого получим, что доверительный интервал для оценки математического
ожидания случайной величины Х с заданной надежностью определяется на основе
неравенств
n
t
mm
n
t
m x ,
где n - объем выборки, - известное среднее квадратическое отклонение и его оценка, а
2
1
Фt .
Если результаты наблюдений оформлены не в виде статистического ряда, а в виде
статистической совокупности, т.е. указаны группы, на которые разбиваются результаты
наблюдений, и частоты получения результатов наблюдений в каждой группе, то
n
mx
xm
n
i
ii
в
1
, где im - частота получения результатов в каждой группе.
Пример Найти доверительный интервал для математического ожидания
нормально распределенной случайной величины, если объем выборки 49n , 28x ,
1,4 , а доверительная вероятность 0.9.
Решение
Определим t , при котором 45,0
2
9,0
tΦ : 645,1t . Тогда
14
4,1645,1
8,2
49
4,1645,1
8,2 a , или
129,3471,2 a .
Найден доверительный интервал, в который попадает a с надежностью 0,9.
Пример Произведено 8 опытов над величиной Х, результаты которых приведены в
следующей таблице:
i 1 2 3 4 5 6 7 8
iX 14 12 9 8 15 7 11 8
Требуется найти оценку m для математического ожидания Х и построить доверительный
интервал, соответствующий доверительной вероятности 860. .
Решение:
1
2
2 21
1
28
2
1
14 12 9 8 15 7 11 8
10.5
8
1
1 1
8
10.5 8.8571,
7 8
n
i
i
в
n
iт
i
i в в
i
i
i
X
m x
n
X
n
D X x x
n n n
X
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
12. 12
2 ( ) 0.86; 1.476Ф t t
1.476 1.476 1.476 1.0522 1.533
, 10.5 1.533;10.5 1.533 8.947;12.053x в в
t D D
nn n
m x x
Контрольные вопросы
1. Что называется доверительным интервалом и доверительной вероятностью?
2. Дайте общую схему построения доверительного интервала.
3. Как изменяется доверительный интервал с увеличением надежности? С увеличением
объема выборки?
4. Как изменяется доверительный интервал в зависимости от того, известны ли другие
параметры точно или нет?
1.4 Доверительные интервалы для оценки среднего квадратического
отклонения нормального распределения
Будем искать для среднего квадратического отклонения нормально распределенной
случайной величины доверительный интервал вида ,s s , где s – исправленное
выборочное среднее квадратическое отклонение, а для выполняется условие:
p s .
Запишем это неравенство в виде:
(1 ) (1 )s s
s s
или, обозначив, q
s
(1 ) (1 )s q s q .
Рассмотрим случайную величину , определяемую по формуле 1
s
n , которая
распределена по закону «хи-квадрат» с 1n степенями свободы.
Плотность ее распределения
2
2 2
3
2
,
1
2
2
x
n
n
e
R n
n
Г
не зависит от оцениваемого параметра , а зависит только от объема выборки n .
Преобразуем неравенство (1 ) (1 )s q s q так, чтобы оно приняло вид 1 2 .
Вероятность выполнения этого неравенства равна доверительной вероятности ,
следовательно
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
13. 13
2
1
,R n d
Предположим, что 1q , тогда неравенство можно записать так:
qsqs 1
11
1
1
,
или, после умножения на 1ns
q
nns
q
n
1
11
1
1
.
Следовательно,
q
n
q
n
1
1
1
1
.
Тогда
1
1
1
1
,
n
q
n
q
R n d .
Существуют таблицы для распределения «хи-квадрат», из которых можно найти q по
заданным n и , не решая этого уравнения.
Таким образом, вычислив по выборке значение и определив по таблице значение q ,
можно найти доверительный интервал, в который значение попадает с заданной
вероятностью .
Доверительный интервал для оценки среднего квадратического отклонения случайной
величины Х с надежностью для нормального распределения находится из неравенств
qq
x
11
, где - несмещенное значение выборочного среднего квадратического
отклонения, q - параметр, который находится по таблице на основе известного значения
объема выборки n и заданной надежности .
Замечание Если 1q , то с учетом условия 0 доверительный интервал для
будет иметь границы
0 (1 )s q
Пример Пусть 20n , 1.3. Найти доверительный интервал для при
заданной надежности 0,95 .
Из соответствующей таблицы находим 0.37q . Следовательно, границы
доверительного интервала:
819,037,013,1 и 781,137,013,1 .
Итак, 781,1819,0 с вероятностью 95,0 .
Значения чисел q в зависимости от объема выборки n и надежности для
определения доверительного интервала среднего квадратичного отклонения xσ
n n
0,95 0,99 0,999 0,95 0,99 0,999
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
14. 14
7 0,92 - - 25 0,32 0,49 0,73
8 0,80 - - 30 0,28 0,43 0,63
9 0,71 - - 35 0,26 0,38 0,56
10 0,65 - - 40 0,24 0,35 0,50
11 0,59 0,98 - 45 0,22 0,32 0,46
12 0,55 0,90 - 50 0,21 0,30 0,43
13 0,52 0,83 - 60 0,188 0,269 0,38
14 0,48 0,78 - 70 0,174 0,245 0,34
15 0,46 0,73 - 80 0,161 0,226 0,31
16 0,44 0,70 - 90 0,151 0,211 0,29
17 0,42 0,66 - 100 0,143 0,198 0,27
18 0,40 0,63 0,96 150 0,115 0,160 0,211
19 0,39 0,60 0,92 200 0,099 0,136 0,185
20 0,37 0,58 0,88 250 0,089 0,120 0,162
Пример Случайная величина Х распределена по нормальному закону.
Статистическое распределение выборки представлено в таблице:
ix 3 5 7 8 10 12 14
im 3 7 4 6 7 5 8
Найти с надежностью 0,95 доверительный интервал для оценки математического
ожидания и среднего квадратического отклонения.
Решение:
05981451271068477533
40
1
40
1
.
k
i
ii
в
n
mx
xm
n
2
2
1
21
9 3 25 7 49 4 64 6 100 7 144 5 196 8 9,05
40
9,3475
n
i i
в в
i
x m
D x
n
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
15. 15
40 9.3475
9.5872; 9.5872 3.096
1 39
; 2 0.95; t 1.96
40
в
в x в
n
D D
n
t t
x m x Ф t
n
1.96 3.096 1.96 3.096
9.05 9.05
8.09;10.01
40; 0.95; 0.24
x
x
m
n n
m
n q
x
x
x
1 1
3.096 3.096
1 0.24 1 0.24
2.50;4.07
q q
Контрольные вопросы
1. Каким образом определяется доверительный интервал для математического
ожидания нормально распределенной случайной величины при известной дисперсии?
2. Каким образом определяется доверительный интервал для математического
ожидания нормально распределенной случайной величины при неизвестной дисперсии?
3. Как осуществляется построение доверительного интервала для неизвестной
дисперсии нормально распределенной случайной величины, если известно ее
математической ожидание?
4. Как находится доверительный интервал для неизвестной дисперсии нормально
распределенной случайной величины, если известно ее математическое ожидание?
5. Запишите доверительный интервал для оценки математического ожидания.
6. От каких величин зависит точность оценки математического ожидания?
7. Напишите доверительный интервал для оценки среднее квадратическое
отклонение нормально распределенного количественного признака Х.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
17. 17
5 33 31 21 25 22 20 28 26 0,86
6 26 23 28 25 31 24 30 27 0,99
7 83 90 78 76 85 81 85 82 0,86
8 41 44 52 49 56 42 50 47 0,95
9 19 27 22 29 18 17 25 23 0,99
10 56 61 68 63 52 54 99 62 0,86
11 32 39 37 42 48 31 45 44 0,9
12 74 79 85 80 71 82 70 76 0,998
13 25 28 33 39 21 28 31 26 0,86
14 82 71 73 70 85 77 83 80 0,9
15 41 48 46 52 55 43 50 47 0,86
16 61 72 64 62 78 73 69 74 0,95
17 32 39 44 49 31 48 32 35 0,98
18 61 73 68 73 76 62 79 65 0,95
19 53 59 62 67 61 51 55 58 0,99
20 28 21 29 33 38 23 35 25 0,998
21 29 21 19 28 27 25 18 16 0,9
22 42 54 56 52 43 49 47 41 0,95
23 78 83 75 81 89 79 73 81 0,99
24 38 43 45 49 42 31 37 32 0,86
25 93 101 100 98 95 97 103 100 0,86
26 67 73 75 68 70 63 74 64 0,95
27 23 25 31 29 28 32 34 33 0,99
28 77 83 82 80 75 86 84 74 0,86
29 41 39 46 35 37 38 40 42 0,9
30 58 62 61 59 65 60 54 63 0,998
Выборочные оценки в задачах 3-6 определялись по результатам n наблюдений.
Используя эти данные, найти 90%-ные и 99%-ные доверительные интервалы для
математического ожиданияследующих характеристик
3. Ёмкость конденсатора, если 20x мкФ, 16n , средне квадратичное отклонение
известно и равно 4 мкФ.
4. Время безотказной работы электронной лампы, если 500x , 100n , с.к.о. известно и
равно 10 ч.
5. Диаметр вала, если 30x мм, 9n , 2
9s мм2
.
6. Содержание углерода в единице продукта, если 18x г, 25n , 4s г.
7 Интервальный метод оценок статистических характеристик генеральной
совокупности
7.1. Найти доверительный интервал для оценки с надежностью 0,99 неизвестного
математического ожидания a нормально распределенного признака Х генеральной
совокупности, если известны генеральное стандартное отклонение , выборочная средняя
вx и объем выборки n : а) 4 , 210.xв , 16т ; б) 5, 816.xв , 25т .
7.2. Одним и тем же прибором со стандартным отклонением случайных ошибок
измерений 40 м произведено пять равноточных измерений расстояния от орудия до цели.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
18. 18
Найти доверительный интервал для оценки истинного расстояния а до цели с надежностью
950. , зная среднее арифметическое результатов измерений вх м.
Предполагается, что результаты измерений распределены нормально.
7.3. Выборка из большой партии электроламп содержит 100 ламп. Средняя
продолжительность горения лампы выборка оказалась равной 1000 ч.
Найти с надежностью 0,95 доверительный интервал для средней продолжительности а
горения лампы всей партии, если известно, что стандартное отклонение продолжительности
горения лампы 40 ч. Предполагается, что продолжительность горения ламп
распределена нормально.
7.4. Станок-автомат штампует валики. По выборке объема 100т вычислена
выборочная средняя диаметров изготовленных валиков. Найти с надежностью 0,95 точность
, с которой выборочная средняя оценивает математическое ожидание диаметров
изготовляемых валиков, зная, что их стандартное отклонение 2 мм. Предполагается, что
диаметры валиков распределены нормально.
7.5. Найти минимальный объем выборки, при котором с надежностью 0,975 точность
оценки математического ожидания а генеральной совокупности по выборочной средней
равна 30. , если известно стандартное отклонение 21. нормально распределенной
генеральной совокупности.
7.6. Найти минимальный объем выборки, при котором с надежностью 0,925 точность
оценки математического ожидания нормально распределенной генеральной совокупности по
выборочной средней равна 0,2, если известно стандартное отклонение генеральной
совокупности 51. .
7.7. Из генеральной совокупности извлечена выборка объема 10n :
x -2 1 2 3 4 5
mx 2 1 2 2 2 1
Оценить с надежностью 0,95 математическое ожидание а нормально распределенного
признака генеральной совокупности по выборочной средней при помощи доверительного
интервала.
7.8. Из генеральной совокупности извлечена выборка объема 12n :
x -0.5 -0.4 -0.2 0 0.2 0.6 0.8 1 1.2 1.5
mx 1 2 1 1 1 1 1 1 2 1
Оценить с надежностью 0,95 математическое ожидание a нормально распределенного
признака генеральной совокупности с помощью доверительного интервала.
7.9 По данным девяти независимых равноточных измерений некоторой физической
величины найдены среднее арифметическое результатов измерений вx и «исправленное»
стандартное отклонение 6*
S . Оценить истинное значение измеряемой величины с по-
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
19. 19
мощью доверительного интервала с надежностью 990. . Предполагается, что результаты
измерений распределены нормально.
7.10. По данным 16 независимых равноточных измерений некоторой физической
величины найдены среднее арифметическое результатов измерений 842.xв и
«исправленное» стандартное отклонение 8*
S . Оценить истинное значение измеряемой
величины с надежностью 9990. .
7.11 Случайная величина Х распределена по нормальному закону. Статистическое
распределение выборки представлено в таблице:
ix 1 3 5 7 9
im 2 5 4 6 3
Найти с надежностью 0,95 доверительный интервал для оценки математического
ожидания и с надежностью 0,99 для оценки среднего квадратического отклонения.
Ответ: 056611416194 .;.,.;. xxm
7.12 В нескольких мелких магазинах проведена проверка качества 100 изделий, после
чего осуществлена обработка полученных данных. В результате получено несмещенное
значение выборочного среднего квадратичного отклонения =4. Считая распределение
качественных изделий нормальным, найти с надежностью 0,95доверительный интервал для
оценки среднего квадратичного отклонения.
Ответ: 674503 .;.x
7.13 Задания: По данным выборки объема n найдено несмещенное значение
выборочного среднего квадратичного отклонения нормально распределенной случайной
величины Х. Найти с надежностью доверительный интервал для оценки среднего
квадратичного отклонения случайной величины.
N вар n
1 25 3 0,99
2 20 2 0,95
3 144 12 0,98
4 64 8 0,9
5 144 12 0,98
6 49 7 0,998
7 225 15 0,99
8 49 7 0,95
9 196 14 0,9
10 169 13 0,86
11 64 8 0,98
12 81 9 0,998
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
21. 21
2 Дисперсионный анализ
Задачей дисперсионного анализа является изучение влияния одного или нескольких
факторов на рассматриваемый признак.
На практике часто возникает необходимость проверки существенности различия
выборочных средних m совокупностей (m>2). Например, требуется оценить влияние
различных плавок на механические свойства металла, свойств сырья на показатели качества
продукции, количества вносимых удобрений на урожайность и т.п. Для эффективности
решения такой задачи нужен новый подход, который и реализуется в дисперсионном
анализе.
Определение Дисперсионный анализ - статистический метод анализа
результатов испытаний, цель которого оценить влияние одного или нескольких
качественных факторов на рассматриваемую величину X, а также для последующего
планирования.
Дисперсионный анализ — это анализ изменчивости признака под влиянием
контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ
часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of
Variance). Автором метода является Р. А. Фишер (Fisher R.A., 1918, 1938).
По числу факторов, влияние которых исследуется, различают однофакторный и
многофакторный дисперсионный анализы.
Сущность дисперсионного анализа заключается в расчленении общей дисперсии
изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных
факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак.
2.1 Однофакторный дисперсионный анализ
Однофакторный дисперсионный анализ используется в тех случаях, когда есть в
распоряжении три или более независимые выборки, полученные из одной генеральной
совокупности путем изменения какого-либо независимого фактора, для которого по каким-
либо причинам нет количественных измерений.
Для этих выборок предполагают, что они имеют разные выборочные средние и
одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот
фактор существенное влияние на разброс выборочных средних или разброс является
следствием случайностей, вызванных небольшими объемами выборок. Другими словами
если выборки принадлежат одной и той же генеральной совокупности, то разброс данных
между выборками (между группами) должен быть не больше, чем разброс данных внутри
этих выборок (внутри групп).
Схема однофакторного дисперсионного анализа рассмотрена ниже на примере
исследования влияния различных видов рекламы на прибыль предприятия.
Если разделить виды рекламы на несколько групп (уровней фактора) и через одинаковые
интервалы времени измерять прибыль, то результаты можно представить в виде таблицы:
Номер
измерения
Уровни фактора
Ф1 Ф2
...
Фp
1 х11 х12
…
х1p
2 х21 х22
…
х2p
. . . … .
. . . … .
. . . … .
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
22. 22
q хq1 хq2
…
хqp
Групповая
средняя
1гx 2гx
…
x rp
Число измерений на каждом уровне считаем одинаковым и равным q. В таблице xij-
значение исследуемой переменной, полученной на i-том уровне фактора (i= q,1 ), с j-том
порядковым номером (j=1, p ).
Под уровнем фактора понимается некоторая его мера или состояние, например,
количество вносимых удобрений, вид плавки металла, номер партии деталей и т. п.
В последней строке помещены групповые средние для каждого уровня фактора. Общую
среднюю можно получить как среднее арифметическое групповых средних.
1
p
rj
j
b
x
x
p .
На разброс прибыли относительно общей средней влияют как изменения уровня
рассматриваемого фактора, так и случайные факторы. Для того, чтобы учесть влияние
данного фактора, общая выборочная дисперсия разбивается на 2 части, первая из которых
называется факторной - S2
ф, а вторая остаточной – S2
ост. С целью учѐта этих составляющих
вначале рассматриваются общая сумма квадратов отклонений вариант от общей средней
2 2 2
1 1 1 1
( ) ( )
p q p q
общ ij b ij b
j i j i
R x x x p q x
и факторная (межгрупповая) сумма квадратов отклонений групповых средних от общей
средней, которая характеризует влияние данного фактора,
2 2 2
1 1
( ) ( ) ( )
p p
ф rj b rj b
j j
R q x x q x p x
.
Остаточная (внутригрупповая) сумма квадратов отклонений получается как разность
Rост = Rобщ - Rф.
В этой формуле заключена основная идея дисперсионного анализа. Если поделить обе
части этого равенства на число наблюдений, то получим правило сложения дисперсий.
Применительно к данной задаче, т. к.
Rобщ = Rост + Rф,
то равенство показывает, что общая вариация показателя качества, измеренная суммой Rобщ,
складывается из двух компонент - Rост и Rф, характеризующих изменчивость этого
показателя между партиями (Rф) и изменчивость «внутри» партий (Rост), характеризующих
одинаковую (по условию) для всех партий вариацию под воздействием неучтенных
факторов.
В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так
называемые средние квадраты, являющиеся несмещѐнными оценками соответствующих
дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее
число степеней свободы. Число степеней свободы определяется как общее число
наблюдений минус число связывающих их уравнений.
Поэтому для среднего квадрата
2
ф фS D , являющегося несмещѐнной оценкой факторной
дисперсии, число р - 1, т.к. при его росте используется р групповых средних, связанных
между собой уравнением
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
23. 23
1
р
rj
j
b
x
x
p .
Для среднего квадрата
2
ост остS D ,
являющегося несмещенной оценкой остаточной дисперсии, число степеней свободы p ∙q –
p = p(q - 1), ибо при еѐ расчете используются все p∙q наблюдений, связанных между собой
р уравнениями
1
q
ij
j
rj
x
x
q .
Таким образом
1
ф
ф
R
D
p , ( 1)
ост
ост
R
D
p q .
Общая выборочная дисперсия вычисляется по формуле
общ
общ
R
D
p q ,
(p∙q - число измерений); несмещѐнная общая выборочная дисперсия
2
1
общ
общ общ
R
D S
p q ,
где (p∙q - 1) - число степеней свободы несмещѐнной общей выборочной дисперсии.
Схему дисперсионного анализа представим в виде таблицы:
Компоненты
дисперсии
Сумма квадратов Средний квадрат
Факторная
2 2 2
1 1
( ) ( ) ( )
p p
ф rj b rj b
j j
R q x x q x p x
1
ф
ф
R
D
p
Остаточная
2
1 1
( )
p q
ост ij rj общ ф
i j
R x x R R
( 1)
ост
ост
R
D
p q
Общая
2 2 2
1 1 1 1
( ) ( )
p q p q
общ ij b ij b
j i j i
R x x x p q x
С целью оценки влияния фактора на изменения рассматриваемого параметра
рассчитывается величина
ф
набл
ост
D
f F
D
Т. к. отношение двух выбранных дисперсий Dф и Dост распределено по закону Фишера-
Снедекора, то полученное значение fнабл сравнивают со значением функции распределения
ф
ост
D
F
D и критической точке fкр ( ,l,k), соответствующей выбранному уровню значимости
, l = p - 1, k = p(q - 1).
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
24. 24
Определение Нулевая гипотеза - гипотеза о равенстве групповых математических
ожиданий
Н0: m1 = m2 = … = mp,
где mi - групповое математическое ожидание.
Если fнабл критической области (fкр;+ ), т.е. fнабл > fкр, то гипотеза Н0 о равенстве
групповых математических ожиданий отвергается, т.е. считается, что этот фактор влияет на
результативный признак.
Если же fнабл ≤ fкр, то гипотезу о равенстве групповых средних не отвергаем; в этом
случае говорят, что влияние фактора на признак не подтвердилось выборочными
наблюдениями.
Итак, если fнабл > fкр, то фактор оказывает существенное воздействие и его следует
учитывать, в противном случае он оказывает незначительное влияние, которым можно
пренебречь.
Применительно к данной задаче опровержение гипотезы Н0 означает наличие
существенных различий в размере прибыли в зависимости от видов рекламы на
рассматриваемом уровне зависимости.
Поскольку вывод о том, влияет или нет фактор на результативный признак, основан на
сопоставлении дисперсий, рассмотренный метод называют дисперсионным анализом.
Допустим, что фактор Фi влияет на результативный признак. Для измерения степени
влияния используют выборочный коэффициент детерминации
2
общ
D
ρ
D
ф
.
Коэффициент детерминации показывает, какую долю общей выборочной дисперсии
общD составляет дисперсия, или, иначе говоря, какая доля дисперсии общD объясняется
зависимостью от данного фактора. Заметим, что 1ρ2
.
Пример Для проверки влияния внутрицехового оформления на качество продукции
рассмотрены три участка по производству однотипной продукции и приведена выборочная
проверка процента брака за пять месяцев. Результаты помещены в таблицу.
Методом дисперсионного анализа при уровне значимости = 0,05 проверить нулевую
гипотезу о существенном влиянии оформления участка на продукции.
Номер
измерения
Уровни фактора
Ф1 Ф2 Ф3
1 2 3 1
2 4 5 4
3 3 4 5
4 2 3 10
5 1 6 3
Групповая
средняя
2,4 4,2 4,6
Решение: p = 3, q = 5.Находим общую среднюю
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
25. 25
1 2,4 4,2 4,6
3,73
3
q
rj
j
b
x
x
p .
Для расчета
2 2
1 1
( )
p q
общ ij b
j i
R x p q x
составляем таблицу квадратов вариант
Номер
измерения
(Уровни фактора)2
Ф1
2
Ф2
2
Ф3
2
1 4 9 1
2 16 25 16
3 9 16 25
4 4 9 100
5 1 36 9
Σ 34 95 151
Rобщ = 34 + 95 + 151 - 3∙5∙(3,75) 2
= 71,3
1.14))73.3(36.42.44.2(5)x(p)x(qR 22222
p
1j
2
rjф
Rост = Rобщ - Rф = 71,3 - 14,1 =
57,2.
Определяем факторную и остаточную дисперсии:
14,1
7,05
1 3 1
57,2
4,77
( 1) 3(5 1)
7,05
1,48
4,77
ф
ф
ост
ост
ф
накл
ост
R
D
р
R
D
p q
D
f
D
При уровне значимости = 0,05, чисел степеней свободы р - 1= 2 и p(q - 1) = 12 находим
fкр(0,05;2;12) по таблице распределения Фишера-Снедекора fкр = 3,89.
Так как fнабл = 1,48 < fкр = 3,89, нулевую гипотезу о несущественном влиянии
внутрицехового оформления на процент брака не отвергаем (фактор оказывает
незначительное влияние, которым можно пренебречь).
Пример В условиях предыдущего примера, но с другими выборочными процента
брака оценить влияние внутрицехового оформления на качество продукции.
Номер
измерения
Уровни фактора
Ф1 Ф2 Ф3
1 2 5 7
2 3 4 8
3 4 4 8
4 2 5 7
5 3 5 8
Групповая 2, 4,2 7,6
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
26. 26
средняя 8
Решение: p = 3, q = 5.
2,4 4,6 7,6
5
3
bx .
Номер
измерения
(Уровни фактора)2
Ф1
2
Ф2
2
Ф3
2
1 4 25 49
2 9 16 64
3 16 16 64
4 4 25 49
5 9 25 64
Σ 42 107 290
Rобщ = 42 + 107 + 290 - 3∙5∙375∙5 2
= 64
2 2 2 2
5 (2.8 4.6 7.6 3 5 ) 58,8фR
Rост = 64 – 58,8 = 5,2.
58,8
29,4
2
5,2
0,43
12
29,4
68,37
0,43
ф
ост
набл
D
D
f
fкр(0,05;2;12) = 3,89
fнабл > fкр, гипотеза о существенном влиянии внутрицехового оформления на процент
брака принимается.
Общая выборочная дисперсия
64
4,27
15
общ
общ
R
D
p q
58,8
3,92
15
ф
ф
R
D
p q
Выборочный коэффициент детерминации
2
D 3,92
ρ 0,92.
D 4,27
ф
общ
Таким образом, 92% общей вариации качества продукции связано с внутрицеховым
оформлением.
Пример Допустим, что экономиста строительно-монтажного управления интересует
зависимость объѐма выполненных на стройке работ за смену от работающей на стройке
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
27. 27
бригады. Предположим, что на стройке работают 4 бригады. Будем называть объѐм
выполненных работ результативным признаком, обозначать Х и полагать, что Х – случайная
величина; работающую бригаду назовѐм фактором Ф, а номер работающей бригады –
уровнем и групповой фактора Ф и через Фi - обозначать i-й уровень или группу фактора Ф
(i-ю бригаду 4,1i ). Приступая к выполнению интересующей нас зависимости необходимо
над каждой бригадой провести наблюдения. Обратим внимание на то, что объѐм
выполненных работ зависит не только от работающей бригады, но и от ряда случайных
факторов.
Поэтому по каждой бригаде будет наблюдаться вариация, изменчивость ежедневного
объѐма выполненных работ. Результаты наблюдений расположим в таблице.
Выясним при уровне значимости α = 0,05 зависит ли объѐм работ, выполняемых за
смену, от работающей бригады.
Номер
бригады
Объѐм выполненной работы
1 140 144 142 145
2 150 149 152 150
3 148 149 146 147
4 150 155 154 152
p = 4, q = 4.
Номер
измерени
я
Уровни фактора (Уровни фактора)2
1 Ф1 Ф2 Ф3 Ф4 Ф1
2
Ф2
2
Ф3
2
Ф4
2
2 140 150 148 150 19600 22500 21904 22500
3 144 149 149 155 20736 22201 22201 24025
4 142 152 146 154 20164 23104 21316 23716
5 145 150 147 152 21025 22500 21609 23104
Групповая
средняя 142,75 150,25 147,5 152,75
Σ 81525 90305 87030 93345
Групповая средняя вычисляется по формуле:
4
1
4
ji
j
x
x
гi .
Вычислим средний объѐм выполняемых работ по всем 16 наблюдениям
3125,148
4
75,1525,14725,15075,142
bx .
Общая вариация признака:
4 4
2 2
1 1
2
( ) 81525 90305 87030 93345
4 4 (148,31) 259,44
общ ij b
j i
R x p q x
Общая выборочная дисперсия
259,44
16,215
16
общ
общ
R
D
p q
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
28. 28
Факторная вариация
2 2
1
( ) ( )
4 (20377,562 22575,062 21456,25 2332,562 4 21996,597)
220,192
p
ф rj
j
R q x p x
13,762.ф
ф
R
D
p q
Остаточная вариация Rост = Rобщ - Rф = 39,248.
Факторная и остаточная дисперсия:
73,4
1
3,271
( 1)
73,40
22,44
3,271
ф
ф
ост
ост
ф
набл
ост
R
D
р
R
D
p q
D
f
D
= 0,05; р - 1= 2 и p(q - 1) = 12.
Правосторонняя критическая точка
fкр(0,05;3;12) = 3,49 < fнабл = 22,44
Следовательно, объѐм ежедневной выработки зависит от рабочей бригады.
Найдѐм выборочный коэффициент детерминации
ф2
общ
D 13,762
ρ 0,84.
D 16,295
Таким образом, 84% общей вариации ежедневного объѐма выработки связано с рабочей
сменой.
Итак, однофакторный дисперсионный анализ позволяет по выборочным данным
выяснить, влияет ли контролируемый фактор на результативный признак, и при наличии
такого влияния оценить его степень.
Первоначально дисперсионный анализ был разработан для обработки данных,
полученных в ходе специально поставленных экспериментов, и считался единственным
методом, корректно исследующим причинные связи. Метод применялся для оценки
экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость
дисперсионного анализа для экспериментов.
Задачи для самостоятельного решения
1.Имеются 4 партии сырья для текстильной промышленности. Из каждой партии
отобрано по 5 образцов и проведены испытания на распределение величины разрывной
нагрузки. Результаты испытаний приведены в таблице.
Номер
партии
Разрывная нагрузка (кг/см2
)
1 200 140 170 145 165
2 190 150 210 150 150
3 230 190 200 190 200
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
29. 29
4 150 170 150 170 180
Необходимо выяснить, существенно ли влияние различных партий сырья на величину
разрывной нагрузки.
Ответ: fнабл = 3,65 > fкр (0,05;3;16) = 3,24 значит, нулевая гипотеза отвергается на уровне
значимости = 0,05 (с надѐжностью 0,95) различие между партиями сырья оказывает
существенное влияние на величину разрывной нагрузки.
2.Проведено по пять испытаний на каждом из четырѐх уровней фактора Ф. Результаты
испытаний приведены в таблице.Методом дисперсионного анализа при уровне значимости
= 0,05 проверить нулевую гипотезу о равенстве групповых средних.
Номер
измерения
Уровни фактора
Ф1 Ф2 Ф3 Ф4
1 36 56 52 39
2 47 61 57 57
3 50 64 59 63
4 58 66 58 61
5 67 66 79 65
Ответ: fнабл = 1,29 < fкр (0,05;3;16) = 3,24 значит, нулевая гипотеза Н0 принимается.
3.В трѐх филиалах одного из банков были организованы три уровня различных услуг для
клиентов. После этого в течение шести месяцев измерялись объѐмы вкладов Х (тыс. руб.).
Данные приведены в таблице. Проверить нулевую гипотезу о влиянии организации услуг на
объѐмы вкладов при уровне значимости 0,05.
Номер
измерения
Уровни фактора
Ф1 Ф2 Ф3
1 10 17 14
2 15 15 18
3 14 25 30
4 18 22 27
5 20 30 34
6 16 28 40
Групповая
средняя
15,5 28,8 27,2
Ответ: fнабл = 4,5 > fкр (0,05;2;15) = 3,68, гипотеза Н0 принимается.
4.В течение шести лет использовались пять различных технологий по выращиванию
сельскохозяйственной культуры. Данные по эксперименту приведены в таблице:
Номер
наблюдения
(год)
Технология (фактор Ф)
Ф1 Ф2 Ф3 Ф4 Ф5
1 1,2 0,6 0,9 1,7 1,0
2 1,1 1,1 0,6 1,4 1,4
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
30. 30
3 1,0 0,8 0,8 1,3 1,1
4 1,3 0,7 1,0 1,5 0,9
5 1,1 0,7 1,0 1,2 1,2
6 0,8 0,9 1,1 1,3 1,5
Итого 6,5 4,8 5,4 8,4 7,1
Необходимо на уровне значимости 0,05 установить влияние различных технологий на
урожайность культуры.
Ответ: влияние типа технологии (фактора Ф) на урожайность незначимо, т. к. fнабл = 1,93
< fкр (4;25;0,05) = 2,76.
5.На заводе установлено 4 линии по выпуску облицовочной плитки. С каждой линии
случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины
(мм) отклонения от номинального размера приведены в таблице:
Линия по
выпуску
плиток
Номер испытания
1 2 3 4 5 6 7 8 9 10
1 0,6 0,2 0,4 0,5 0,8 0,2 0,1 0,6 0,8 0,8
2 0,2 0,2 0,4 0,3 0,3 0,6 0,8 0,2 0,5 0,5
3 0,8 0,6 0,2 0,4 0,9 1,1 0,8 0,2 0,4 0,8
4 0,7 0,7 0,3 0,3 0,2 0,8 0,6 0,4 0,2 0,6
Требуется на уровне значимости = 0,05 установить зависимость выпуска качественных
плиток от линии выпуска (фактор Ф).
Ответ: влияние линии (фактора Ф) на качество облицовочной плитки незначимо, т. к.
fнабл = 1,3 < fкр (3;36;0,05) = 2,87.
6.При уровне значимости = 0,05 методом дисперсионного анализа проверить нулевую
гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трѐх
уровней фактора Ф1 - Ф3.
( fкр (0,05; 2; 12) = 3,89).
Вариант
Номер
измерения
Ф1 Ф2 Ф3
1
1 24 18 22
2 16 14 15
3 12 10 16
4 5 4 12
5 6 16 8
2
1 10 14 12
2 8 5 9
3 7 14 10
4 18 4 7
5 6 12 8
3
1 16 9 14
2 10 8 16
3 20 9 12
4 25 7 16
5 24 5 14
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
34. 34
2.2 Двухфакторный дисперсионный анализ
Дисперсионный двухфакторный анализ применяется в тех случаях, когда исследуется
одновременное действие двух факторов на различные выборки объектов, т.е. когда
различные выборки оказываются под воздействием различных сочетаний двух факторов.
Может случиться, что одна переменная значимо действует на изучаемый признак только при
определенных значениях другой переменной. Суть метода остается прежней, как и при
однофакторной модели, но в двухфакторной дисперсионном анализе можно проверить
большее количество гипотез.
Допустим, что исследователя интересует зависимость результативного признака Х,
который является случайной величиной от двух факторов A и B. Например, требуется
выяснить, зависит ли качество обрабатываемых деталей от типа станка и вида сырья, из
которого она изготавливается. Это типичная задача двухфакторного дисперсионного
анализа.
Обозначим через p21 A...,,A,A уровни фактора A (типы станков), всего этих уровней p .
Через q21 B...,,B,B обозначим уровни фактора B (виды сырья), всего этих уровней q .
Будем считать уровни фиксированными величинами. Количество различных комбинаций
уровней факторов A и B равно qp . Решение задачи двухфакторного дисперсионного
анализа зависит от количества проведенных наблюдений при каждой комбинации уровней
факторов, если, иначе говоря, в каждой клетке двухфакторного комплекса.
Рассмотрим случай, когда в каждой клетке по одному наблюдению. Результаты
наблюдений и результаты их предварительной обработки расположим в таблице.
Уровни фактора B 1B 2B ... qB
Среднее групповое
(по строке)Уровни
фактора A i
j
1 2 ... q
1A 1 11x 12x ... 1qx 1x
2A 2 21x 22x ... 2qx 2x
... ... ... ... ... ... ...
pA p p1x p2x ... pqx px
Среднее
групповое
(по столбцу)
1x 2x ... qx
где 11x - результат наблюдения, зафиксированный на первом уровне фактора A и первом
уровне фактора B ; 12x - результат наблюдения на первом уровне фактора A и втором уровне
фактораB и т.д.
Очевидно, что общее число наблюдений qpn . Общее среднее всех наблюдений можно
вычислить по одной из следующих формул:
11 12 11
...
x
qp
ji
pq ji
в
xxx x x
n p q .
Выборочная дисперсия величины X:
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
35. 35
n
S x
x
2
D ,
где
22
1 1
S
p q
x вij
i j
x x .
Выборочная дисперсия групповых средних ix :
n
S A
A
2
D ,
где
22
1
S
p
A i в
i
x x q .
Выборочная дисперсия групповых средних jx :
n
S B
B
2
D ,
где
22
1
S
p
B j в
i
x x p .
Влияние на X остаточных факторов измеряется величиной:
2
0
Dост
S
n ,
где
p
i
q
j
jiij xxxx
1 1
22
0S ,
D D D Dx A B ост .
Обозначим через ia математическое ожидание величины X при уровне iA ( pi ,1 ),
через jb - математическое ожидание величины X при уровне jB ( qj ,1 ).
Если при изменении уровня фактора A сохраняется равенство paaa ...21 , то
считаем, что X не зависит от фактора A. В противном случае Х зависит от фактора А.
Аналогично, если при изменении уровня фактора B сохраняется равенство qbbb ...21 ,
то считаем, что X не зависит от фактора B.
Введем две гипотезы pA aaaH ...: 21 ,
qB bbbH ...: 21 .
Проверка гипотезы AH основывается на сравнении величин 2
AS и 2
oS . Если гипотеза AH
верна, то величина 2
2
o
A
A
S
S
F или F - распределение с числами степеней свободы 1pl и
11 qpk . Полученное значение AF сравниваем с критической точкой крf ,
соответствующей выбранному уровню значимости (см. таблицу F -критерия Фишера-
Снедекора).
Если ;A крF f , то гипотезу AH отвергаем и считаем, что фактор A влияет на
результативный признак.
Введѐнные показателем вариации запишем в дисперсионную таблицу.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
36. 36
Источник
вариации
результативн
ого признака
X
Показатель
вариации
Число
степеней
свободы
Несмещенная
оценка дисперсии
Фактор A n
S À
A
2
D 1p 1
S
2
2
p
S
A
A
(при
выполнении
гипотезы AH )
Фактор B
2
D
В
B
S
n
1q 1
S
2
2
q
S
B
B
(при выполнении
гипотезы BH )
Остаточные
факторы
2
0
Dост
S
n
11 qp
11
S
2
2
qp
S
o
o
Общая
вариация
2
D
x
x
S
n
n-1
2
2
1
x
x
S
S
n
(при выполнении
гипотез AH и BH )
Степень этого влияния по результатам наблюдений измеряется выборочным
коэффициентом детерминации
x
A
A
D
D2
, который показывает, какая доля дисперсии
результативного признака в выборке обусловлена влиянием на него фактора A .
Если же A крF f , то гипотезу AH не отвергают и считают, что влияние фактора A не
подтвердилось.
Аналогично проверяется гипотеза BH о влиянии фактора B.
Если эта гипотеза выполняется, то величина
2
2
o
B
B
S
S
F
имеет F -распределение с числами степеней свободы 1pl и 11 qpk .
Найдем критическую точку крf для заданного уровня значимости .
Если ;B крF f , то гипотезу BH отвергают и считают, что фактор B влияет на
результативный признак.
Степень этого влияния по результатам наблюдений измеряется выборочным
коэффициентом детерминации
x
B
B
D
D2
,
который показывает, какая доля дисперсии результативного признака в выборке обусловлена
влиянием на него фактора B .
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
37. 37
Если же B крF f , то гипотезу не отвергают и считают, что влияние фактора B не
подтвердилось.
Пример Выяснить при уровне значимости 05,0 , влияет ли на качество
пряжи, измеряемое величиной разрывной нагрузки, тип машины и вид сырья, из которого
пряжа производится.
Необходимые данные помещены в таблице, в которой для каждого сочетания типа
станка и вида сырья указана нагрузка, при которой пряжа разрывается.
Виды сырья
(уровень фактора B ) 1B 2B Среднее
групповое
(по
строке)
Тип машины
(уровень
фактора A ) i
j
1 2
1A 1 10 50 30
2A 2 20 60 40
3A 3 30 100 65
Среднее групповое
(по столбцу)
20 70
Решение
Число уровней фактора A : 3p .
Число уровней фактора B : 2q .
Общее число наблюдений: 6qpn .
Общее среднее: 45
6
1003060205010
x .
Выборочная дисперсия xD :
535045100
45304560452045504510
2
222222
xS
6
5350
Dx .
Выборочная дисперсия групповых средних ix :
13004565454045302
2222
AS ,
6
1300
DA .
Выборочная дисперсия групповых средних jx :
3750457045203
222
BS ,
6
3750
DB .
30045657010045652030
)4540706045402020
4530705045302010
22
22
222
0S
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
38. 38
300
D
6
ост
Убедимся, что выполняется тождество:
D D D Dx A B ост ,
6
300
6
3750
6
1300
6
5350
.
Источник
вариации
качества
пряжи
Показатель
вариации
Число
степеней
свободы
Несмещенная
оценка
дисперсии
Тип машины
(фактор A ) 6
1300
DA 2 650
2
13002
AS
Вид сырья
(фактор B ) 6
3750
DB 1 3750
1
37502
BS
Остаточные
факторы
300
D
6
ост 21213 150
2
3002
oS
Общая
вариация
5350
D
6
x 5
1300
1070
5
xD
Найдем числовое значение AF -критерия:
33,4
150
650
2
2
o
A
A
S
S
F .
1, 1 1 , 2; 2; 0,05 19кр крf p p q f .
A крF f , считаем, что влияние типа машины на количество пряжи не подтвердилось.
Найдем числовое значение BF -критерия:
25
150
3750
2
2
o
B
B
S
S
F
1, 1 1 , 1; 2; 0,05 18,51кр крf q p q f .
Так как B крF f , то считаем, что вид сырья влияет на качество пряжи. Следовательно,
надо оценить степень этого влияния.
Рассчитаем выборочный коэффициент детерминации:
7,0
53506
637502
x
B
B
D
D
.
Таким образом 70% общей выборочной вариации качества пряжи связано с влиянием на
нее вида сырья.
Пример Имеются следующие данные об урожайности 4-х сортов пшеницы на 5-ти
участках земли (блоках):
Сорт
Урожайность по блокам, ц/га
1 2 3 4 5
1 87,2 67,2 2,16 2,50 2,82
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
39. 39
2 2,45 2,85 2,77 2,87 3,25
3 2,32 2,47 2,00 2,40 2,40
4 2,90 2,87 2,25 2,80 2,70
Требуется найти уровни значимости 05,0 , установить влияние на урожайность сорта
пшеницы (фактора A ) и участков земли – блоков (фактора B ).
Решение
Урожайность по блокам
(уровень фактора B ) 1B 2B 3B 4B 5B
Среднее
групповое
(по строке)
Сорт
(уровень
фактора A ) i
j
1 2 3 4 5
1A 1 2,87 2,67 2,16 2,50 2,82 2,604
2A 2 2,45 2,85 2,77 2,87 3,25 2,838
3A 3 2,32 2,47 2,00 2,40 2,40 2,318
4A 4 2,90 2,87 2,25 2,80 2,70 2,704
Среднее групповое (по
столбцу)
2,635 2,715 2,295 2,6425 2,7925 2,616
Число уровней фактора A : 4p .
Число уровней фактора B : 5q .
Общее число наблюдений: 20qpn .
Общее среднее: 616,2x .
Выборочная дисперсия xD :
780,1616,270,2
616,280,2616,225,2616,287,2616,290,2
616,240,2616,240,2616,240,2616,200,2
616,247,2616,232,2616,225,3616,287,2
616,277,2616,285,2616,245,2616,282,2
616,250,2616,216,2616,267,2616,287,2
2
2222
2222
2222
2222
22222
xS
20
780,1
Dx .
Выборочная дисперсия групповых средних ix :
715,0008,0086,0049,00001,05
))616,2704,2()616,2318,2(
)616,2838,2()616,2604,2((5
22
222
AS
20
715,0
DA .
Выборочная дисперсия групповых средних jx :
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
40. 40
576,0616,27925,2
)616,26425,2()616,2295,2(
)616,2715,2()616,2635,2((4
22
222
BS
20
576,0
DB .
495,0616,2604,27925,270,2...
...616,2604,2715,267,2
616,2604,2635,287,2
2
2
22
0S
0,495
D
20
ост
.
Убедимся, что выполняется тождество:
остBAx DDDD ,
20
495,0
20
576,0
20
715,0
20
780,1
.
Найдем числовое значение AF -критерия:
80,5
041,0
238,0
2
2
o
A
A
S
S
F .
Составим таблицу для произведенных вычислений:
Источник
вариации
урожайности
Показатель
вариации
Число степеней
свободы
Несмещенная
оценка дисперсии
Сорт
(фактор A ) 20
715,0
DA 314 238,0
3
715,02
AS
Блок
(фактор B ) 20
576,0
DB 415 144,0
4
576,02
BS
Остаточные
факторы
0,495
D
20
ост 121514 041,0
12
495,02
oS
Общая
вариация
1,748
D
20
x 2 – 1 = 19 092,0
19
748,12
xS
1, 1 1 , 3; 12; 0,05 3,49кр крf p p q f .
A крF f , считаем, что влияние на урожайность сорта пшеницы значимо.
Найдем числовое значение BF -критерия:
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
41. 41
51,3
041,0
144,0
2
2
o
B
B
S
S
F
1, 1 1 , 4; 12; 0,05 3,26кр крf q p q f . Так как B крF f , то считаем, что
влияние на урожайность участков земли незначимо.
Задания для самостоятельного решения
На пяти предприятиях А1, А2, А3, А4, А5, проверялись 3 технологии производства В1, В2,
В3 однотипных изделий. Данные о производительности труда в условных единицах
приведены в таблице. Требуется на уровне значимости 05,0 установить влияние на
производительность труда предприятия (фактор А) и технологий (фактор В).
Тип
предприятия
(фактор А)
Вид технологии (фактор В)
В1 В2 В3
А1 11x 12x 13x
А2 21x 22x 23x
А3 31x 32x 33x
А4 41x 42x 43x
А5 51x 52x 53x
1
34 28 38
2
48 40 34
36 30 24 38 42 38
26 24 22 30 37 44
25 36 20 40 33 41
30 38 23 36 39 45
3
12 10 20
4
44 30 38
16 8 26 45 36 28
15 7 28 48 32 30
17 5 24 45 35 32
14 9 27 40 30 26
5
16 18 26
6
9 4 12
12 20 15 11 6 18
10 22 28 10 5 24
11 25 30 12 6 20
10 24 26 9 5 23
7
54 32 16
8
8 15 24
50 46 36 16 24 34
43 28 30 40 42 18
47 37 25 12 25 9
36 28 17 32 30 14
9
124 64 34
10
17 26 15
136 54 30 40 16 12
120 44 28 16 17 10
133 56 33 36 30 17
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
43. 43
16 18 12 10 33 20
40 34 36 16 31 28
2.3 Двухфакторный дисперсионный анализ с несколькими наблюдениями в
клетке
Пусть, например, необходимо выяснить, имеются ли существенные различия между (m)
партиями изделий, которые изготавливали на разных (l) станках по каждому фактору: А –
партия изделий, В – станок.
Все имеющиеся данные представлены в виде таблицы, в которой по строкам – уровни Ai
фактора А mi ,1 , по столбцам – уровни Вj фактора В lj ,1 , а в соответствующих клетках
или ячейках таблицы находятся значения показателя качества изделия xj j k nk ,1 ,
где хi j k - значения наблюдений в ячейке ij c номером k.
Групповые средние находятся по формулам:
в ячейке –
n
i
ijkij x
n
x
1
1
,
по строке –
l
j
iji x
l
x
1
1
,
по столбцу –
m
i
ijj x
m
x
1
1
.
Общая средняя –
m
i
l
j
ijx
ml
x
1 1
1
.
Можно показать, что проверка нулевых гипотез НА, НВ, НАВ об отсутствии влияния на
рассматриваемую переменную факторов А, В и их взаимодействия АВ осуществляется
сравнением отношений
2
4
2
1
S
S ,
2
4
2
2
S
S ,
2
4
2
3
S
S с соответствующими табличными значениями F-критерия
Фишера-Снедекора.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
44. 44
Замечание Отклонение от основных предпосылок дисперсионного анализа –
нормальности распределения исследуемой переменной и равенства дисперсий в ячейках
(если оно не чрезмерное) может быть очень чувствительно при неравном числе наблюдений
в ячейках.
Кроме того, при этом резко возрастает сложность аппарата дисперсионного анализа.
Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а
если встречаются недостающие данные, то возмещать их средними значениями других
наблюдений в ячейках.
При этом, однако, искусственно введѐнные недостающие данные не следует
учитывать при подсчѐте числа степеней свободы.
Таблица дисперсионного анализа
Компоненты
дисперсии Сумма квадратов
Число
степеней
свободы
Средние
квадраты
Межгрупповая
(фактор А)
m
l
i xxnlQ
1
2
1 )(
2
1 1 1
)(
1 m
i
l
j
n
k
ijkx
nl
m
i
l
j
n
k
ijkx
nlm 1 1 1
2
)(
1
m-1
1
12
1
m
Q
S
Межгрупповая
(фактор В)
l
j
j xxnmQ
1
2
2 )(
2
1 1 1
)(
1 l
j
m
i
n
k
ijkx
nm
m
i
l
j
n
k
ijkx
nlm 1 1 1
2
)(
1
l-1
)1(
22
2
l
Q
S
Взаимодейств
ие
2
1 1
3 )( xxxxnQ j
m
i
iij
l
j
421 QQQQ
(m-1)(l-1)
)1)(1(
32
3
lm
Q
S
Остаточная m
i
l
j
n
k
ijijk xxQ
1 1 1
2
4 )(
m
i
l
j
n
k
ijk
m
i
l
j
n
k
ijk x
n
x
1 1 1
2
1 1 1
2
)(
1
mln-ml=
=ml(n-1) )1(
42
4
nml
Q
S
Общая m
i
l
j
n
k
ijk xxQ
1 1 1
2
)(
2
1 1 1
2
1 1 1
1
( )
m l n
ijk
i j k
m l n
ijk
i j k
x
x
m l n
mln-1
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»