Regress 2015.05.011

ЗАДАЧА № 1
1.1 Найти значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а)
1.2 Определить стандартную ошибку предсказания являющейся мерой качества реальной
зависимости величинами Y и х с помощью уравнения линейной регрессии.
1.3 Проверить значимость коэффициента регрессии при р=0,05
1.4 Определить выборочный коэффициент Браве-Пирсона. Проверить гипотезу о
значимости выборочного коэффициента корреляции при уровне значимости р=0,05.
X 1 2 3 4 5 6 7 8 9 10
Y 8.013 12.933 19.85 20.503 28.228 24.741 33.105 32.04 32.914 36.473
Линейная регрессия
Простая линейная регрессия позволяет найти линейную зависимость между одной
входной и одной выходной переменными. Для этого определяется уравнение регрессии – это
модель, отражающая зависимость значений Y, зависимой величины Y от значений х,
независимой переменной х и генеральной совокупности, описывается уровнением:
где А0 – свободный член уравнения регрессии;
А1 – коэффициент уравнения регрессии
Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты
А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма
квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии
регрессии, была бы минимальной. Подбор коэффициентов производится по методу
наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную
модель, которая наилучшим образом аппроксимирует зависимость между одной входной и
одной выходной переменными.
Цели регрессионного анализа
 Определение наличия и характера (математического уравнения, описывающего
зависимость) связи между переменными
 Определение степени детерминированности вариации критеральной переменной
предикторами
 Предсказать значение зависимой переменной с помощью независимой
 Определить вклад независимых переменных в вариацию зависимой
1.1
a) Представление исходной информации в виде векторов
b) Определение суммы элементов векторов и произведений векторов:
ORIGIN 1
SX X
 SY Y

SX 55 SY 248.8
SXY X Y SXX X X SYY Y Y
y x( ) A0 A1 Х

c) Определение параметров уравнения регрессии
d)
e)
f) Графическое изображение линии уравнения регрессии и точек кор-реляции
системы MathCad
 intercept (X,Y) - коэффициент А0 линейной регрессии; шугаман регрессийн коэффициент ;
 slope (X,Y) - коэффициент А1 линейной регрессии;
SXY 1.614 10
3
 SXX 385 SYY 6.991 10
3

N 10
A N SXX SX SX A 825
B N SYY SY SY B 8.008 10
3

C N SXY SX SY C 2.456 10
3

A0
SY SXX SXY SX
A
 A0 8.504
A1
C
A
 A1 2.977
y x( ) A0 A1 x
0 5 10
0
10
20
30
40
y x( )
Y
x X

 corr(X,Y) - коэффициент корреляции
1)
функции intercept(X.Y)
2)
функции slope(X.Y)
3) Определим коэффициент корреляции R с помощью встроенной функции corr(X,Y)
1.2 Определим стандартную ошибку предсказания являющейся мерой качества
реальной зависимости величинами Y и х с помощью уравнения линейной регрессии.
Мерой качества приближенного описания реальной зависимости между величинами Y и
х с помощью уравнения линейной регрессии является стандартное отклонение значений у от
регрессионной прямой, вычисляемое по формуле:
SYX является мерой точности предсказания значений случайной величины Y по
заданным значениям величины х, поэтому SYX называют также стандартной ошибкой
предсказания.
Найдем стандартную ошибку предсказания для нашего примера:
A0 intercept X Y( ) A0 8.504
A1 slope X Y( ) A1 2.977
R corr X Y( ) R 0.956
SYX
1
n
i
Yi 2


A0
1
n
i
Yi

 A1
1
n
i
Xi Yi 


n 2

n 10
SYX
1
n
i
Yi 2


A0
1
n
i
Yi

 A1
1
n
i
Xi Yi 


n 2
 SYX 2.945

1.3 Проверим значимость коэффициента регрессии при р=0,05
Если в результате проведенной проверки нет оснований сомневаться в адекватности
линейной модели, то необходимо проверить гипотезу о том, что в действительности в
генеральной совокупности отсутствует линейная регрессия, а то, что полученный
коэффициент регрессии отличен от нуля объясняется только случайностью выборки.
Гипотеза Н0 проверяется с помощью стандартного t-критерия Стьюдента. Значение t-
критерия определяется по формуле:
где А1 – абсолютная величина коэффициента регрессии, SYX – стандартная ошибка
предсказаний.
Если значения t>tp, то нулевая гипотеза отклоняется, и можно сделать вывод, что
линейная регрессия значима на уровне значимости р. Зададимся уровнем значимости р=0,05.
В противном случае гипотеза Н0 принимается
Оценим значимость коэффициента регрессии при уровне значимости р=0,05.
Подставим найденные ранее значения в формулу и определим значение t-критерия.
t0.05=2.306
Поскольку t>t0.05, то на уровне значимости 0,05 отклонением гипотезу Н0, т.е.
коэффициент регрессии является статистически значимым.
1.4 Определим выборочный коэффициент Браве-Пирсона. Проверим гипотезу о
значимости выборочного коэффициента корреляции при уровне значимости р=0,05.
Коэффициент корреляции Браве-Пирсона (RXY) — это параметри-ческий показатель,
для вычисления которого сравнивают средние и стандартные отклонения результатов двух
измерений.
где Xi, Yi - значения первой и второй выборок данных;
t
A1
SYX
1
n
i
Xi 2


n Xsr
2


Xsr
1
n
i
Xi

n
 Xsr 5.5
t
A1
SYX
1
n
i
Xi 2


n Xsr
2

 t 9.182
RXY
1
n
i
Xi Xsr  Yi Ysr  

1
n
i
Xi Xsr 2
Yi Ysr 2







Xsr, Ysr - средние значения первой и второй выборок.
RXY
1
n
i
Xi Xsr  Yi Ysr  

1
n
i
Xi Xsr 2

 1
n
i
Yi Ysr 2




Проверим гипотезу о значимости выборочного коэффициента корреляции при уровне
значимости р=0,05
t1
RXY n 2
1 RXY
2


Поскольку t>t0.05, то на уровне значимости 0,05 отклонением гипотезу Н0, т.е.
коэффициент регрессии является статистически значимым.
n 10
Xsr
1
n
i
Xi

n
 Ysr
1
n
i
Yi

n

Xsr 5.5 Ysr 24.88
RXY 0.956
t1 9.182

ЗАДАЧА №2
При уровне значимости р=0,05 методом дисперсионного анализа проверить
эффективность воздействия рентгеновского облучения на темп размножения определенного
вида бактерий по данным, приведенным по таблице, где представлен относительный уровень
(в процентах) размножения облученных бактерий к необлученным.
Номер
испытания
Дозы облучения
F1=1 F2=2 F3=3 F4=4
1 87 83 77
2 91 85 76
3 97 86 82 77
4 92 88 84 79
5 95 80 81
В процессе медико-биологических исследований часто возникает потребность
оценить влияние на какой-нибудь результативный признак одного или нескольких факторов.
Одним из современных статических методов, которые дают возможность проводить
специальный анализ эффективности влияния многих факторов, является дисперсионный
анализ. С помощью этого метода оценивают также вероятность влияния каждого из
рассматриваемых факторов, их комбинации и общей совокупности. Важным преимуществом
дисперсионного анализа является возможность определения вероятных расхождений в
небольших группах экспериментальных данных, когда какой-нибудь другой метод может дать
не определенный ответ. Это связано с тем, что в других методах проводится сравнение
изолированных групп. Объединение отдельных групп в дисперсионный комплекс дает
возможность четче выявить наличие расхождений, потому что при таком объединении
выявлению расхождений каждой группы содействуют все другие группы комплекса.
Смысл дисперсионного анализа заключается в сопоставлении между собой
показателей варьирования результативных признаков, которое служит причиной действия
постоянных и случайных факторов. В зависимости от числа факторов, которые учитываются
при дисперсионном анализе, статистические комплексы делятся на:
 однофакторный дисперсионный анализ с одинаковым числом испытаний на
уровнях;
 однофакторный дисперсионный анализ с неодинаковым числом испытаний на
уровнях;
 двухфакторный дисперсионный анализ
Ниже будет рассмотрен пример однофакторного дисперсионного анализа с
неодинаковым числом испытаний на уровнях.
Неодинаковое число испытаний на уровнях.
Если число испытаний проведенных на различных уровнях действия фактора,
различно, а именно: на уровне А1 проведено q1 испытаний, на уровне А2- q2 испытаний и т.
д. на уровне Аi – qi испытаний,тофакторную и остаточную дисперсии находят по следующим
формулам:

Здесь
- общее количество результатов испытаний
- сумма значений величины Х на уровне Аj;
- сумма квадратов значений величины Х на уровне Аj
Определим величины:
Предполагая, что распределения значений, характеризующих эффективность
рентгеновского облучения, при каждом испытании является нормальными, а
соответствующие генеральные дисперсии равны, применим метод однофакторного
дисперсионного анализа.
1) Найдем общее количество результатов испытаний:
2) Определим сумму значений величины х на уровне Аj:
Sfact
1
l
j
Rj 2
qj

1
l
j
Rj









2
N

l 1
 Sost
1
l
j
Pj
 1
l
j
Rj 2
qj


N 1

N
1
l
j
qj


Rj
1
qj
i
xi j


Pj
1
qj
i
xi j 2



ORIGIN 1
x
0
0
97
92
95
87
91
86
88
80
83
85
82
84
81
77
76
77
79
0














 l 4 j 1 l
q
3
5
5
4













N
1
l
j
qj

 N 17

3) Определим сумму квадратов значений величины х на уровне Аj
4) Теперь можно определить факторную и остаточную дисперсии по следующим формулам:
Поскольку следует проверить значимость различий между этими
дисперсиями. Для этого вычисляем экспериментальное значение критерия
Так как это различие между факторной и остаточной дисперсиями
является значимым (при уровне значимости р=0,05). В соответствии с методом
дисперсионного анализа нулевую гипотезу о равенстве групповых средних следует
отвергнуть, т. е. различия между групповыми средними значимы, что соответствует наличию
существенного различий между эффективностью воздействия рентгеновского облучения на
темп размножения бактерий.
Вывод: Можно утверждать, что рассматриваемый физический фактор оказывает
существенное влияние на размножение бактерий.
Rj
1
qj
i
xi j

 Rj
97
432
415
309

Pj
1
qj
i
xi j 2


 Pj
39.409·10
43.739·10
43.446·10
42.388·10

Sfact
1
l
j
Rj 2
qj

1
l
j
Rj









2
N

l 1
 Sfact 2.141 10
3

Sost
1
l
j
Pj
 1
l
j
Rj 2
qj


N 1
 Sost 397.039
Sfact Sost
Fexp
Sfact
Sost
 Fexp 5.392
Fkr 0.115 Fkr qF  l 1 N 1 
Fexp Fkr  0.05
Fexp Fkr

ЗАДАЧА №3
Для заданной таблицы данных:
X 1 2 3 4 5 6 7 8 9 10
Y 7.628 6.153 5.519 5.602 5.47 5.012 5.075 4.964 4.902 5.128
С помощью функции genfit – системы MathCad провести нелинейную ре-гресссию общего
вида для
f(x)=ax+b/x;
f3(x)=a𝑒−𝑏𝑥
+ab
Под нелинейной регрессией общего вида подразумевается нахождение вектора Р
параметров произвольной функции F (x, u1, u2, ..., un), при котором обеспечивается
минимальная среднеквадратичная погрешность приближения “облака” исходных точек. Для
проведениянелинейной регрессии общего вида используется функция genfit (X, Y, S, F1). Она
возвращает вектор Р параметров функции F, дающий минимальную среднеквадратичную
погрешность приближения функцией F(x, u1, u2, ..., un) исходных данных. F должен быть
вектором с символьными элементами, причем они должны содержать аналитические
выражения для исходной функции и ее производных по всем параметрам. Вектор S должен
содержать начальные значения элементов вектора P, необходимые для решения системы
нелинейных уравнений регрессии итерационным методом.
При решении этой задачи возникают две проблемы. Прежде всего, надо вычислить
значения производныхпо переменным а и b. Это может быть cделано с помощью символьных
операций, что наглядно показывает пользу от таких операций. Вторая проблема связана с
необходимостью применения функции genfit в ее стандартном виде. Поэтому пришлось
заменить параметр а на u1, а параметр b на u2 и т. д..
Пример использования метода в среде MathCad:
І СПОСОБ (Для функции  f1(x)= +bx+c )
1) Вводим результаты измерений величин X и Y:
2) Выбрав функцию приближения
ORIGIN 1
X
1
2
3
4
5
6
7
8
9
10




























 Y
7.628
6.153
5.519
5.602
5.47
5.012
5.075
4.964
4.902
5.128






























где a, b - искомые коэффициенты регрессии,
3) найдем частные производные этой функции по коэффициентам регрессии:
по а:
по b:
по с:1
4) Введем вектор, элементами которого являются функция приближения и её
производные, переобозначив коэффициенты регрессии
u1=a,
u2=b,
u3=c:
вектор F1 должен быть вектором с символьными элементами, причем они должны содержать
аналитические выражения для исходной функции и ее производных по всем параметрам.
4) Вводим вектор с начальными приближениями коэффициентов регрессии (вектор
S должен содержать начальные значения элементов вектора u):
5) С помощью функции genfit(Х,Y,S,F1), найдем значения коэффициентов регрессии
a, b, где X и Y - векторы экспериментальныхданных, S - вектор с начальными приближениями
коэффициентов регрессии, F1 - вектор F1(x,u)
6) Подставляя найденные значения коэффициентов регрессии в первый элемент
вектора F1(x,u), определите искомую функцию приближения экспериментальных данных
(уравнение регрессии):
7) Построим линию регрессии и график экспериментальных данных:
F x a b c( ) a x
2
 b x c
a x
2
 b x c
x
2
x
F1 x u( )
u1 x
2
 u2 x u3
x
2
x
1















S
2
2
2









P genfit X Y S F1( )
P
0.054
0.81
7.931









G x( ) F1 x P( )1

ІІ СПОСОБ (Для этой же функции  f2(x)= +bx+c )
1) Найдем параметров a, b по следующей системе нормальных уравнений:
2) Чтобы решить эту систему относительно параметров a, b и с, нужно предварительно
рассчитать суммы:
3) Составим систему нормальных уравнений:
5 0 5 10
0
5
10
15
G x( )
Y
x X
ORIGIN 1
n 10
a
1
n
i
Xi

 b
1
n
i
Xi 2


 c
1
n
i
Xi 3



1
n
i
Xi Yi 

a n b
1
n
i
Xi

 c
1
n
i
Xi 2



1
n
i
Yi

a
1
n
i
Xi 2


 b
1
n
i
Xi 3


 c
1
n
i
Xi 4



1
n
i
Yi Xi 2





1
n
i
Xi

55
1
n
i
Xi 2


385
1
n
i
Yi

55.453
1
n
i
Xi 3


3.025 10
3

1
n
i
Xi Yi 

286.956
1
n
i
Xi 4


2.533 10
4

1
n
i
Yi Xi 2





1.965 10
3


4) Решая эту систему относительно коэффициентов a, b и с, найдем их значение:
5) Отсюда эмпирическое уравнение параболы второго порядка таково:
6) Подставляя в это уравнение вместо х значения независимой переменной Х, можно
рассчитать ожидаемые величины:
7) Эти величины хорошо согласуются с фактическими данными, это можно увидеть на
(более плавно идущей) линии регрессии:
a 10 b 55 c 385 55 453
a 55 b 385 c 3.025 10
3
 286.956
a 385 b 3.025 10
3
 c 2.533 10
4
 1.965 10
3

A
10
55
385
55
385
3.025 10
3

385
3.025 10
3

2.533 10
4











 B
55.453
286.956
1.965 10
3











 X1 A
1
B
A
1
1.389
0.528
0.042
0.528
0.243
0.021
0.042
0.021
1.905 10
3











 X1
7.94
0.815
0.054









f X( )
1
1
2
3
4
5
6
7
8
9
10
7.179
6.526
5.981
5.544
5.215
4.994
4.881
4.876
4.979
5.19

0 2 4 6 8 10
0
5
10
15
f X( )
Y
X
f X( ) 0.054 X
2
 0.815 X 7.94

8) Найдем среднеквадратическое уравнение. СКО характеризует разброс любого результата
из ряда наблюдений относительно среднего результата анализа:
Для функции f2(x)=ax+b/x;
1) Для функции приближения (с теми же результатами измерений величин X и Y)
2) Найдем частные производные этой функции по коэффициентам регрессии:
по а:
по b:
3) Найдем значения коэффициентов регрессии a, b:
4) Уравнение регрессии:
Sko
1
n
i
G Xi  Yi 2


 Sko 0.677
ORIGIN 1
F x a b( ) a x
b
x

a x
b
x

x
1
x
F1 x u( )
u1 x
u2
x

x
1
x














 S
2
2







P
0.527
8.39







G x( ) F1 x P( )1
P genfit X Y S F1( )

Для функции f3(x)=a𝑒−𝑏𝑥
+ab
1) Для функции приближения (с теми же результатами измерений величин X и Y)
2) Найдем частные производные этой функции по коэффициентам регрессии:
по а: по b:
3) Найдем значения коэффициентов регрессии a, b:
4) Уравнение регрессии:
5 0 5 10
40
20
20
40
G x( )
Y
x X
ORIGIN 1
F x a b( ) a e
b x
 a b
a e
b x
 a b
e
b( ) x
b a( ) x e
b( ) x
 a
F1 x u( )
u1 e
u2 x
 u1 u2
e
u2 x
u2
u1 x e
u2 x
 u1












 S
2
2







P genfit X Y S F1( ) P
6
0.849







G x( ) F1 x P( )1

ЛИТЕРАТУРА
1. Основы математической статистики: Учебное пособие для by-тов физ. культ./ Под. ред В. С.
Иванова. – М.: Физкультура и спорт, 1990. – 176., ил.
2. Лакин Г. Ф. Биометрия: Учеб. пособие для биол спец. вузов – 4-е изд., перераб. и доп. – М.:
Высш. шк., 1990. – 352 с., ил.
3. Кирьянов Д. В.Самоучитель Mathcad И. - СПб.: БХВ-Петербург, 2003. - 560 с: ил.
4. Гурский Д. А., Турбина Е. С. Вычисления в Mathcad 12. — СПб.: Питер, 2006. — 544 с: ил.
5. Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах
Mathcad 12, МАТLАВ 7, Мар1е 9/Алексеев Е. Р., Чеснокова О. В. - М. : НТ Пресс, 2006. - 496 с. :
ил. - (Самоучитель).
6. Макаров Е. Г. Инженерные расчеты в Mathcad . Учебный курс. – Спб.; Питер, 2005. – 448 с.:
ил.
7. http://www.exponenta.ru/educat/systemat/kazah/matecon/2_5.asp Лабораторные работы по
курсам "Математика для экономистов" и "Экономико-математические методы и моделирование"
в системе MathCAD Р.М. Оспанов
8. http://www.statsoft.ru/HOME/TEXTBOOK/modules/stmulreg.html
9. http://iskunstvo.narod.ru/edu/inf/regr.htm
10. http://edu.nstu.ru/courses/enc/control_quality/full/XX42.htm
10 5 0 5 10
5
10
15
20
G x( )
Y
x X

Regress 2015.05.011

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

Similar to Regress 2015.05.011

Similar to Regress 2015.05.011 (20)

Regress 2015.05.011