Материалы объединенного семинара отдела теории управляющих систем Института прикладной математики и механики и отдела информационных технологий в экономических исследованиях Института экономических исследований.
«Современные проблемы в машинном обучении и анализе данных»
7.1 Материалы модуля
7.2 Основные понятия дискретной вероятности.
7.3 Условная вероятность
7.4 Случайные величины
7.5 Основные характеристики случайных величин
Материалы объединенного семинара отдела теории управляющих систем Института прикладной математики и механики и отдела информационных технологий в экономических исследованиях Института экономических исследований.
«Современные проблемы в машинном обучении и анализе данных»
7.1 Материалы модуля
7.2 Основные понятия дискретной вероятности.
7.3 Условная вероятность
7.4 Случайные величины
7.5 Основные характеристики случайных величин
Формирование целевой функции оценки качества раскатки слоеного тестаITMO University
В работе поставлено первоначальной целью задач статистической обработки для выбранных вариантов раскатки проверить наличие мультиколлинеарности между варьируемыми факторами, определить параметры уравнения регрессии для каждого результирующего фактора эффективности процесса раскатки и проверить статистическую значимость уравнений в целом и отдельных коэффициентов уравнений. Полученная квадратичная модель качества раскатки слоеного теста более точно описывает характер изменения соответствующей поверхности отклика. Становится возможным найти оптимальные раскатки теста.
АЛГОРИТМИЧЕСКАЯ КОРРЕКЦИЯ ПОГРЕШНОСТЕЙ ПОРТАТИВНОГО СПЕКТРОФОТОМЕТРАITMO University
Приводится описание разработанной методики алгоритмической коррекции погрешностей портативных приборов на примере спектрофотометра, входящего в состав прибора „Кедр“, который предназначен для идентификации пород древисины. Предлагаемая методика позволяет повысить достоверность идентификации до 90 %
26 ноября 2015
Докладчик: профессор РЭШ и НИУ ВШЭ, к.ф-м.н. П.К. Катышев
Тема: Мировые цены на нефть и макропоказатели России. Анализ коинтеграции
http://mse-msu.ru/category/nauchnieseminary/
Наиболее интересное задание на ОГЭ по физике - это задание №23 (экспериментальное задание). Только оно предполагает работу с реальным лабораторным оборудованием. Только за него можно получить сразу 4 балла. Какие бывают экспериментальные задания, как их выполнить и оформить, как их оценивают эксперты - все эти вопросы затрагиваются на вебинаре, который провел 5 октября Опаловский Владимир Александрович, кандидат технических наук, учитель высшей категории, методист по физике объединённой издательской группы «ДРОФА»-«ВЕНТАНА-ГРАФ».
1. ЗАДАЧА № 1
1.1 Найти значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а)
1.2 Определить стандартную ошибку предсказания являющейся мерой качества реальной
зависимости величинами Y и х с помощью уравнения линейной регрессии.
1.3 Проверить значимость коэффициента регрессии при р=0,05
1.4 Определить выборочный коэффициент Браве-Пирсона. Проверить гипотезу о
значимости выборочного коэффициента корреляции при уровне значимости р=0,05.
X 1 2 3 4 5 6 7 8 9 10
Y 8.013 12.933 19.85 20.503 28.228 24.741 33.105 32.04 32.914 36.473
Линейная регрессия
Простая линейная регрессия позволяет найти линейную зависимость между одной
входной и одной выходной переменными. Для этого определяется уравнение регрессии – это
модель, отражающая зависимость значений Y, зависимой величины Y от значений х,
независимой переменной х и генеральной совокупности, описывается уровнением:
где А0 – свободный член уравнения регрессии;
А1 – коэффициент уравнения регрессии
Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты
А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма
квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии
регрессии, была бы минимальной. Подбор коэффициентов производится по методу
наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную
модель, которая наилучшим образом аппроксимирует зависимость между одной входной и
одной выходной переменными.
Цели регрессионного анализа
Определение наличия и характера (математического уравнения, описывающего
зависимость) связи между переменными
Определение степени детерминированности вариации критеральной переменной
предикторами
Предсказать значение зависимой переменной с помощью независимой
Определить вклад независимых переменных в вариацию зависимой
1.1
a) Представление исходной информации в виде векторов
b) Определение суммы элементов векторов и произведений векторов:
ORIGIN 1
SX X
SY Y
SX 55 SY 248.8
SXY X Y SXX X X SYY Y Y
y x( ) A0 A1 Х
2. c) Определение параметров уравнения регрессии
d)
e)
f) Графическое изображение линии уравнения регрессии и точек кор-реляции
системы MathCad
intercept (X,Y) - коэффициент А0 линейной регрессии; шугаман регрессийн коэффициент ;
slope (X,Y) - коэффициент А1 линейной регрессии;
SXY 1.614 10
3
SXX 385 SYY 6.991 10
3
N 10
A N SXX SX SX A 825
B N SYY SY SY B 8.008 10
3
C N SXY SX SY C 2.456 10
3
A0
SY SXX SXY SX
A
A0 8.504
A1
C
A
A1 2.977
y x( ) A0 A1 x
0 5 10
0
10
20
30
40
y x( )
Y
x X
3. corr(X,Y) - коэффициент корреляции
1)
функции intercept(X.Y)
2)
функции slope(X.Y)
3) Определим коэффициент корреляции R с помощью встроенной функции corr(X,Y)
1.2 Определим стандартную ошибку предсказания являющейся мерой качества
реальной зависимости величинами Y и х с помощью уравнения линейной регрессии.
Мерой качества приближенного описания реальной зависимости между величинами Y и
х с помощью уравнения линейной регрессии является стандартное отклонение значений у от
регрессионной прямой, вычисляемое по формуле:
SYX является мерой точности предсказания значений случайной величины Y по
заданным значениям величины х, поэтому SYX называют также стандартной ошибкой
предсказания.
Найдем стандартную ошибку предсказания для нашего примера:
A0 intercept X Y( ) A0 8.504
A1 slope X Y( ) A1 2.977
R corr X Y( ) R 0.956
SYX
1
n
i
Yi 2
A0
1
n
i
Yi
A1
1
n
i
Xi Yi
n 2
n 10
SYX
1
n
i
Yi 2
A0
1
n
i
Yi
A1
1
n
i
Xi Yi
n 2
SYX 2.945
4. 1.3 Проверим значимость коэффициента регрессии при р=0,05
Если в результате проведенной проверки нет оснований сомневаться в адекватности
линейной модели, то необходимо проверить гипотезу о том, что в действительности в
генеральной совокупности отсутствует линейная регрессия, а то, что полученный
коэффициент регрессии отличен от нуля объясняется только случайностью выборки.
Гипотеза Н0 проверяется с помощью стандартного t-критерия Стьюдента. Значение t-
критерия определяется по формуле:
где А1 – абсолютная величина коэффициента регрессии, SYX – стандартная ошибка
предсказаний.
Если значения t>tp, то нулевая гипотеза отклоняется, и можно сделать вывод, что
линейная регрессия значима на уровне значимости р. Зададимся уровнем значимости р=0,05.
В противном случае гипотеза Н0 принимается
Оценим значимость коэффициента регрессии при уровне значимости р=0,05.
Подставим найденные ранее значения в формулу и определим значение t-критерия.
t0.05=2.306
Поскольку t>t0.05, то на уровне значимости 0,05 отклонением гипотезу Н0, т.е.
коэффициент регрессии является статистически значимым.
1.4 Определим выборочный коэффициент Браве-Пирсона. Проверим гипотезу о
значимости выборочного коэффициента корреляции при уровне значимости р=0,05.
Коэффициент корреляции Браве-Пирсона (RXY) — это параметри-ческий показатель,
для вычисления которого сравнивают средние и стандартные отклонения результатов двух
измерений.
где Xi, Yi - значения первой и второй выборок данных;
t
A1
SYX
1
n
i
Xi 2
n Xsr
2
Xsr
1
n
i
Xi
n
Xsr 5.5
t
A1
SYX
1
n
i
Xi 2
n Xsr
2
t 9.182
RXY
1
n
i
Xi Xsr Yi Ysr
1
n
i
Xi Xsr 2
Yi Ysr 2
5. Xsr, Ysr - средние значения первой и второй выборок.
RXY
1
n
i
Xi Xsr Yi Ysr
1
n
i
Xi Xsr 2
1
n
i
Yi Ysr 2
Проверим гипотезу о значимости выборочного коэффициента корреляции при уровне
значимости р=0,05
t1
RXY n 2
1 RXY
2
Поскольку t>t0.05, то на уровне значимости 0,05 отклонением гипотезу Н0, т.е.
коэффициент регрессии является статистически значимым.
n 10
Xsr
1
n
i
Xi
n
Ysr
1
n
i
Yi
n
Xsr 5.5 Ysr 24.88
RXY 0.956
t1 9.182
6. ЗАДАЧА №2
При уровне значимости р=0,05 методом дисперсионного анализа проверить
эффективность воздействия рентгеновского облучения на темп размножения определенного
вида бактерий по данным, приведенным по таблице, где представлен относительный уровень
(в процентах) размножения облученных бактерий к необлученным.
Номер
испытания
Дозы облучения
F1=1 F2=2 F3=3 F4=4
1 87 83 77
2 91 85 76
3 97 86 82 77
4 92 88 84 79
5 95 80 81
В процессе медико-биологических исследований часто возникает потребность
оценить влияние на какой-нибудь результативный признак одного или нескольких факторов.
Одним из современных статических методов, которые дают возможность проводить
специальный анализ эффективности влияния многих факторов, является дисперсионный
анализ. С помощью этого метода оценивают также вероятность влияния каждого из
рассматриваемых факторов, их комбинации и общей совокупности. Важным преимуществом
дисперсионного анализа является возможность определения вероятных расхождений в
небольших группах экспериментальных данных, когда какой-нибудь другой метод может дать
не определенный ответ. Это связано с тем, что в других методах проводится сравнение
изолированных групп. Объединение отдельных групп в дисперсионный комплекс дает
возможность четче выявить наличие расхождений, потому что при таком объединении
выявлению расхождений каждой группы содействуют все другие группы комплекса.
Смысл дисперсионного анализа заключается в сопоставлении между собой
показателей варьирования результативных признаков, которое служит причиной действия
постоянных и случайных факторов. В зависимости от числа факторов, которые учитываются
при дисперсионном анализе, статистические комплексы делятся на:
однофакторный дисперсионный анализ с одинаковым числом испытаний на
уровнях;
однофакторный дисперсионный анализ с неодинаковым числом испытаний на
уровнях;
двухфакторный дисперсионный анализ
Ниже будет рассмотрен пример однофакторного дисперсионного анализа с
неодинаковым числом испытаний на уровнях.
Неодинаковое число испытаний на уровнях.
Если число испытаний проведенных на различных уровнях действия фактора,
различно, а именно: на уровне А1 проведено q1 испытаний, на уровне А2- q2 испытаний и т.
д. на уровне Аi – qi испытаний,тофакторную и остаточную дисперсии находят по следующим
формулам:
7. Здесь
- общее количество результатов испытаний
- сумма значений величины Х на уровне Аj;
- сумма квадратов значений величины Х на уровне Аj
Определим величины:
Предполагая, что распределения значений, характеризующих эффективность
рентгеновского облучения, при каждом испытании является нормальными, а
соответствующие генеральные дисперсии равны, применим метод однофакторного
дисперсионного анализа.
1) Найдем общее количество результатов испытаний:
2) Определим сумму значений величины х на уровне Аj:
Sfact
1
l
j
Rj 2
qj
1
l
j
Rj
2
N
l 1
Sost
1
l
j
Pj
1
l
j
Rj 2
qj
N 1
N
1
l
j
qj
Rj
1
qj
i
xi j
Pj
1
qj
i
xi j 2
ORIGIN 1
x
0
0
97
92
95
87
91
86
88
80
83
85
82
84
81
77
76
77
79
0
l 4 j 1 l
q
3
5
5
4
N
1
l
j
qj
N 17
8. 3) Определим сумму квадратов значений величины х на уровне Аj
4) Теперь можно определить факторную и остаточную дисперсии по следующим формулам:
Поскольку следует проверить значимость различий между этими
дисперсиями. Для этого вычисляем экспериментальное значение критерия
Так как это различие между факторной и остаточной дисперсиями
является значимым (при уровне значимости р=0,05). В соответствии с методом
дисперсионного анализа нулевую гипотезу о равенстве групповых средних следует
отвергнуть, т. е. различия между групповыми средними значимы, что соответствует наличию
существенного различий между эффективностью воздействия рентгеновского облучения на
темп размножения бактерий.
Вывод: Можно утверждать, что рассматриваемый физический фактор оказывает
существенное влияние на размножение бактерий.
Rj
1
qj
i
xi j
Rj
97
432
415
309
Pj
1
qj
i
xi j 2
Pj
39.409·10
43.739·10
43.446·10
42.388·10
Sfact
1
l
j
Rj 2
qj
1
l
j
Rj
2
N
l 1
Sfact 2.141 10
3
Sost
1
l
j
Pj
1
l
j
Rj 2
qj
N 1
Sost 397.039
Sfact Sost
Fexp
Sfact
Sost
Fexp 5.392
Fkr 0.115 Fkr qF l 1 N 1
Fexp Fkr 0.05
Fexp Fkr
9. ЗАДАЧА №3
Для заданной таблицы данных:
X 1 2 3 4 5 6 7 8 9 10
Y 7.628 6.153 5.519 5.602 5.47 5.012 5.075 4.964 4.902 5.128
С помощью функции genfit – системы MathCad провести нелинейную ре-гресссию общего
вида для
f(x)=ax+b/x;
f3(x)=a𝑒−𝑏𝑥
+ab
Под нелинейной регрессией общего вида подразумевается нахождение вектора Р
параметров произвольной функции F (x, u1, u2, ..., un), при котором обеспечивается
минимальная среднеквадратичная погрешность приближения “облака” исходных точек. Для
проведениянелинейной регрессии общего вида используется функция genfit (X, Y, S, F1). Она
возвращает вектор Р параметров функции F, дающий минимальную среднеквадратичную
погрешность приближения функцией F(x, u1, u2, ..., un) исходных данных. F должен быть
вектором с символьными элементами, причем они должны содержать аналитические
выражения для исходной функции и ее производных по всем параметрам. Вектор S должен
содержать начальные значения элементов вектора P, необходимые для решения системы
нелинейных уравнений регрессии итерационным методом.
При решении этой задачи возникают две проблемы. Прежде всего, надо вычислить
значения производныхпо переменным а и b. Это может быть cделано с помощью символьных
операций, что наглядно показывает пользу от таких операций. Вторая проблема связана с
необходимостью применения функции genfit в ее стандартном виде. Поэтому пришлось
заменить параметр а на u1, а параметр b на u2 и т. д..
Пример использования метода в среде MathCad:
І СПОСОБ (Для функции f1(x)= +bx+c )
1) Вводим результаты измерений величин X и Y:
2) Выбрав функцию приближения
ORIGIN 1
X
1
2
3
4
5
6
7
8
9
10
Y
7.628
6.153
5.519
5.602
5.47
5.012
5.075
4.964
4.902
5.128
10. где a, b - искомые коэффициенты регрессии,
3) найдем частные производные этой функции по коэффициентам регрессии:
по а:
по b:
по с:1
4) Введем вектор, элементами которого являются функция приближения и её
производные, переобозначив коэффициенты регрессии
u1=a,
u2=b,
u3=c:
вектор F1 должен быть вектором с символьными элементами, причем они должны содержать
аналитические выражения для исходной функции и ее производных по всем параметрам.
4) Вводим вектор с начальными приближениями коэффициентов регрессии (вектор
S должен содержать начальные значения элементов вектора u):
5) С помощью функции genfit(Х,Y,S,F1), найдем значения коэффициентов регрессии
a, b, где X и Y - векторы экспериментальныхданных, S - вектор с начальными приближениями
коэффициентов регрессии, F1 - вектор F1(x,u)
6) Подставляя найденные значения коэффициентов регрессии в первый элемент
вектора F1(x,u), определите искомую функцию приближения экспериментальных данных
(уравнение регрессии):
7) Построим линию регрессии и график экспериментальных данных:
F x a b c( ) a x
2
b x c
a x
2
b x c
x
2
x
F1 x u( )
u1 x
2
u2 x u3
x
2
x
1
S
2
2
2
P genfit X Y S F1( )
P
0.054
0.81
7.931
G x( ) F1 x P( )1
11. ІІ СПОСОБ (Для этой же функции f2(x)= +bx+c )
1) Найдем параметров a, b по следующей системе нормальных уравнений:
2) Чтобы решить эту систему относительно параметров a, b и с, нужно предварительно
рассчитать суммы:
3) Составим систему нормальных уравнений:
5 0 5 10
0
5
10
15
G x( )
Y
x X
ORIGIN 1
n 10
a
1
n
i
Xi
b
1
n
i
Xi 2
c
1
n
i
Xi 3
1
n
i
Xi Yi
a n b
1
n
i
Xi
c
1
n
i
Xi 2
1
n
i
Yi
a
1
n
i
Xi 2
b
1
n
i
Xi 3
c
1
n
i
Xi 4
1
n
i
Yi Xi 2
1
n
i
Xi
55
1
n
i
Xi 2
385
1
n
i
Yi
55.453
1
n
i
Xi 3
3.025 10
3
1
n
i
Xi Yi
286.956
1
n
i
Xi 4
2.533 10
4
1
n
i
Yi Xi 2
1.965 10
3
12. 4) Решая эту систему относительно коэффициентов a, b и с, найдем их значение:
5) Отсюда эмпирическое уравнение параболы второго порядка таково:
6) Подставляя в это уравнение вместо х значения независимой переменной Х, можно
рассчитать ожидаемые величины:
7) Эти величины хорошо согласуются с фактическими данными, это можно увидеть на
(более плавно идущей) линии регрессии:
a 10 b 55 c 385 55 453
a 55 b 385 c 3.025 10
3
286.956
a 385 b 3.025 10
3
c 2.533 10
4
1.965 10
3
A
10
55
385
55
385
3.025 10
3
385
3.025 10
3
2.533 10
4
B
55.453
286.956
1.965 10
3
X1 A
1
B
A
1
1.389
0.528
0.042
0.528
0.243
0.021
0.042
0.021
1.905 10
3
X1
7.94
0.815
0.054
f X( )
1
1
2
3
4
5
6
7
8
9
10
7.179
6.526
5.981
5.544
5.215
4.994
4.881
4.876
4.979
5.19
0 2 4 6 8 10
0
5
10
15
f X( )
Y
X
f X( ) 0.054 X
2
0.815 X 7.94
13. 8) Найдем среднеквадратическое уравнение. СКО характеризует разброс любого результата
из ряда наблюдений относительно среднего результата анализа:
Для функции f2(x)=ax+b/x;
1) Для функции приближения (с теми же результатами измерений величин X и Y)
где a, b - искомые коэффициенты регрессии,
2) Найдем частные производные этой функции по коэффициентам регрессии:
по а:
по b:
3) Найдем значения коэффициентов регрессии a, b:
4) Уравнение регрессии:
Sko
1
n
i
G Xi Yi 2
Sko 0.677
ORIGIN 1
F x a b( ) a x
b
x
a x
b
x
x
1
x
F1 x u( )
u1 x
u2
x
x
1
x
S
2
2
P
0.527
8.39
G x( ) F1 x P( )1
P genfit X Y S F1( )
14. Для функции f3(x)=a𝑒−𝑏𝑥
+ab
1) Для функции приближения (с теми же результатами измерений величин X и Y)
где a, b - искомые коэффициенты регрессии,
2) Найдем частные производные этой функции по коэффициентам регрессии:
по а: по b:
3) Найдем значения коэффициентов регрессии a, b:
4) Уравнение регрессии:
5 0 5 10
40
20
20
40
G x( )
Y
x X
ORIGIN 1
F x a b( ) a e
b x
a b
a e
b x
a b
e
b( ) x
b a( ) x e
b( ) x
a
F1 x u( )
u1 e
u2 x
u1 u2
e
u2 x
u2
u1 x e
u2 x
u1
S
2
2
P genfit X Y S F1( ) P
6
0.849
G x( ) F1 x P( )1
15. ЛИТЕРАТУРА
1. Основы математической статистики: Учебное пособие для by-тов физ. культ./ Под. ред В. С.
Иванова. – М.: Физкультура и спорт, 1990. – 176., ил.
2. Лакин Г. Ф. Биометрия: Учеб. пособие для биол спец. вузов – 4-е изд., перераб. и доп. – М.:
Высш. шк., 1990. – 352 с., ил.
3. Кирьянов Д. В.Самоучитель Mathcad И. - СПб.: БХВ-Петербург, 2003. - 560 с: ил.
4. Гурский Д. А., Турбина Е. С. Вычисления в Mathcad 12. — СПб.: Питер, 2006. — 544 с: ил.
5. Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах
Mathcad 12, МАТLАВ 7, Мар1е 9/Алексеев Е. Р., Чеснокова О. В. - М. : НТ Пресс, 2006. - 496 с. :
ил. - (Самоучитель).
6. Макаров Е. Г. Инженерные расчеты в Mathcad . Учебный курс. – Спб.; Питер, 2005. – 448 с.:
ил.
7. http://www.exponenta.ru/educat/systemat/kazah/matecon/2_5.asp Лабораторные работы по
курсам "Математика для экономистов" и "Экономико-математические методы и моделирование"
в системе MathCAD Р.М. Оспанов
8. http://www.statsoft.ru/HOME/TEXTBOOK/modules/stmulreg.html
9. http://iskunstvo.narod.ru/edu/inf/regr.htm
10. http://edu.nstu.ru/courses/enc/control_quality/full/XX42.htm
10 5 0 5 10
5
10
15
20
G x( )
Y
x X