К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"

Непараметрическая регрессия
Многомерная линейная регрессия
Метод главных компонент
Нелинейная регрессия

Регрессия

К. В. Воронцов
vokov@forecsys.ru
http://www.ccas.ru/voron

14 апреля 2010

К. В. Воронцов (www.ccas.ru/voron) Регрессия


Метод наименьших квадратов

X — объекты (часто Rn ); Y — ответы (часто R, реже Rm );
X ℓ = (xi , yi )i=1 — обучающая выборка;
ℓ

yi = y (xi ), y : X → Y — неизвестная зависимость;
a(x) = f (x, α) — модель зависимости,
α ∈ Rp — вектор параметров модели.
Метод наименьших квадратов (МНК):
ℓ
ℓ 2
Q(α, X ) = wi f (xi , α) − yi → min,
α
i=1

где wi — вес, степень важности i-го объекта.
Q(α∗ , X ℓ ) — остаточная сумма квадратов
(residual sum of squares, RSS).


Метод максимума правдоподобия

Модель данных с некоррелированным гауссовским шумом:

y (xi ) = f (xi , α) + εi , εi ∼ N (0, σi2 ), i = 1, . . . , ℓ.

Метод максимума правдоподобия (ММП):
ℓ
1 1 2
L(ε1 , . . . , εℓ |α) = √ exp − ε → max;
σi 2π 2σi2 i α
i=1
ℓ
1 1 2
− ln L(ε1 , . . . , εℓ |α) = const(α) + f (xi , α) − yi → min;
2 σi2 α
i=1

Теорема
Решения МНК и ММП, совпадают, причём веса объектов
обратно пропорциональны дисперсии шума, wi = σi−2 .


Содержание
1 Непараметрическая регрессия
Формула Надарая–Ватсона
Выбор ядра K и ширины окна h
Отсев выбросов
2 Многомерная линейная регрессия
Решение задачи наименьших квадратов
Сингулярное разложение
Регуляризация (гребневая регрессия)
Лассо Тибширани
3 Метод главных компонент
Постановка задачи
Основная теорема
4 Нелинейная регрессия
Нелинейная модель регрессии
Логистическая регрессия
Нелинейные преобразования признаков




Приближение константой a(x) = α в окрестности x ∈ X :
ℓ
2
Q(α; X ℓ ) = wi (x) α − yi → min;
α∈R
i=1

где wi (x) = K ρ(x,xi ) — веса объектов xi относительно x;
h
K (r ) — ядро, невозрастающее, ограниченное, гладкое;
h — ширина окна сглаживания.

Формула ядерного сглаживания Надарая–Ватсона:
ℓ ℓ
ρ(x,xi )
yi wi (x) yi K h
i=1 i=1
ah (x; X ℓ ) = ℓ
= ℓ
.
ρ(x,xi )
wi (x) K h
i=1 i=1



Обоснование формулы Надарая–Ватсона

Теорема
Пусть выполнены следующие условия:
1) выборка X ℓ = (xi , yi )ℓ простая, из распределения p(x, y );
i=1
∞
2) ядро K (r ) ограничено: 0 K (r ) dr < ∞, lim rK (r ) = 0;
r →∞
3) зависимость E(y |x) не имеет вертикальных асимптот:
E(y 2 |x) = Y y 2 p(y |x) dy < ∞ при любом x ∈ X ;
4) последовательность hℓ убывает, но не слишком быстро:
lim hℓ = 0, lim ℓhℓ = ∞.
ℓ→∞ ℓ→∞
Тогда имеет место сходимость по вероятности:
P
ahℓ (x; X ℓ ) → E(y |x) в любой точке x ∈ X ,
в которой E(y |x), p(x) и D(y |x) непрерывны и p(x) > 0.



Ядро K (r )
— существенно влияет на гладкость функции ah (x),
— слабо влияет на качество аппроксимации.
Ширина окна h
— существенно влияет на качество аппроксимации.
При неравномерной сетке {xi } — переменная ширина окна:

ρ(x, xi )
wi (x) = K ,
h(x)

где h(x) = ρ(x, x (k+1) ), x (k+1) — k-й сосед объекта x.
Оптимизация ширины окна по скользящему контролю:
ℓ
2
LOO(h, X ℓ ) = ah xi ; X ℓ {xi } − yi → min .
h
i=1



Локально взвешенное сглаживание
(LOWESS — LOcally WEighted Scatter plot Smoothing)

Основная идея:
чем больше величина ошибки εi = ah xi ; X ℓ {xi } − yi , тем
в большей степени прецедент (xi , yi ) является выбросом, и тем
меньше должен быть его вес wi (x).

Эвристика:
˜
домножить веса wi (x) на коэффициенты γi = K (εi ),
˜
где K — ещё одно ядро, вообще говоря, отличное от K (r ).

Рекомендация:
˜ ε
квартическое ядро K (ε) = KQ 6 med{εi } ,
где med{εi } — медиана вариационного ряда ошибок.



Алгоритм LOWESS

Вход: X ℓ — обучающая выборка;
Выход: коэффициенты γi , i = 1, . . . , ℓ;
1: инициализация: γi := 1, i = 1, . . . , ℓ;
2: повторять
3: для всех объектов i = 1, . . . , ℓ
4: вычислить оценки скользящего контроля:
ℓ
ρ(xi ,xj )
y j γj K h(xi )
j=1, j=i
ai := ah xi ; X ℓ {xi } = ℓ
;
ρ(xi ,xj )
γj K h(xi )
j=1, j=i
5: для всех объектов i = 1, . . . , ℓ
6: ˜
γi := K |ai − yi | ;
7: пока коэффициенты γi не стабилизируются;


Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани


f1 (x), . . . , fn (x) — числовые признаки;
Модель многомерной линейной регрессии:
n
f (x, α) = αj fj (x), α ∈ Rn .
j=1

Матричные обозначения:
     
f1 (x1 ) . . . fn (x1 ) y1 α1
F =  ... ... ... , y = . . . , α = . . . .
ℓ×n ℓ×1 n×1
f1 (xℓ ) . . . fn (xℓ ) yℓ αn

Функционал квадрата ошибки:
ℓ
2 2
Q(α, X ℓ ) = f (xi , α) − yi = Fα − y → min .
α
i=1



Нормальная система уравнений

Необходимое условие минимума в матричном виде:
∂Q
(α) = 2F т (F α − y ) = 0,
∂α
откуда следует нормальная система задачи МНК:

F тF α = F тy ,

где F т F — ковариационная матрица набора признаков f1 , . . . , fn .
n×n

Решение системы: α∗ = (F т F )−1 F т y = F + y .
Значение функционала: Q(α∗ ) = PF y − y 2 ,
где PF = FF + = F (F т F )−1 F т — проекционная матрица.



Сингулярное разложение

Произвольная ℓ×n-матрица представима в виде
сингулярного разложения (singular value decomposition, SVD):

F = VDU т .

Основные свойства сингулярного разложения:
1 ℓ×n-матрица V = (v1 , . . . , vn ) ортогональна, V т V = In ,
столбцы vj — собственные векторы матрицы FF т ;
2 n×n-матрица U = (u1 , . . . , un ) ортогональна, U т U = In ,
столбцы uj — собственные векторы матрицы F т F ;
√ √
3 n×n-матрица D диагональна, D = diag λ1 , . . . , λn ,
λj 0 — собственные значения матриц F т F и FF т .



Решение МНК через сингулярное разложение

Псевдообратная F + , вектор МНК-решения α∗ ,
МНК-аппроксимация целевого вектора F α∗ :
n
1
F + = (UDV т VDU т )−1 UDV т = UD −1 V т = uj vjт ;
j=1
λj
n
1
α∗ = F + y = UD −1 V т y = uj (vjт y );
j=1
λj
n
F α∗ = PF y = (VDU т )UD −1 V т y = VV т y = vj (vjт y );
j=1
n
1 т 2
α∗ 2
= D −1 V т y 2
= (v y ) .
λj j
j=1



Проблема мультиколлинеарности

Если имеются λj → 0, то
МНК-решение α∗ неустойчиво и неинтерпретируемо:
α → ∞;
ответы на новых объектах y ′ = F ′ α∗ неустойчивы;
в то время как на обучении, казалось бы, «всё хорошо»:
Q(α∗ ) = F α∗ − y 2 → 0;
мультиколлинеарность влечёт переобучение.

Три стратегии устранения мультиколлинеарности:
Регуляризация: α → min;
Преобразование признаков: f1 , . . . , fn → g1 , . . . , gm , m ≪ n;
Отбор признаков: f1 , . . . , fn → fj1 , . . . , fjm , m ≪ n.



Штраф за увеличение нормы вектора весов α :
2
Qτ (α) = F α − y + 1
2σ α 2,
1
где τ = σ — неотрицательный параметр регуляризации.
Вероятностная интерпретация: априорное распределение
вектора α — гауссовское с ковариационной матрицей σIn .

Модифицированное МНК-решение (τ In — «гребень»):

ατ = (F т F + τ In )−1 F т y .
∗

Преимущество сингулярного разложения:
можно подбирать параметр τ , вычислив SVD только один раз.



Регуляризованный МНК через сингулярное разложение

Вектор регуляризованного МНК-решения ατ∗
∗
и МНК-аппроксимация целевого вектора F ατ :
n
λj
ατ = U(D 2 + τ In )−1 DV т y =
∗
uj (vjт y );
λj + τ
j=1
n
∗ ∗ λj λj
F ατ = VDU т ατ = V diag V тy = vj (vjт y );
λj + τ λj + τ
j=1
n
∗ 2 1
ατ = D 2 (D 2 + τ In )−1 D −1 V т y 2
= (v т y )2 .
λj + τ j
j=1

F ατ = F α∗ , но зато решение становится гораздо устойчивее.
∗



Выбор параметра регуляризации τ

Контрольная выборка: X k = (xi′ , yi′ )k ;
i=1
 ′ ′
  ′

f1 (x1 ) . . . fn (x1 ) y1
F′ =  ... ... ... , y ′ = . . . .
k×n ′ ) . . . f (x ′ ) k×1 ′
f1 (xk n k yk

Вычисление функционала Q на контрольных данных T раз
потребует O(kn2 + knT ) операций:
√ 2
λj
Q(ατ , X k ) = F ′ ατ − y ′
∗ ∗ 2
= F ′ U diag λj +τ V т y −y ′ .
k×n n×1

Зависимость Q(τ ) обычно имеет характерный минимум.



Регуляризация сокращает «эффективную размерность»

Сжатие (shrinkage) или сокращение весов (weight decay):
n n
1 1 т 2
ατ 2
∗
= (v т y )2 < α ∗ 2
= (v y ) .
λj + τ j λj j
j=1 j=1

Почему говорят о сокращении эффективной размерности?
Роль размерности играет след проекционной матрицы:

tr F (F т F )−1 F т = tr(F т F )−1 F т F = tr In = n.

При использовании регуляризации:
n
т −1 т λj λj
tr F (F F + τ In ) F = tr diag = < n.
λj + τ λj + τ
j=1



Лассо Тибширани — другой подход к регуляризации
LASSO — Least Absolute Shrinkage and Selection Operator

 2
 Q(α) = F α − y

→ min;
α
n

 |αj | κ;
j=1

Лассо приводит к отбору признаков! Почему?
После замены переменных
+ −
αj = αj − αj ; + −
+ −
αj 0; αj 0.
|αj | = αj + αj ;
ограничения принимают канонический вид:
n
+ − + −
αj + αj κ; αj 0; αj 0.
j=1
+ −
Чем меньше κ, тем больше j таких, что αj = αj = 0.


Сравнение гребневой регрессии и Лассо

Зависимость {αj } от σ Зависимость {αj } от κ

Задача диагностики рака (prostate cancer, UCI)
T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning.
Springer, 2001.



Метод главных компонент: постановка задачи

f1 (x), . . . , fn (x) — исходные числовые признаки;
g1 (x), . . . , gm (x) — новые числовые признаки, m n;

Требование: старые признаки должны линейно
восстанавливаться по новым:
m
ˆ
fj (x) = gs (x)ujs , j = 1, . . . , n, ∀x ∈ X ,
s=1

как можно точнее на обучающей выборке x1 , . . . , xℓ :
ℓ n
ˆ 2
fj (xi ) − fj (xi ) → min
{gs (xi )},{ujs }
i=1 j=1



Матричные обозначения

Матрицы «объекты–признаки», старая и новая:
   
f1 (x1 ) . . . fn (x1 ) g1 (x1 ) . . . gm (x1 )
F =  ... ... ... ; G =  ... ... ... .
ℓ×n ℓ×m
f1 (xℓ ) . . . fn (xℓ ) g1 (xℓ ) . . . gm (xℓ )
Матрица линейного преобразования новых признаков в старые:
 
u11 . . . u1m
хотим
U = . . . . . . . . .  ; ˆ
F = GU т ≈ F .
n×m
un1 . . . unm
Найти: и новые признаки G , и преобразование U:
ℓ n
ˆ 2 2
fj (xi ) − fj (xi ) = GU т − F → min,
G ,U
i=1 j=1



Основная теорема метода главных компонент

Теорема
2
Если m rk F , то минимум GU т − F достигается, когда
столбцы U — это с.в. матрицы F т F , соответствующие
m максимальным с.з. λ1 , . . . , λm , а матрица G = FU.
При этом:
1 матрица U ортонормирована: U т U = Im ;
2 матрица G ортогональна: G т G = Λ = diag(λ1 , . . . , λm );
3 UΛ = F т FU; G Λ = FF т G ;
n
2 2
4 GU т − F = F − tr Λ = λj .
j=m+1



Связь с сингулярным разложением

Если взять m = n, то:
2
1 GU т − F = 0;
2 ˆ
представление F = GU т = F точное и совпадает
√
с сингулярным разложением при G = V Λ:
√
F = GU т = V ΛU т ; U т U = Im ; V т V = Im .
3 линейное преобразование U работает в обе стороны:
F = GU т ; G = FU.
Поскольку новые признаки некоррелированы (G т G = Λ),
преобразование U называется декоррелирующим
(или преобразованием Карунена–Лоэва).



Эффективная размерность выборки

Упорядочим с.з. F т F по убыванию: λ1 ... λn 0.
Эффективная размерность выборки — это
наименьшее целое m, при котором
GU т − F 2 λm+1 + · · · + λn
Em = = ε.
F 2 λ1 + · · · + λn

Критерий «крутого склона»: находим m: Em−1 ≫ Em :
0.4
0.3
0.2
0.1
0
-0.1 m-1 m m+1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 λ


Решение задачи НК в новых признаках

Заменим F на её приближение GU т :
2 2
G U т α −y = Gβ − y → min .
β
β

Связь нового и старого вектора коэффициентов:
α = Uβ; β = U т α.
Решение задачи наименьших квадратов относительно β
(единственное отличие — m слагаемых вместо n):
m
1
β ∗ = D −1 V т y = uj (vjт y );
j=1
λj
m
G β ∗ = VV т y = vj (vjт y );
j=1




Нелинейная модель регрессии f (x, α), α ∈ Rp .
Функционал среднеквадратичного отклонения:
ℓ
ℓ 2
Q(α, X ) = f (xi , α) − yi → min .
α
i=1

Метод Ньютона–Рафсона.
1. Начальное приближение α0 = (α1 , . . . , αp ).
0 0

2. Итерационный процесс
−1
αt+1 := αt − ηt Q ′′ (αt ) Q ′ (αt ),
Q ′ (αt ) — градиент функционала Q в точке αt ,
Q ′′ (αt ) — гессиан функционала Q в точке αt ,
ηt — величина шага (можно полагать ηt = 1).



Метод Ньютона-Рафсона

Компоненты градиента:
ℓ
∂Q(α) ∂f (xi , α)
=2 f (xi , α) − yi .
∂αj ∂αj
i=1
Компоненты гессиана:
ℓ ℓ
∂ 2 Q(α) ∂f (xi , α) ∂f (xi , α) ∂ 2 f (xi , α)
=2 −2 f (xi , α) − yi .
∂αj ∂αk ∂αj ∂αk ∂αj ∂αk
i=1 i=1
при линеаризации полагается = 0

Не хотелось бы обращать гессиан на каждой итерации...
Линеаризация f (xi , α) в окрестности текущего αt :
p
∂f (xi , αj )
f (xi , α) = f (xi , αt ) + t
αj − αj .
∂αj
j=1



Метод Ньютона-Гаусса

Матричные обозначения:
∂f j=1,p
Ft = ∂αj (xi , αt ) i=1,ℓ — ℓ×p-матрица первых производных;
ft = f (xi , αt ) i=1,ℓ
— вектор значений f .
Формула t-й итерации метода Ньютона–Гаусса:
αt+1 := αt − ht (Ftт Ft )−1 Ftт (f t − y ) .
β

β — это решение задачи многомерной линейной регрессии
2
Ft β − (f t − y ) → min .
β

Нелинейная регрессия сведена к серии линейных регрессий.
Скорость сходимости — как и у метода Ньютона–Рафсона,
но для вычислений можно применять стандартные методы.


Логистическая регрессия (напоминание)

Y = {−1, +1} — два класса, xi , w ∈ Rn .
Функционал аппроксимированного эмпирического риска:
ℓ
Q(w ) = − log σ w т xi yi → min,
i=1 w

где σ(z) = (1 + e −z )−1 — сигмоидная функция.
Логарифмическая функция потерь L (Mi ) = log 1 + e −Mi
3.5

3.0

2.5

2.0

1.5

1.0

0.5

0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi = w т xi yi


Метода Ньютона-Рафсона

Метода Ньютона-Рафсона для минимизации функционала Q(w ):
−1
w t+1 := w t − ht Q ′′ (w t ) Q ′ (w t ),

Элементы градиента — вектора первых производных Q ′ (w t ):

∂Q(w ) ℓ
= − (1 − σi )yi fj (xi ), j = 1, . . . , n.
∂wj i=1

Элементы гессиана — матрицы вторых производных Q ′′ (w t ):

∂ 2 Q(w ) ℓ
= (1 − σi )σi fj (xi )fk (xi ), j, k = 1, . . . , n,
∂wj ∂wk i=1

где σi = σ(yi w т xi ).



Матричные обозначения

Fℓ×n = fj (xi ) — матрица «объекты–признаки»;
Γℓ×ℓ = diag (1 − σi )σi — диагональная матрица;
˜
F = ΓF — взвешенная матрица «объекты–признаки»;
yi = yi (1 − σi )/σi , y = (˜i )ℓ — взвешенный вектор ответов.
˜ ˜ y i=1
Тогда в методе Ньютона-Рафсона:
−1 ˜ ˜ ˜ ˜ ˜ ˜
Q ′′ (w ) Q ′ (w ) = −(F т Γ2 F )−1 F т Γ˜ = −(F т F )−1 F т y = −F + y .
y

Это совпадает с МНК-решением линейной задачи регрессии
со взвешенными объектами и модифицированными ответами:
ℓ
˜ 2 2
Q(w ) = F w −˜
y = (1 − σi )σi w т x−yi (1 − σi )/σi → min .
w
i=1 γi ˜
yi



Интерпретация

На каждом шаге метода Ньютона-Рафсона решается
задача многомерной линейной регрессии:
ℓ
2
Q(w ) = (1 − σi )σi w т x − yi (1 − σi )/σi → min .
w
i=1 γi ˜
yi

Интерпретация:
σi — вероятность правильного ответа на объекте xi ;
чем ближе xi к границе, тем больше вес γi ;
чем выше вероятность ошибки, тем больше yi .
˜
ВЫВОД: на каждой итерации происходит более точная
настройка на «наиболее трудных» объектах.



МНК с итерационным перевзвешиванием объектов
IRLS — Iteratively Reweighted Least Squares

Вход: F , y — матрица «объекты–признаки» и вектор ответов;
Выход: w — вектор коэффициентов линейной комбинации.
1: w := (F т F )−1 F т y — нулевое приближение, обычный МНК;
2: для t := 1, 2, 3, . . .
3: σi = σ(yi w т xi ) для всех i = 1, . . . , ℓ;
4: γi := (1 − σi )σi для всех i = 1, . . . , ℓ;
5: ˜
F := diag(γ1 , . . . , γℓ )F ;
6: yi := yi
˜ (1 − σi )/σi для всех i = 1, . . . , ℓ;
7: выбрать градиентный шаг ht ;
8: ˜ ˜ ˜ ˜
w := w + ht (F т F )−1 F т y ;
9: если {σi } мало изменились то выйти из цикла;



Обобщение линейной модели регрессии

Пусть ϕj : R → R — некоторые нелинейные преобразования
исходных признаков. Модель регрессии:
n
f (x, α) = ϕj (fj (x)).
j=1

В частности, при ϕj (fj (x)) = αj fj (x) это линейная регрессия.
ИДЕЯ: будем по очереди уточнять функции ϕj по обучающей
ℓ
выборке fj (xi ), zi i=1 :
ℓ n 2
ℓ
Q(ϕj , X ) = ϕj (fj (xi )) − yi − ϕk (fk (xi )) → min .
k=1,k=j ϕj
i=1
zi =const(ϕj )



Метод backﬁtting [Хасти, Тибширани, 1986]

Вход: F , y — матрица «объекты–признаки» и вектор ответов;
Выход: ϕj (x) — все функции преобразования признаков.
1: нулевое приближение:
α := решение задачи МЛР с признаками fj (x);
ϕj (x) := αj fj (x), j = 1, . . . , n;
3: для j = 1, . . . , n
n
4: zi := yi − ϕk (fk (xi )), i = 1, . . . , ℓ;
k=1,k=j
ℓ
2
5: ϕj := arg min ϕ(fj (x)) − zi ;
ϕ i=1
ℓ
2
6: Qj := ϕj (fj (x)) − zi ;
i=1
7: пока значения Qj не стабилизируются

Проблема полноты
Метод обратного распространения ошибок
Эвристики

Искусственные нейронные сети

К. В. Воронцов
vokov@forecsys.ru

Этот курс доступен на странице вики-ресурса
http://www.MachineLearning.ru/wiki
«Машинное обучение (курс лекций, К.В.Воронцов)»

6 мая 2010

К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети

Проблема полноты
Метод обратного распространения ошибок
Эвристики

Содержание

1 Проблема полноты
Напоминания: линейные алгоритмы
Проблема «исключающего ИЛИ»
Вычислительные возможности нейронных сетей
2 Метод обратного распространения ошибок
Многослойная нейронная сеть
Быстрое вычисление градиента
Алгоритм BackProp
3 Эвристики
Стандартные эвристики и ускорение сходимости
Диагональный метод Левенберга-Марквардта
Наращивание и прореживание сети


Проблема полноты Напоминания: линейные алгоритмы
Метод обратного распространения ошибок Проблема «исключающего ИЛИ»
Эвристики Вычислительные возможности нейронных сетей

Линейные алгоритмы классификации и регрессии

fj : X → R, j = 1, . . . , n — числовые признаки;
n
w , xi = wj fj (x) − w0 — линейная комбинация признаков;
j=1
w0 , w1 , . . . , wn ∈ R — веса признаков;

Задача классификации: Y = {±1}, a(x, w ) = sign w , xi ;
ℓ
Q(w ; X ℓ ) = L w , xi yi → min;
w
i=1
Mi (w )

Задача регрессии: Y = R, a(x, w ) = w , xi ;
ℓ
2
Q(w ; X ℓ ) = w , xi − yi → min;
w
i=1



Нейронная реализация логических функций

Функции И, ИЛИ, НЕ от бинарных переменных x 1 и x 2 :
x1 ∧ x2 = x1 + x2 − 3
2 >0 ;
1 2 1
x ∨x = x1 + x2 − 2 >0 ;
1 1
¬x = −x 1 + 2 >0 ;

И
1
x 1 vvv
@ABC
GFED
vv
1 vv
v& 0
x 2
GFED 1
@ABC / / (x 1 ∨ x 2 ) 0 1
ИЛИ
8
rrr
1/2 1
rr
r
−1
GFED
@ABC

0
0 1



Логическая функция XOR (исключающее ИЛИ)

Функция x 1 ⊕ x 2 = [x 1 = x 2 ] не реализуема одним нейроном.
Два способа реализации:
Добавлением нелинейного признака:
x 1 ⊕ x 2 = x 1 + x 2 − 2x 1 x 2 − 1 > 0 ;
2
Сетью (суперпозицией) функций И, ИЛИ, НЕ:
x 1 ⊕ x 2 = (x 1 ∨ x 2 ) − (x 1 ∧ x 2 ) − 1 > 0 .
2
1-й способ
@ABC
GFED‚
x 1 W ‚‚ 1
WW 1‚‚‚‚
W (
1W
WW ll6 ‚‚
lllW B +1‚‚
( 0
@ABC 1 WWÕ
GFED
x 1‚ ÕÕÕW
2 / (x 1 ⊕ x 2 ) 0 1
‚‚‚
ÕÕ ‚ ll6 P 2-й способ
ÕÕ ( ll−1
1
1/2
l6
l 1/2
ÕÕl3/2l
Õ
l
@ABC
GFED
−1 @ABC
GFED
−1
0
0 1


Любую ли функцию можно представить нейросетью?

Утверждение
Любая булева функция представима в виде ДНФ,
следовательно, и в виде двухслойной сети.

Решение тринадцатой проблемы Гильберта:
Теорема (Колмогоров, 1957)
Любая непрерывная функция n аргументов на единичном кубе
[0, 1]n представима в виде суперпозиции непрерывных функций
одного аргумента и операции сложения:
2n+1 n
1 2 n
f (x , x , . . . , x ) = hk ϕik (x i ) ,
k=1 i=1

где hk , ϕik — непрерывные функции, и ϕik не зависят от f .




Теорема (Вейерштрасс)
Любую непрерывную функцию n переменных можно
равномерно приблизить полиномом с любой точностью.

Определение
Набор функций F называется разделяющим точки
множества X , если для любых различных x, x ′ ∈ X
существует функция f ∈ F такая, что f (x) = f (x ′ ).

Теорема (Стоун, 1948)
Пусть X — компактное пространство, C (X ) — алгебра
непрерывных на X вещественных функций, F — кольцо
в C (X ), содержащее константу (1 ∈ F ) и разделяющее точки
множества X . Тогда F плотно в C (X ).



Определение
Набор функций F ⊆ C (X ) называется
замкнутым относительно функции ϕ : R → R,
если для любого f ∈ F выполнено ϕ(f ) ∈ F .

Теорема (Горбань, 1998)
Пусть X — компактное пространство, C (X ) — алгебра
непрерывных на X вещественных функций, F — линейное
подпространство в C (X ), замкнутое относительно нелинейной
непрерывной функции ϕ, содержащее константу (1 ∈ F )
и разделяющее точки множества X . Тогда F плотно в C (X ).




Выводы:
С помощью линейных операций и одной нелинейной
функции активации ϕ можно вычислять любую
непрерывную функцию с любой желаемой точностью.
Однако эти теоремы ничего не говорят о числе слоёв
нейронной сети и о числе нейронов в каждом слое.
Практические рекомендации:
Двух-трёх слоёв обычно достаточно.
Можно достраивать нейроны в произвольных местах сети
по необходимости, вообще не заботясь о числе слоёв.


Проблема полноты Многослойная нейронная сеть
Метод обратного распространения ошибок Быстрое вычисление градиента
Эвристики Алгоритм BackProp

Многослойная нейронная сеть

Пусть для общности Y = RM , для простоты слоёв только два.
входной слой, скрытый слой, выходной слой,
n признаков H нейронов M нейронов

@ABC
GFED‚ w11
x 1 i‚ / σ1 ‚‚ w11 / σ1 / a1
l5 i l5
ii 1h ‚‚
w
‚‚‚ ll llly F ii 1m ‚‚
w
‚‚‚ l lll y F
. . . w1Hii lllll yyy . . .
‚ w1Mii llllll yyyy . . .
‚‚‚
wj1
ii ‚‚‚‚
lll i yyyy‚‚‚ ll ii yy‚‚‚‚‚
i y
wh1
?= ll wjh
89:; ‚ iiy ) llw
l iiy )
xj ‚ yyi / σh ‚‚ hm y
yi / σm / am
wjH ‚‚ yy iiillll5 A
y ‚ lli whM ‚‚y yy iiillll5 A
y‚ ‚
. . . wn1 y llll‚ iii . . .
‚‚ yy ‚‚llllliii . . .
‚‚‚
y w y
ywnh lll
y ‚‚‚ i yH1llll ‚‚‚‚‚i i
y
yl
lw ‚‚) yywHm
ll ‚)
89:;
?= nH
xn / σH wHM / σM / aM
: :
w01 w01
w0h w0m
w0H w0M
@ABC
GFED
−1 @ABC
GFED
−1



Напоминание: Алгоритм SG (Stochastic Gradient)

Задача минимизации суммарных потерь:
ℓ
Q(w ) := L (w , xi , yi ) → min .
w
i=1

Вход: выборка X ℓ ; темп обучения η; параметр λ;
Выход: веса w ≡ wjh , whm ∈ RH(n+M+1)+M ;
1: инициализировать веса w и текущую оценку Q(w );
3: выбрать объект xi из X ℓ (например, случайно);
4: вычислить потерю Li := L (w , xi , yi );
5: градиентный шаг: w := w − η∇L (w , xi , yi );
6: оценить значение функционала: Q := (1 − λ)Q + λLi ;
7: пока значение Q и/или веса w не стабилизируются;



Задача дифференцирования суперпозиции функций

Выходные значения сети am (xi ), m = 1..M на объекте xi :

H J
m h h
a (xi ) = σm whm u (xi ) ; u (xi ) = σh wjh fj (xi ) .
h=0 j=0

Пусть для конкретности Li (w ) — средний квадрат ошибки:
M
1 2
Li (w ) = am (xi ) − yim .
2
m=1

Промежуточная задача: найти частные производные

∂Li (w ) ∂Li (w )
; .
∂am ∂u h




Промежуточная задача: частные производные
∂Li (w )
= am (xi ) − yim = εim
∂am
— это ошибка на выходном слое;
M M
∂Li (w ) m
= a (xi ) − yim ′
σm whm = εm σm whm = εh
i
′
i
∂u h
m=1 m=1
— назовём это ошибкой на выходном слое. Похоже, что εh i
вычисляется по εm , если запустить сеть «задом наперёд»:
i
ε1 σ ′
w
jjj i 1
jjjj h1
t
εh o j„„„„ ...
i
whM „ „
„
εM σ M
i
′




Теперь, имея частные производные Li (w ) по am и u h ,
легко выписать градиент Li (w ) по весам w :

∂Li (w ) ∂Li (w ) ∂am
= = εm σm u h (xi ), m = 1..M, h = 0..H;
i
′
∂whm ∂am ∂whm
∂Li (w ) ∂Li (w ) ∂u h
= = εh σh fj (xi ), h = 1..H, j = 0..n;
i
′
∂wjh ∂u h ∂wjh

Алгоритм обратного распространения ошибки BackProp:

Вход: X ℓ = (xi , yi )ℓ ⊂ Rn × RM ; параметры H, λ, η;
i=1
Выход: синаптические веса wjh , whm ;
1: ...



Алгоритм BackProp

1: инициализировать веса wjh , whm ;
3: выбрать объект xi из X ℓ (например, случайно);
4: прямой ход:
J j
uih := σh j=0 wjh xi , h = 1..H;
H
aim := σm h m m m
h=0 whm ui , εi := ai − yi , m = 1..M;
Li := M (εm )2 ;
m=1 i
5: обратный ход:
εh := M εm σm whm , h = 1..H;
i m=1 i
′

6: градиентный шаг:
whm := whm − ηεm σm uih , h = 0..H, m = 1..M;
i
′
h σ ′ x j , j = 0..n, h = 1..H;
wjh := wjh − ηεi h i
7: Q := (1 − λ)Q + λLi ;
8: пока Q не стабилизируется;



Алгоритм BackProp: преимущества и недостатки

Преимущества:
эффективность: градиент вычисляется за время,
сравнимое со временем вычисления самой сети;
метод легко обобщается на любые σ, L ;
возможно динамическое (потоковое) обучение;
на сверхбольших выборках не обязательно брать все xi ;
возможность распараллеливания;

Недостатки — все те же, свойственные SG:
возможна медленная сходимость;
застревание в локальных минимумах;
проблема переобучения;
подбор комплекса эвристик является искусством;


Проблема полноты Стандартные эвристики и ускорение сходимости
Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта
Эвристики Наращивание и прореживание сети

Стандартные эвристики для метода SG

Применимы все те же эвристики, что и в обычном SG:
инициализация весов;
порядок предъявления объектов;
оптимизация величины градиентного шага;
регуляризация (сокращение весов);

Кроме того, появляются новые проблемы:
выбор функций активации в каждом нейроне;
выбор числа слоёв и числа нейронов;
выбор значимых связей;



Ускорение сходимости

1. Более тщательный подбор начального приближения.
Нейроны настраиваются как отдельные линейные алгоритмы
либо по случайной подвыборке X ′ ⊆ X ℓ ;
либо по случайному подмножеству входов;
либо из различных случайных начальных приближений;
тем самым обеспечивается различность нейронов.
2. Выбивание из локальных минимумов (jogging of weights).
3. Адаптивный градиентный шаг (метод скорейшего спуска).
4. Метод сопряжённых градиентов и chunking — разбиение
ℓ
суммы Q(w ) = Li (w ) на блоки (chunks).
i=1



Диагональный метод Левенберга-Марквардта

Метод Ньютона-Рафсона (второго порядка):
w := w − η∇L (w )H(w ),
∂ 2 Q(w ) 2
где H(w ) = ∂wjh ∂wj ′ h′ — гессиан, размера H(n+M+1)+M .
Эвристика. Считаем, что гессиан диагонален:
η
ηjh = ∂ 2 L (w )
i
∂w 2
+ µ,
jh
η — темп обучения,
µ — параметр, предотвращающий обнуление знаменателя.
Шаг η вычисляется индивидуально для каждого веса.
Отношение η/µ есть темп обучения на ровных участках
функционала Li (w ), где вторая производная обнуляется.



Динамическое наращивание сети

1 обучение при заведомо недостаточном числе нейронов H;
2 после стабилизации Q(w ) — добавление нового нейрона
и его инициализация путём обучения
либо по случайной подвыборке X ′ ⊆ X ℓ ;
либо по объектам с наибольшими значениями потерь;
либо по случайному подмножеству входов;
либо из различных случайных начальных приближений;
3 снова итерации BackProp;

Эмпирический опыт: Общее время обучения обычно лишь
в 1.5–2 раза больше, чем если бы в сети сразу было нужное
количество нейронов. Полезная информация, накопленная
сетью, не теряется при добавлении новых нейронов.



Прореживание сети (OBD — Optimal Brain Damage)

Пусть w — локальный минимум Q(w ), тогда
Q(w ) можно аппроксимировать квадратичной формой:
Q(w + δ) = Q(w ) + 1 δ т H(w )δ + o( δ 2 ),
2
∂ 2 Q(w ) 2
где H(w ) = ∂wjh ∂wj ′ h′ — гессиан, размера H(n+M+1)+M .

Эвристика. Пусть гессиан H(w ) диагонален, тогда
n H 2 Q(w ) H M
т 2 ∂ 2 ∂ 2 Q(w )
δ H(w )δ = δjh 2
+ δhm 2
.
∂wjh ∂whm
j=0 h=1 h=0 m=0

Хотим обнулить вес: wjh + δjh = 0. Как изменится Q(w )?
Определение. Значимость (salience) веса wjh — это изменение
2
функционала Q(w ) при его обнулении: Sjh = wjh ∂ ∂w 2 ) .
2 Q(w
jh



Прореживание сети (OBD — Optimal Brain Damage)

∂2Q ∂2Q
1 В BackProp вычислять вторые производные 2 ,
∂wjh ∂whm2 .

2 Если процесс минимизации Q(w ) пришёл в минимум,то
упорядочить все веса по убыванию Sjh ;
удалить N связей с наименьшей значимостью;
снова запустить BackProp.
3 Если Q(w , X ℓ ) или Q(w , X k ) существенно ухудшился,
то вернуть последние удалённые связи и выйти.

Отбор признаков с помощью OBD — аналогично.
H
Суммарная значимость признака: Sj = Sjh .
h=1
Эмпирический опыт: результат постепенного прореживания
обычно лучше, чем BackProp изначально прореженной сети.


К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"

Similar to К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети" (20)

More from Yandex

More from Yandex (20)

К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"