К.В. Воронцов "Регрессивный анализ и метод главных компонент"

Непараметрическая регрессия
Многомерная линейная регрессия
Метод главных компонент
Нелинейная регрессия

Регрессия

К. В. Воронцов
vokov@forecsys.ru
http://www.ccas.ru/voron

14 апреля 2010

К. В. Воронцов (www.ccas.ru/voron) Регрессия


Метод наименьших квадратов

X — объекты (часто Rn ); Y — ответы (часто R, реже Rm );
X ℓ = (xi , yi )i=1 — обучающая выборка;
ℓ

yi = y (xi ), y : X → Y — неизвестная зависимость;
a(x) = f (x, α) — модель зависимости,
α ∈ Rp — вектор параметров модели.
Метод наименьших квадратов (МНК):
ℓ
ℓ 2
Q(α, X ) = wi f (xi , α) − yi → min,
α
i=1

где wi — вес, степень важности i-го объекта.
Q(α∗ , X ℓ ) — остаточная сумма квадратов
(residual sum of squares, RSS).


Метод максимума правдоподобия

Модель данных с некоррелированным гауссовским шумом:

y (xi ) = f (xi , α) + εi , εi ∼ N (0, σi2 ), i = 1, . . . , ℓ.

Метод максимума правдоподобия (ММП):
ℓ
1 1 2
L(ε1 , . . . , εℓ |α) = √ exp − ε → max;
σi 2π 2σi2 i α
i=1
ℓ
1 1 2
− ln L(ε1 , . . . , εℓ |α) = const(α) + f (xi , α) − yi → min;
2 σi2 α
i=1

Теорема
Решения МНК и ММП, совпадают, причём веса объектов
обратно пропорциональны дисперсии шума, wi = σi−2 .


Содержание
1 Непараметрическая регрессия
Формула Надарая–Ватсона
Выбор ядра K и ширины окна h
Отсев выбросов
2 Многомерная линейная регрессия
Решение задачи наименьших квадратов
Сингулярное разложение
Регуляризация (гребневая регрессия)
Лассо Тибширани
3 Метод главных компонент
Постановка задачи
Основная теорема
4 Нелинейная регрессия
Нелинейная модель регрессии
Логистическая регрессия
Нелинейные преобразования признаков




Приближение константой a(x) = α в окрестности x ∈ X :
ℓ
2
Q(α; X ℓ ) = wi (x) α − yi → min;
α∈R
i=1

где wi (x) = K ρ(x,xi ) — веса объектов xi относительно x;
h
K (r ) — ядро, невозрастающее, ограниченное, гладкое;
h — ширина окна сглаживания.

Формула ядерного сглаживания Надарая–Ватсона:
ℓ ℓ
ρ(x,xi )
yi wi (x) yi K h
i=1 i=1
ah (x; X ℓ ) = ℓ
= ℓ
.
ρ(x,xi )
wi (x) K h
i=1 i=1



Обоснование формулы Надарая–Ватсона

Теорема
Пусть выполнены следующие условия:
1) выборка X ℓ = (xi , yi )ℓ простая, из распределения p(x, y );
i=1
∞
2) ядро K (r ) ограничено: 0 K (r ) dr < ∞, lim rK (r ) = 0;
r →∞
3) зависимость E(y |x) не имеет вертикальных асимптот:
E(y 2 |x) = Y y 2 p(y |x) dy < ∞ при любом x ∈ X ;
4) последовательность hℓ убывает, но не слишком быстро:
lim hℓ = 0, lim ℓhℓ = ∞.
ℓ→∞ ℓ→∞
Тогда имеет место сходимость по вероятности:
P
ahℓ (x; X ℓ ) → E(y |x) в любой точке x ∈ X ,
в которой E(y |x), p(x) и D(y |x) непрерывны и p(x) > 0.



Ядро K (r )
— существенно влияет на гладкость функции ah (x),
— слабо влияет на качество аппроксимации.
Ширина окна h
— существенно влияет на качество аппроксимации.
При неравномерной сетке {xi } — переменная ширина окна:

ρ(x, xi )
wi (x) = K ,
h(x)

где h(x) = ρ(x, x (k+1) ), x (k+1) — k-й сосед объекта x.
Оптимизация ширины окна по скользящему контролю:
ℓ
2
LOO(h, X ℓ ) = ah xi ; X ℓ {xi } − yi → min .
h
i=1



Локально взвешенное сглаживание
(LOWESS — LOcally WEighted Scatter plot Smoothing)

Основная идея:
чем больше величина ошибки εi = ah xi ; X ℓ {xi } − yi , тем
в большей степени прецедент (xi , yi ) является выбросом, и тем
меньше должен быть его вес wi (x).

Эвристика:
˜
домножить веса wi (x) на коэффициенты γi = K (εi ),
˜
где K — ещё одно ядро, вообще говоря, отличное от K (r ).

Рекомендация:
˜ ε
квартическое ядро K (ε) = KQ 6 med{εi } ,
где med{εi } — медиана вариационного ряда ошибок.



Алгоритм LOWESS

Вход: X ℓ — обучающая выборка;
Выход: коэффициенты γi , i = 1, . . . , ℓ;
1: инициализация: γi := 1, i = 1, . . . , ℓ;
2: повторять
3: для всех объектов i = 1, . . . , ℓ
4: вычислить оценки скользящего контроля:
ℓ
ρ(xi ,xj )
y j γj K h(xi )
j=1, j=i
ai := ah xi ; X ℓ {xi } = ℓ
;
ρ(xi ,xj )
γj K h(xi )
j=1, j=i
5: для всех объектов i = 1, . . . , ℓ
6: ˜
γi := K |ai − yi | ;
7: пока коэффициенты γi не стабилизируются;


Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани


f1 (x), . . . , fn (x) — числовые признаки;
Модель многомерной линейной регрессии:
n
f (x, α) = αj fj (x), α ∈ Rn .
j=1

Матричные обозначения:
     
f1 (x1 ) . . . fn (x1 ) y1 α1
F =  ... ... ... , y = . . . , α = . . . .
ℓ×n ℓ×1 n×1
f1 (xℓ ) . . . fn (xℓ ) yℓ αn

Функционал квадрата ошибки:
ℓ
2 2
Q(α, X ℓ ) = f (xi , α) − yi = Fα − y → min .
α
i=1



Нормальная система уравнений

Необходимое условие минимума в матричном виде:
∂Q
(α) = 2F т (F α − y ) = 0,
∂α
откуда следует нормальная система задачи МНК:

F тF α = F тy ,

где F т F — ковариационная матрица набора признаков f1 , . . . , fn .
n×n

Решение системы: α∗ = (F т F )−1 F т y = F + y .
Значение функционала: Q(α∗ ) = PF y − y 2 ,
где PF = FF + = F (F т F )−1 F т — проекционная матрица.



Сингулярное разложение

Произвольная ℓ×n-матрица представима в виде
сингулярного разложения (singular value decomposition, SVD):

F = VDU т .

Основные свойства сингулярного разложения:
1 ℓ×n-матрица V = (v1 , . . . , vn ) ортогональна, V т V = In ,
столбцы vj — собственные векторы матрицы FF т ;
2 n×n-матрица U = (u1 , . . . , un ) ортогональна, U т U = In ,
столбцы uj — собственные векторы матрицы F т F ;
√ √
3 n×n-матрица D диагональна, D = diag λ1 , . . . , λn ,
λj 0 — собственные значения матриц F т F и FF т .



Решение МНК через сингулярное разложение

Псевдообратная F + , вектор МНК-решения α∗ ,
МНК-аппроксимация целевого вектора F α∗ :
n
1
F + = (UDV т VDU т )−1 UDV т = UD −1 V т = uj vjт ;
j=1
λj
n
1
α∗ = F + y = UD −1 V т y = uj (vjт y );
j=1
λj
n
F α∗ = PF y = (VDU т )UD −1 V т y = VV т y = vj (vjт y );
j=1
n
1 т 2
α∗ 2
= D −1 V т y 2
= (v y ) .
λj j
j=1



Проблема мультиколлинеарности

Если имеются λj → 0, то
МНК-решение α∗ неустойчиво и неинтерпретируемо:
α → ∞;
ответы на новых объектах y ′ = F ′ α∗ неустойчивы;
в то время как на обучении, казалось бы, «всё хорошо»:
Q(α∗ ) = F α∗ − y 2 → 0;
мультиколлинеарность влечёт переобучение.

Три стратегии устранения мультиколлинеарности:
Регуляризация: α → min;
Преобразование признаков: f1 , . . . , fn → g1 , . . . , gm , m ≪ n;
Отбор признаков: f1 , . . . , fn → fj1 , . . . , fjm , m ≪ n.



Штраф за увеличение нормы вектора весов α :
2
Qτ (α) = F α − y + 1
2σ α 2,
1
где τ = σ — неотрицательный параметр регуляризации.
Вероятностная интерпретация: априорное распределение
вектора α — гауссовское с ковариационной матрицей σIn .

Модифицированное МНК-решение (τ In — «гребень»):

ατ = (F т F + τ In )−1 F т y .
∗

Преимущество сингулярного разложения:
можно подбирать параметр τ , вычислив SVD только один раз.



Регуляризованный МНК через сингулярное разложение

Вектор регуляризованного МНК-решения ατ∗
∗
и МНК-аппроксимация целевого вектора F ατ :
n
λj
ατ = U(D 2 + τ In )−1 DV т y =
∗
uj (vjт y );
λj + τ
j=1
n
∗ ∗ λj λj
F ατ = VDU т ατ = V diag V тy = vj (vjт y );
λj + τ λj + τ
j=1
n
∗ 2 1
ατ = D 2 (D 2 + τ In )−1 D −1 V т y 2
= (v т y )2 .
λj + τ j
j=1

F ατ = F α∗ , но зато решение становится гораздо устойчивее.
∗



Выбор параметра регуляризации τ

Контрольная выборка: X k = (xi′ , yi′ )k ;
i=1
 ′ ′
  ′

f1 (x1 ) . . . fn (x1 ) y1
F′ =  ... ... ... , y ′ = . . . .
k×n ′ ) . . . f (x ′ ) k×1 ′
f1 (xk n k yk

Вычисление функционала Q на контрольных данных T раз
потребует O(kn2 + knT ) операций:
√ 2
λj
Q(ατ , X k ) = F ′ ατ − y ′
∗ ∗ 2
= F ′ U diag λj +τ V т y −y ′ .
k×n n×1

Зависимость Q(τ ) обычно имеет характерный минимум.



Регуляризация сокращает «эффективную размерность»

Сжатие (shrinkage) или сокращение весов (weight decay):
n n
1 1 т 2
ατ 2
∗
= (v т y )2 < α ∗ 2
= (v y ) .
λj + τ j λj j
j=1 j=1

Почему говорят о сокращении эффективной размерности?
Роль размерности играет след проекционной матрицы:

tr F (F т F )−1 F т = tr(F т F )−1 F т F = tr In = n.

При использовании регуляризации:
n
т −1 т λj λj
tr F (F F + τ In ) F = tr diag = < n.
λj + τ λj + τ
j=1



Лассо Тибширани — другой подход к регуляризации
LASSO — Least Absolute Shrinkage and Selection Operator

 2
 Q(α) = F α − y

→ min;
α
n

 |αj | κ;
j=1

Лассо приводит к отбору признаков! Почему?
После замены переменных
+ −
αj = αj − αj ; + −
+ −
αj 0; αj 0.
|αj | = αj + αj ;
ограничения принимают канонический вид:
n
+ − + −
αj + αj κ; αj 0; αj 0.
j=1
+ −
Чем меньше κ, тем больше j таких, что αj = αj = 0.


Сравнение гребневой регрессии и Лассо

Зависимость {αj } от σ Зависимость {αj } от κ

Задача диагностики рака (prostate cancer, UCI)
T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning.
Springer, 2001.



Метод главных компонент: постановка задачи

f1 (x), . . . , fn (x) — исходные числовые признаки;
g1 (x), . . . , gm (x) — новые числовые признаки, m n;

Требование: старые признаки должны линейно
восстанавливаться по новым:
m
ˆ
fj (x) = gs (x)ujs , j = 1, . . . , n, ∀x ∈ X ,
s=1

как можно точнее на обучающей выборке x1 , . . . , xℓ :
ℓ n
ˆ 2
fj (xi ) − fj (xi ) → min
{gs (xi )},{ujs }
i=1 j=1



Матричные обозначения

Матрицы «объекты–признаки», старая и новая:
   
f1 (x1 ) . . . fn (x1 ) g1 (x1 ) . . . gm (x1 )
F =  ... ... ... ; G =  ... ... ... .
ℓ×n ℓ×m
f1 (xℓ ) . . . fn (xℓ ) g1 (xℓ ) . . . gm (xℓ )
Матрица линейного преобразования новых признаков в старые:
 
u11 . . . u1m
хотим
U = . . . . . . . . .  ; ˆ
F = GU т ≈ F .
n×m
un1 . . . unm
Найти: и новые признаки G , и преобразование U:
ℓ n
ˆ 2 2
fj (xi ) − fj (xi ) = GU т − F → min,
G ,U
i=1 j=1



Основная теорема метода главных компонент

Теорема
2
Если m rk F , то минимум GU т − F достигается, когда
столбцы U — это с.в. матрицы F т F , соответствующие
m максимальным с.з. λ1 , . . . , λm , а матрица G = FU.
При этом:
1 матрица U ортонормирована: U т U = Im ;
2 матрица G ортогональна: G т G = Λ = diag(λ1 , . . . , λm );
3 UΛ = F т FU; G Λ = FF т G ;
n
2 2
4 GU т − F = F − tr Λ = λj .
j=m+1



Связь с сингулярным разложением

Если взять m = n, то:
2
1 GU т − F = 0;
2 ˆ
представление F = GU т = F точное и совпадает
√
с сингулярным разложением при G = V Λ:
√
F = GU т = V ΛU т ; U т U = Im ; V т V = Im .
3 линейное преобразование U работает в обе стороны:
F = GU т ; G = FU.
Поскольку новые признаки некоррелированы (G т G = Λ),
преобразование U называется декоррелирующим
(или преобразованием Карунена–Лоэва).



Эффективная размерность выборки

Упорядочим с.з. F т F по убыванию: λ1 ... λn 0.
Эффективная размерность выборки — это
наименьшее целое m, при котором
GU т − F 2 λm+1 + · · · + λn
Em = = ε.
F 2 λ1 + · · · + λn

Критерий «крутого склона»: находим m: Em−1 ≫ Em :
0.4
0.3
0.2
0.1
0
-0.1 m-1 m m+1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 λ


Решение задачи НК в новых признаках

Заменим F на её приближение GU т :
2 2
G U т α −y = Gβ − y → min .
β
β

Связь нового и старого вектора коэффициентов:
α = Uβ; β = U т α.
Решение задачи наименьших квадратов относительно β
(единственное отличие — m слагаемых вместо n):
m
1
β ∗ = D −1 V т y = uj (vjт y );
j=1
λj
m
G β ∗ = VV т y = vj (vjт y );
j=1




Нелинейная модель регрессии f (x, α), α ∈ Rp .
Функционал среднеквадратичного отклонения:
ℓ
ℓ 2
Q(α, X ) = f (xi , α) − yi → min .
α
i=1

Метод Ньютона–Рафсона.
1. Начальное приближение α0 = (α1 , . . . , αp ).
0 0

2. Итерационный процесс
−1
αt+1 := αt − ηt Q ′′ (αt ) Q ′ (αt ),
Q ′ (αt ) — градиент функционала Q в точке αt ,
Q ′′ (αt ) — гессиан функционала Q в точке αt ,
ηt — величина шага (можно полагать ηt = 1).



Метод Ньютона-Рафсона

Компоненты градиента:
ℓ
∂Q(α) ∂f (xi , α)
=2 f (xi , α) − yi .
∂αj ∂αj
i=1
Компоненты гессиана:
ℓ ℓ
∂ 2 Q(α) ∂f (xi , α) ∂f (xi , α) ∂ 2 f (xi , α)
=2 −2 f (xi , α) − yi .
∂αj ∂αk ∂αj ∂αk ∂αj ∂αk
i=1 i=1
при линеаризации полагается = 0

Не хотелось бы обращать гессиан на каждой итерации...
Линеаризация f (xi , α) в окрестности текущего αt :
p
∂f (xi , αj )
f (xi , α) = f (xi , αt ) + t
αj − αj .
∂αj
j=1



Метод Ньютона-Гаусса

Матричные обозначения:
∂f j=1,p
Ft = ∂αj (xi , αt ) i=1,ℓ — ℓ×p-матрица первых производных;
ft = f (xi , αt ) i=1,ℓ
— вектор значений f .
Формула t-й итерации метода Ньютона–Гаусса:
αt+1 := αt − ht (Ftт Ft )−1 Ftт (f t − y ) .
β

β — это решение задачи многомерной линейной регрессии
2
Ft β − (f t − y ) → min .
β

Нелинейная регрессия сведена к серии линейных регрессий.
Скорость сходимости — как и у метода Ньютона–Рафсона,
но для вычислений можно применять стандартные методы.


Логистическая регрессия (напоминание)

Y = {−1, +1} — два класса, xi , w ∈ Rn .
Функционал аппроксимированного эмпирического риска:
ℓ
Q(w ) = − log σ w т xi yi → min,
i=1 w

где σ(z) = (1 + e −z )−1 — сигмоидная функция.
Логарифмическая функция потерь L (Mi ) = log 1 + e −Mi
3.5

3.0

2.5

2.0

1.5

1.0

0.5

0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi = w т xi yi


Метода Ньютона-Рафсона

Метода Ньютона-Рафсона для минимизации функционала Q(w ):
−1
w t+1 := w t − ht Q ′′ (w t ) Q ′ (w t ),

Элементы градиента — вектора первых производных Q ′ (w t ):

∂Q(w ) ℓ
= − (1 − σi )yi fj (xi ), j = 1, . . . , n.
∂wj i=1

Элементы гессиана — матрицы вторых производных Q ′′ (w t ):

∂ 2 Q(w ) ℓ
= (1 − σi )σi fj (xi )fk (xi ), j, k = 1, . . . , n,
∂wj ∂wk i=1

где σi = σ(yi w т xi ).



Матричные обозначения

Fℓ×n = fj (xi ) — матрица «объекты–признаки»;
Γℓ×ℓ = diag (1 − σi )σi — диагональная матрица;
˜
F = ΓF — взвешенная матрица «объекты–признаки»;
yi = yi (1 − σi )/σi , y = (˜i )ℓ — взвешенный вектор ответов.
˜ ˜ y i=1
Тогда в методе Ньютона-Рафсона:
−1 ˜ ˜ ˜ ˜ ˜ ˜
Q ′′ (w ) Q ′ (w ) = −(F т Γ2 F )−1 F т Γ˜ = −(F т F )−1 F т y = −F + y .
y

Это совпадает с МНК-решением линейной задачи регрессии
со взвешенными объектами и модифицированными ответами:
ℓ
˜ 2 2
Q(w ) = F w −˜
y = (1 − σi )σi w т x−yi (1 − σi )/σi → min .
w
i=1 γi ˜
yi



Интерпретация

На каждом шаге метода Ньютона-Рафсона решается
задача многомерной линейной регрессии:
ℓ
2
Q(w ) = (1 − σi )σi w т x − yi (1 − σi )/σi → min .
w
i=1 γi ˜
yi

Интерпретация:
σi — вероятность правильного ответа на объекте xi ;
чем ближе xi к границе, тем больше вес γi ;
чем выше вероятность ошибки, тем больше yi .
˜
ВЫВОД: на каждой итерации происходит более точная
настройка на «наиболее трудных» объектах.



МНК с итерационным перевзвешиванием объектов
IRLS — Iteratively Reweighted Least Squares

Вход: F , y — матрица «объекты–признаки» и вектор ответов;
Выход: w — вектор коэффициентов линейной комбинации.
1: w := (F т F )−1 F т y — нулевое приближение, обычный МНК;
2: для t := 1, 2, 3, . . .
3: σi = σ(yi w т xi ) для всех i = 1, . . . , ℓ;
4: γi := (1 − σi )σi для всех i = 1, . . . , ℓ;
5: ˜
F := diag(γ1 , . . . , γℓ )F ;
6: yi := yi
˜ (1 − σi )/σi для всех i = 1, . . . , ℓ;
7: выбрать градиентный шаг ht ;
8: ˜ ˜ ˜ ˜
w := w + ht (F т F )−1 F т y ;
9: если {σi } мало изменились то выйти из цикла;



Обобщение линейной модели регрессии

Пусть ϕj : R → R — некоторые нелинейные преобразования
исходных признаков. Модель регрессии:
n
f (x, α) = ϕj (fj (x)).
j=1

В частности, при ϕj (fj (x)) = αj fj (x) это линейная регрессия.
ИДЕЯ: будем по очереди уточнять функции ϕj по обучающей
ℓ
выборке fj (xi ), zi i=1 :
ℓ n 2
ℓ
Q(ϕj , X ) = ϕj (fj (xi )) − yi − ϕk (fk (xi )) → min .
k=1,k=j ϕj
i=1
zi =const(ϕj )



Метод backﬁtting [Хасти, Тибширани, 1986]

Вход: F , y — матрица «объекты–признаки» и вектор ответов;
Выход: ϕj (x) — все функции преобразования признаков.
1: нулевое приближение:
α := решение задачи МЛР с признаками fj (x);
ϕj (x) := αj fj (x), j = 1, . . . , n;
2: повторять
3: для j = 1, . . . , n
n
4: zi := yi − ϕk (fk (xi )), i = 1, . . . , ℓ;
k=1,k=j
ℓ
2
5: ϕj := arg min ϕ(fj (x)) − zi ;
ϕ i=1
ℓ
2
6: Qj := ϕj (fj (x)) − zi ;
i=1
7: пока значения Qj не стабилизируются

К.В. Воронцов "Регрессивный анализ и метод главных компонент"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to К.В. Воронцов "Регрессивный анализ и метод главных компонент"

Similar to К.В. Воронцов "Регрессивный анализ и метод главных компонент" (20)

More from Yandex

More from Yandex (20)

К.В. Воронцов "Регрессивный анализ и метод главных компонент"