Непараметрическая регрессия Многомерная линейная регрессия       Метод главных компонент          Нелинейная регрессия    ...
Непараметрическая регрессия         Многомерная линейная регрессия               Метод главных компонент                  ...
Непараметрическая регрессия            Многомерная линейная регрессия                  Метод главных компонент            ...
Непараметрическая регрессия            Многомерная линейная регрессия                  Метод главных компонент            ...
Непараметрическая регрессия                                                    Формула Надарая–Ватсона          Многомерна...
Непараметрическая регрессия                                              Формула Надарая–Ватсона          Многомерная лине...
Непараметрическая регрессия                                       Формула Надарая–Ватсона   Многомерная линейная регрессия...
Непараметрическая регрессия                                                Формула Надарая–Ватсона            Многомерная ...
Непараметрическая регрессия                                                Формула Надарая–Ватсона          Многомерная ли...
Непараметрическая регрессия       Решение задачи наименьших квадратов           Многомерная линейная регрессия       Сингу...
Непараметрическая регрессия    Решение задачи наименьших квадратов            Многомерная линейная регрессия    Сингулярно...
Непараметрическая регрессия      Решение задачи наименьших квадратов            Многомерная линейная регрессия      Сингул...
Непараметрическая регрессия        Решение задачи наименьших квадратов           Многомерная линейная регрессия        Син...
Непараметрическая регрессия      Решение задачи наименьших квадратов          Многомерная линейная регрессия      Сингуляр...
Непараметрическая регрессия   Решение задачи наименьших квадратов          Многомерная линейная регрессия   Сингулярное ра...
Непараметрическая регрессия      Решение задачи наименьших квадратов              Многомерная линейная регрессия      Синг...
Непараметрическая регрессия       Решение задачи наименьших квадратов           Многомерная линейная регрессия       Сингу...
Непараметрическая регрессия     Решение задачи наименьших квадратов           Многомерная линейная регрессия     Сингулярн...
Непараметрическая регрессия            Решение задачи наименьших квадратов            Многомерная линейная регрессия      ...
Непараметрическая регрессия        Решение задачи наименьших квадратов            Многомерная линейная регрессия        Си...
Непараметрическая регрессия                                                 Постановка задачи          Многомерная линейна...
Непараметрическая регрессия                                                   Постановка задачи          Многомерная линей...
Непараметрическая регрессия                                                  Постановка задачи            Многомерная лине...
Непараметрическая регрессия                                               Постановка задачи           Многомерная линейная...
Непараметрическая регрессия                                                         Постановка задачи               Многом...
Непараметрическая регрессия                                                   Постановка задачи         Многомерная линейн...
Непараметрическая регрессия                                               Нелинейная модель регрессии          Многомерная...
Непараметрическая регрессия                                                  Нелинейная модель регрессии          Многомер...
Непараметрическая регрессия                                                Нелинейная модель регрессии            Многомер...
Непараметрическая регрессия                                                                           Нелинейная модель ре...
Непараметрическая регрессия                                               Нелинейная модель регрессии            Многомерн...
Непараметрическая регрессия                                                  Нелинейная модель регрессии               Мно...
Непараметрическая регрессия                                             Нелинейная модель регрессии         Многомерная ли...
Непараметрическая регрессия                                                 Нелинейная модель регрессии             Многом...
Непараметрическая регрессия                                                    Нелинейная модель регрессии          Многом...
Непараметрическая регрессия                                                    Нелинейная модель регрессии            Мног...
Upcoming SlideShare
Loading in …5
×

К.В. Воронцов "Регрессивный анализ и метод главных компонент"

6,630 views

Published on

К.В. Воронцов "Регрессивный анализ и метод главных компонент", 03.04.2012,
место показа МФТИ, Школа анализа данных (ШАД)

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
6,630
On SlideShare
0
From Embeds
0
Number of Embeds
1,500
Actions
Shares
0
Downloads
219
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

К.В. Воронцов "Регрессивный анализ и метод главных компонент"

  1. 1. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессия Регрессия К. В. Воронцов vokov@forecsys.ru http://www.ccas.ru/voron 14 апреля 2010К. В. Воронцов (www.ccas.ru/voron) Регрессия
  2. 2. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессияМетод наименьших квадратов X — объекты (часто Rn ); Y — ответы (часто R, реже Rm ); X ℓ = (xi , yi )i=1 — обучающая выборка; ℓ yi = y (xi ), y : X → Y — неизвестная зависимость; a(x) = f (x, α) — модель зависимости, α ∈ Rp — вектор параметров модели. Метод наименьших квадратов (МНК): ℓ ℓ 2 Q(α, X ) = wi f (xi , α) − yi → min, α i=1 где wi — вес, степень важности i-го объекта. Q(α∗ , X ℓ ) — остаточная сумма квадратов (residual sum of squares, RSS). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  3. 3. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессияМетод максимума правдоподобия Модель данных с некоррелированным гауссовским шумом: y (xi ) = f (xi , α) + εi , εi ∼ N (0, σi2 ), i = 1, . . . , ℓ. Метод максимума правдоподобия (ММП): ℓ 1 1 2 L(ε1 , . . . , εℓ |α) = √ exp − ε → max; σi 2π 2σi2 i α i=1 ℓ 1 1 2 − ln L(ε1 , . . . , εℓ |α) = const(α) + f (xi , α) − yi → min; 2 σi2 α i=1 Теорема Решения МНК и ММП, совпадают, причём веса объектов обратно пропорциональны дисперсии шума, wi = σi−2 . К. В. Воронцов (www.ccas.ru/voron) Регрессия
  4. 4. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессияСодержание 1 Непараметрическая регрессия Формула Надарая–Ватсона Выбор ядра K и ширины окна h Отсев выбросов 2 Многомерная линейная регрессия Решение задачи наименьших квадратов Сингулярное разложение Регуляризация (гребневая регрессия) Лассо Тибширани 3 Метод главных компонент Постановка задачи Основная теорема Решение задачи наименьших квадратов 4 Нелинейная регрессия Нелинейная модель регрессии Логистическая регрессия Нелинейные преобразования признаков К. В. Воронцов (www.ccas.ru/voron) Регрессия
  5. 5. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессияФормула Надарая–Ватсона Приближение константой a(x) = α в окрестности x ∈ X : ℓ 2 Q(α; X ℓ ) = wi (x) α − yi → min; α∈R i=1 где wi (x) = K ρ(x,xi ) — веса объектов xi относительно x; h K (r ) — ядро, невозрастающее, ограниченное, гладкое; h — ширина окна сглаживания. Формула ядерного сглаживания Надарая–Ватсона: ℓ ℓ ρ(x,xi ) yi wi (x) yi K h i=1 i=1 ah (x; X ℓ ) = ℓ = ℓ . ρ(x,xi ) wi (x) K h i=1 i=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  6. 6. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессияОбоснование формулы Надарая–Ватсона Теорема Пусть выполнены следующие условия: 1) выборка X ℓ = (xi , yi )ℓ простая, из распределения p(x, y ); i=1 ∞ 2) ядро K (r ) ограничено: 0 K (r ) dr < ∞, lim rK (r ) = 0; r →∞ 3) зависимость E(y |x) не имеет вертикальных асимптот: E(y 2 |x) = Y y 2 p(y |x) dy < ∞ при любом x ∈ X ; 4) последовательность hℓ убывает, но не слишком быстро: lim hℓ = 0, lim ℓhℓ = ∞. ℓ→∞ ℓ→∞ Тогда имеет место сходимость по вероятности: P ahℓ (x; X ℓ ) → E(y |x) в любой точке x ∈ X , в которой E(y |x), p(x) и D(y |x) непрерывны и p(x) > 0. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  7. 7. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессияЯдро K (r )— существенно влияет на гладкость функции ah (x),— слабо влияет на качество аппроксимации.Ширина окна h— существенно влияет на качество аппроксимации.При неравномерной сетке {xi } — переменная ширина окна: ρ(x, xi ) wi (x) = K , h(x)где h(x) = ρ(x, x (k+1) ), x (k+1) — k-й сосед объекта x.Оптимизация ширины окна по скользящему контролю: ℓ 2 LOO(h, X ℓ ) = ah xi ; X ℓ {xi } − yi → min . h i=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  8. 8. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессияЛокально взвешенное сглаживание(LOWESS — LOcally WEighted Scatter plot Smoothing) Основная идея: чем больше величина ошибки εi = ah xi ; X ℓ {xi } − yi , тем в большей степени прецедент (xi , yi ) является выбросом, и тем меньше должен быть его вес wi (x). Эвристика: ˜ домножить веса wi (x) на коэффициенты γi = K (εi ), ˜ где K — ещё одно ядро, вообще говоря, отличное от K (r ). Рекомендация: ˜ ε квартическое ядро K (ε) = KQ 6 med{εi } , где med{εi } — медиана вариационного ряда ошибок. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  9. 9. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессияАлгоритм LOWESS Вход: X ℓ — обучающая выборка; Выход: коэффициенты γi , i = 1, . . . , ℓ; 1: инициализация: γi := 1, i = 1, . . . , ℓ; 2: повторять 3: для всех объектов i = 1, . . . , ℓ 4: вычислить оценки скользящего контроля: ℓ ρ(xi ,xj ) y j γj K h(xi ) j=1, j=i ai := ah xi ; X ℓ {xi } = ℓ ; ρ(xi ,xj ) γj K h(xi ) j=1, j=i 5: для всех объектов i = 1, . . . , ℓ 6: ˜ γi := K |ai − yi | ; 7: пока коэффициенты γi не стабилизируются; К. В. Воронцов (www.ccas.ru/voron) Регрессия
  10. 10. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниМногомерная линейная регрессия f1 (x), . . . , fn (x) — числовые признаки; Модель многомерной линейной регрессии: n f (x, α) = αj fj (x), α ∈ Rn . j=1 Матричные обозначения:       f1 (x1 ) . . . fn (x1 ) y1 α1 F =  ... ... ... , y = . . . , α = . . . . ℓ×n ℓ×1 n×1 f1 (xℓ ) . . . fn (xℓ ) yℓ αn Функционал квадрата ошибки: ℓ 2 2 Q(α, X ℓ ) = f (xi , α) − yi = Fα − y → min . α i=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  11. 11. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниНормальная система уравнений Необходимое условие минимума в матричном виде: ∂Q (α) = 2F т (F α − y ) = 0, ∂α откуда следует нормальная система задачи МНК: F тF α = F тy , где F т F — ковариационная матрица набора признаков f1 , . . . , fn . n×n Решение системы: α∗ = (F т F )−1 F т y = F + y . Значение функционала: Q(α∗ ) = PF y − y 2 , где PF = FF + = F (F т F )−1 F т — проекционная матрица. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  12. 12. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниСингулярное разложение Произвольная ℓ×n-матрица представима в виде сингулярного разложения (singular value decomposition, SVD): F = VDU т . Основные свойства сингулярного разложения: 1 ℓ×n-матрица V = (v1 , . . . , vn ) ортогональна, V т V = In , столбцы vj — собственные векторы матрицы FF т ; 2 n×n-матрица U = (u1 , . . . , un ) ортогональна, U т U = In , столбцы uj — собственные векторы матрицы F т F ; √ √ 3 n×n-матрица D диагональна, D = diag λ1 , . . . , λn , λj 0 — собственные значения матриц F т F и FF т . К. В. Воронцов (www.ccas.ru/voron) Регрессия
  13. 13. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниРешение МНК через сингулярное разложение Псевдообратная F + , вектор МНК-решения α∗ , МНК-аппроксимация целевого вектора F α∗ : n 1 F + = (UDV т VDU т )−1 UDV т = UD −1 V т = uj vjт ; j=1 λj n 1 α∗ = F + y = UD −1 V т y = uj (vjт y ); j=1 λj n F α∗ = PF y = (VDU т )UD −1 V т y = VV т y = vj (vjт y ); j=1 n 1 т 2 α∗ 2 = D −1 V т y 2 = (v y ) . λj j j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  14. 14. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниПроблема мультиколлинеарности Если имеются λj → 0, то МНК-решение α∗ неустойчиво и неинтерпретируемо: α → ∞; ответы на новых объектах y ′ = F ′ α∗ неустойчивы; в то время как на обучении, казалось бы, «всё хорошо»: Q(α∗ ) = F α∗ − y 2 → 0; мультиколлинеарность влечёт переобучение. Три стратегии устранения мультиколлинеарности: Регуляризация: α → min; Преобразование признаков: f1 , . . . , fn → g1 , . . . , gm , m ≪ n; Отбор признаков: f1 , . . . , fn → fj1 , . . . , fjm , m ≪ n. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  15. 15. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниШтраф за увеличение нормы вектора весов α : 2 Qτ (α) = F α − y + 1 2σ α 2, 1где τ = σ — неотрицательный параметр регуляризации.Вероятностная интерпретация: априорное распределениевектора α — гауссовское с ковариационной матрицей σIn .Модифицированное МНК-решение (τ In — «гребень»): ατ = (F т F + τ In )−1 F т y . ∗Преимущество сингулярного разложения:можно подбирать параметр τ , вычислив SVD только один раз. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  16. 16. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниРегуляризованный МНК через сингулярное разложение Вектор регуляризованного МНК-решения ατ∗ ∗ и МНК-аппроксимация целевого вектора F ατ : n λj ατ = U(D 2 + τ In )−1 DV т y = ∗ uj (vjт y ); λj + τ j=1 n ∗ ∗ λj λj F ατ = VDU т ατ = V diag V тy = vj (vjт y ); λj + τ λj + τ j=1 n ∗ 2 1 ατ = D 2 (D 2 + τ In )−1 D −1 V т y 2 = (v т y )2 . λj + τ j j=1 F ατ = F α∗ , но зато решение становится гораздо устойчивее. ∗ К. В. Воронцов (www.ccas.ru/voron) Регрессия
  17. 17. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниВыбор параметра регуляризации τ Контрольная выборка: X k = (xi′ , yi′ )k ; i=1  ′ ′   ′  f1 (x1 ) . . . fn (x1 ) y1 F′ =  ... ... ... , y ′ = . . . . k×n ′ ) . . . f (x ′ ) k×1 ′ f1 (xk n k yk Вычисление функционала Q на контрольных данных T раз потребует O(kn2 + knT ) операций: √ 2 λj Q(ατ , X k ) = F ′ ατ − y ′ ∗ ∗ 2 = F ′ U diag λj +τ V т y −y ′ . k×n n×1 Зависимость Q(τ ) обычно имеет характерный минимум. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  18. 18. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниРегуляризация сокращает «эффективную размерность» Сжатие (shrinkage) или сокращение весов (weight decay): n n 1 1 т 2 ατ 2 ∗ = (v т y )2 < α ∗ 2 = (v y ) . λj + τ j λj j j=1 j=1 Почему говорят о сокращении эффективной размерности? Роль размерности играет след проекционной матрицы: tr F (F т F )−1 F т = tr(F т F )−1 F т F = tr In = n. При использовании регуляризации: n т −1 т λj λj tr F (F F + τ In ) F = tr diag = < n. λj + τ λj + τ j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  19. 19. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниЛассо Тибширани — другой подход к регуляризацииLASSO — Least Absolute Shrinkage and Selection Operator  2  Q(α) = F α − y  → min; α n   |αj | κ; j=1 Лассо приводит к отбору признаков! Почему? После замены переменных + − αj = αj − αj ; + − + − αj 0; αj 0. |αj | = αj + αj ; ограничения принимают канонический вид: n + − + − αj + αj κ; αj 0; αj 0. j=1 + − Чем меньше κ, тем больше j таких, что αj = αj = 0. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  20. 20. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо ТибшираниСравнение гребневой регрессии и Лассо Зависимость {αj } от σ Зависимость {αj } от κ Задача диагностики рака (prostate cancer, UCI) T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning. Springer, 2001. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  21. 21. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессияМетод главных компонент: постановка задачи f1 (x), . . . , fn (x) — исходные числовые признаки; g1 (x), . . . , gm (x) — новые числовые признаки, m n; Требование: старые признаки должны линейно восстанавливаться по новым: m ˆ fj (x) = gs (x)ujs , j = 1, . . . , n, ∀x ∈ X , s=1 как можно точнее на обучающей выборке x1 , . . . , xℓ : ℓ n ˆ 2 fj (xi ) − fj (xi ) → min {gs (xi )},{ujs } i=1 j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  22. 22. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессияМатричные обозначения Матрицы «объекты–признаки», старая и новая:     f1 (x1 ) . . . fn (x1 ) g1 (x1 ) . . . gm (x1 ) F =  ... ... ... ; G =  ... ... ... . ℓ×n ℓ×m f1 (xℓ ) . . . fn (xℓ ) g1 (xℓ ) . . . gm (xℓ ) Матрица линейного преобразования новых признаков в старые:   u11 . . . u1m хотим U = . . . . . . . . .  ; ˆ F = GU т ≈ F . n×m un1 . . . unm Найти: и новые признаки G , и преобразование U: ℓ n ˆ 2 2 fj (xi ) − fj (xi ) = GU т − F → min, G ,U i=1 j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  23. 23. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессияОсновная теорема метода главных компонент Теорема 2 Если m rk F , то минимум GU т − F достигается, когда столбцы U — это с.в. матрицы F т F , соответствующие m максимальным с.з. λ1 , . . . , λm , а матрица G = FU. При этом: 1 матрица U ортонормирована: U т U = Im ; 2 матрица G ортогональна: G т G = Λ = diag(λ1 , . . . , λm ); 3 UΛ = F т FU; G Λ = FF т G ; n 2 2 4 GU т − F = F − tr Λ = λj . j=m+1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  24. 24. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессияСвязь с сингулярным разложением Если взять m = n, то: 2 1 GU т − F = 0; 2 ˆ представление F = GU т = F точное и совпадает √ с сингулярным разложением при G = V Λ: √ F = GU т = V ΛU т ; U т U = Im ; V т V = Im . 3 линейное преобразование U работает в обе стороны: F = GU т ; G = FU. Поскольку новые признаки некоррелированы (G т G = Λ), преобразование U называется декоррелирующим (или преобразованием Карунена–Лоэва). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  25. 25. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессияЭффективная размерность выборки Упорядочим с.з. F т F по убыванию: λ1 ... λn 0. Эффективная размерность выборки — это наименьшее целое m, при котором GU т − F 2 λm+1 + · · · + λn Em = = ε. F 2 λ1 + · · · + λn Критерий «крутого склона»: находим m: Em−1 ≫ Em : 0.4 0.3 0.2 0.1 0 -0.1 m-1 m m+1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 λ К. В. Воронцов (www.ccas.ru/voron) Регрессия
  26. 26. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессияРешение задачи НК в новых признаках Заменим F на её приближение GU т : 2 2 G U т α −y = Gβ − y → min . β β Связь нового и старого вектора коэффициентов: α = Uβ; β = U т α. Решение задачи наименьших квадратов относительно β (единственное отличие — m слагаемых вместо n): m 1 β ∗ = D −1 V т y = uj (vjт y ); j=1 λj m G β ∗ = VV т y = vj (vjт y ); j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  27. 27. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияНелинейная модель регрессии Нелинейная модель регрессии f (x, α), α ∈ Rp . Функционал среднеквадратичного отклонения: ℓ ℓ 2 Q(α, X ) = f (xi , α) − yi → min . α i=1 Метод Ньютона–Рафсона. 1. Начальное приближение α0 = (α1 , . . . , αp ). 0 0 2. Итерационный процесс −1 αt+1 := αt − ηt Q ′′ (αt ) Q ′ (αt ), Q ′ (αt ) — градиент функционала Q в точке αt , Q ′′ (αt ) — гессиан функционала Q в точке αt , ηt — величина шага (можно полагать ηt = 1). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  28. 28. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияМетод Ньютона-Рафсона Компоненты градиента: ℓ ∂Q(α) ∂f (xi , α) =2 f (xi , α) − yi . ∂αj ∂αj i=1 Компоненты гессиана: ℓ ℓ ∂ 2 Q(α) ∂f (xi , α) ∂f (xi , α) ∂ 2 f (xi , α) =2 −2 f (xi , α) − yi . ∂αj ∂αk ∂αj ∂αk ∂αj ∂αk i=1 i=1 при линеаризации полагается = 0 Не хотелось бы обращать гессиан на каждой итерации... Линеаризация f (xi , α) в окрестности текущего αt : p ∂f (xi , αj ) f (xi , α) = f (xi , αt ) + t αj − αj . ∂αj j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  29. 29. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияМетод Ньютона-Гаусса Матричные обозначения: ∂f j=1,p Ft = ∂αj (xi , αt ) i=1,ℓ — ℓ×p-матрица первых производных; ft = f (xi , αt ) i=1,ℓ — вектор значений f . Формула t-й итерации метода Ньютона–Гаусса: αt+1 := αt − ht (Ftт Ft )−1 Ftт (f t − y ) . β β — это решение задачи многомерной линейной регрессии 2 Ft β − (f t − y ) → min . β Нелинейная регрессия сведена к серии линейных регрессий. Скорость сходимости — как и у метода Ньютона–Рафсона, но для вычислений можно применять стандартные методы. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  30. 30. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияЛогистическая регрессия (напоминание) Y = {−1, +1} — два класса, xi , w ∈ Rn . Функционал аппроксимированного эмпирического риска: ℓ Q(w ) = − log σ w т xi yi → min, i=1 w где σ(z) = (1 + e −z )−1 — сигмоидная функция. Логарифмическая функция потерь L (Mi ) = log 1 + e −Mi 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi = w т xi yi К. В. Воронцов (www.ccas.ru/voron) Регрессия
  31. 31. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияМетода Ньютона-Рафсона Метода Ньютона-Рафсона для минимизации функционала Q(w ): −1 w t+1 := w t − ht Q ′′ (w t ) Q ′ (w t ), Элементы градиента — вектора первых производных Q ′ (w t ): ∂Q(w ) ℓ = − (1 − σi )yi fj (xi ), j = 1, . . . , n. ∂wj i=1 Элементы гессиана — матрицы вторых производных Q ′′ (w t ): ∂ 2 Q(w ) ℓ = (1 − σi )σi fj (xi )fk (xi ), j, k = 1, . . . , n, ∂wj ∂wk i=1 где σi = σ(yi w т xi ). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  32. 32. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияМатричные обозначения Fℓ×n = fj (xi ) — матрица «объекты–признаки»; Γℓ×ℓ = diag (1 − σi )σi — диагональная матрица; ˜ F = ΓF — взвешенная матрица «объекты–признаки»; yi = yi (1 − σi )/σi , y = (˜i )ℓ — взвешенный вектор ответов. ˜ ˜ y i=1 Тогда в методе Ньютона-Рафсона: −1 ˜ ˜ ˜ ˜ ˜ ˜ Q ′′ (w ) Q ′ (w ) = −(F т Γ2 F )−1 F т Γ˜ = −(F т F )−1 F т y = −F + y . y Это совпадает с МНК-решением линейной задачи регрессии со взвешенными объектами и модифицированными ответами: ℓ ˜ 2 2 Q(w ) = F w −˜ y = (1 − σi )σi w т x−yi (1 − σi )/σi → min . w i=1 γi ˜ yi К. В. Воронцов (www.ccas.ru/voron) Регрессия
  33. 33. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияИнтерпретация На каждом шаге метода Ньютона-Рафсона решается задача многомерной линейной регрессии: ℓ 2 Q(w ) = (1 − σi )σi w т x − yi (1 − σi )/σi → min . w i=1 γi ˜ yi Интерпретация: σi — вероятность правильного ответа на объекте xi ; чем ближе xi к границе, тем больше вес γi ; чем выше вероятность ошибки, тем больше yi . ˜ ВЫВОД: на каждой итерации происходит более точная настройка на «наиболее трудных» объектах. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  34. 34. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияМНК с итерационным перевзвешиванием объектовIRLS — Iteratively Reweighted Least Squares Вход: F , y — матрица «объекты–признаки» и вектор ответов; Выход: w — вектор коэффициентов линейной комбинации. 1: w := (F т F )−1 F т y — нулевое приближение, обычный МНК; 2: для t := 1, 2, 3, . . . 3: σi = σ(yi w т xi ) для всех i = 1, . . . , ℓ; 4: γi := (1 − σi )σi для всех i = 1, . . . , ℓ; 5: ˜ F := diag(γ1 , . . . , γℓ )F ; 6: yi := yi ˜ (1 − σi )/σi для всех i = 1, . . . , ℓ; 7: выбрать градиентный шаг ht ; 8: ˜ ˜ ˜ ˜ w := w + ht (F т F )−1 F т y ; 9: если {σi } мало изменились то выйти из цикла; К. В. Воронцов (www.ccas.ru/voron) Регрессия
  35. 35. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияОбобщение линейной модели регрессии Пусть ϕj : R → R — некоторые нелинейные преобразования исходных признаков. Модель регрессии: n f (x, α) = ϕj (fj (x)). j=1 В частности, при ϕj (fj (x)) = αj fj (x) это линейная регрессия. ИДЕЯ: будем по очереди уточнять функции ϕj по обучающей ℓ выборке fj (xi ), zi i=1 : ℓ n 2 ℓ Q(ϕj , X ) = ϕj (fj (xi )) − yi − ϕk (fk (xi )) → min . k=1,k=j ϕj i=1 zi =const(ϕj ) К. В. Воронцов (www.ccas.ru/voron) Регрессия
  36. 36. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессияМетод backfitting [Хасти, Тибширани, 1986] Вход: F , y — матрица «объекты–признаки» и вектор ответов; Выход: ϕj (x) — все функции преобразования признаков. 1: нулевое приближение: α := решение задачи МЛР с признаками fj (x); ϕj (x) := αj fj (x), j = 1, . . . , n; 2: повторять 3: для j = 1, . . . , n n 4: zi := yi − ϕk (fk (xi )), i = 1, . . . , ℓ; k=1,k=j ℓ 2 5: ϕj := arg min ϕ(fj (x)) − zi ; ϕ i=1 ℓ 2 6: Qj := ϕj (fj (x)) − zi ; i=1 7: пока значения Qj не стабилизируются К. В. Воронцов (www.ccas.ru/voron) Регрессия

×