SlideShare a Scribd company logo
1 of 58
Непараметрическая регрессия
 Многомерная линейная регрессия
       Метод главных компонент
          Нелинейная регрессия




                         Регрессия

                     К. В. Воронцов
                  vokov@forecsys.ru
               http://www.ccas.ru/voron


                         14 апреля 2010




К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
         Многомерная линейная регрессия
               Метод главных компонент
                  Нелинейная регрессия

Метод наименьших квадратов

      X — объекты (часто Rn ); Y — ответы (часто R, реже Rm );
      X ℓ = (xi , yi )i=1 — обучающая выборка;
                      ℓ

      yi = y (xi ), y : X → Y — неизвестная зависимость;
      a(x) = f (x, α) — модель зависимости,
      α ∈ Rp — вектор параметров модели.
      Метод наименьших квадратов (МНК):
                                     ℓ
                            ℓ                                 2
                  Q(α, X ) =             wi f (xi , α) − yi       → min,
                                                                     α
                                   i=1

      где wi — вес, степень важности i-го объекта.
      Q(α∗ , X ℓ ) — остаточная сумма квадратов
      (residual sum of squares, RSS).
        К. В. Воронцов (www.ccas.ru/voron)    Регрессия
Непараметрическая регрессия
            Многомерная линейная регрессия
                  Метод главных компонент
                     Нелинейная регрессия

Метод максимума правдоподобия

  Модель данных с некоррелированным гауссовским шумом:

         y (xi ) = f (xi , α) + εi ,        εi ∼ N (0, σi2 ),     i = 1, . . . , ℓ.

  Метод максимума правдоподобия (ММП):
                                  ℓ
                                        1                 1 2
       L(ε1 , . . . , εℓ |α) =          √       exp −        ε      → max;
                                       σi 2π             2σi2 i           α
                                 i=1
                                                    ℓ
                                          1             1                      2
  − ln L(ε1 , . . . , εℓ |α) = const(α) +                   f (xi , α) − yi        → min;
                                          2             σi2                           α
                                                  i=1

  Теорема
  Решения МНК и ММП, совпадают, причём веса объектов
  обратно пропорциональны дисперсии шума, wi = σi−2 .
           К. В. Воронцов (www.ccas.ru/voron)    Регрессия
Непараметрическая регрессия
            Многомерная линейная регрессия
                  Метод главных компонент
                     Нелинейная регрессия

Содержание
  1   Непараметрическая регрессия
       Формула Надарая–Ватсона
       Выбор ядра K и ширины окна h
       Отсев выбросов
  2   Многомерная линейная регрессия
       Решение задачи наименьших квадратов
       Сингулярное разложение
       Регуляризация (гребневая регрессия)
       Лассо Тибширани
  3   Метод главных компонент
       Постановка задачи
       Основная теорема
       Решение задачи наименьших квадратов
  4   Нелинейная регрессия
       Нелинейная модель регрессии
       Логистическая регрессия
       Нелинейные преобразования признаков

           К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                    Формула Надарая–Ватсона
          Многомерная линейная регрессия
                                                    Выбор ядра K и ширины окна h
                Метод главных компонент
                                                    Отсев выбросов
                   Нелинейная регрессия

Формула Надарая–Ватсона

  Приближение константой a(x) = α в окрестности x ∈ X :
                                       ℓ
                                                                2
                 Q(α; X ℓ ) =               wi (x) α − yi            → min;
                                                                        α∈R
                                      i=1

  где wi (x) = K ρ(x,xi ) — веса объектов xi относительно x;
                    h
  K (r ) — ядро, невозрастающее, ограниченное, гладкое;
  h — ширина окна сглаживания.

  Формула ядерного сглаживания Надарая–Ватсона:
                                  ℓ                      ℓ
                                                                      ρ(x,xi )
                                       yi wi (x)              yi K       h
                                i=1                     i=1
              ah (x; X ℓ ) =      ℓ
                                                    =     ℓ
                                                                                 .
                                                                     ρ(x,xi )
                                           wi (x)               K       h
                                 i=1                     i=1

         К. В. Воронцов (www.ccas.ru/voron)         Регрессия
Непараметрическая регрессия
                                              Формула Надарая–Ватсона
          Многомерная линейная регрессия
                                              Выбор ядра K и ширины окна h
                Метод главных компонент
                                              Отсев выбросов
                   Нелинейная регрессия

Обоснование формулы Надарая–Ватсона


  Теорема
  Пусть выполнены следующие условия:
  1) выборка X ℓ = (xi , yi )ℓ простая, из распределения p(x, y );
                             i=1
                                 ∞
  2) ядро K (r ) ограничено: 0 K (r ) dr < ∞, lim rK (r ) = 0;
                                                              r →∞
  3) зависимость E(y |x) не имеет вертикальных асимптот:
      E(y 2 |x) = Y y 2 p(y |x) dy < ∞ при любом x ∈ X ;
  4) последовательность hℓ убывает, но не слишком быстро:
       lim hℓ = 0, lim ℓhℓ = ∞.
      ℓ→∞              ℓ→∞
  Тогда имеет место сходимость по вероятности:
                    P
      ahℓ (x; X ℓ ) → E(y |x) в любой точке x ∈ X ,
  в которой E(y |x), p(x) и D(y |x) непрерывны и p(x) > 0.


         К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                       Формула Надарая–Ватсона
   Многомерная линейная регрессия
                                       Выбор ядра K и ширины окна h
         Метод главных компонент
                                       Отсев выбросов
            Нелинейная регрессия



Ядро K (r )
— существенно влияет на гладкость функции ah (x),
— слабо влияет на качество аппроксимации.
Ширина окна h
— существенно влияет на качество аппроксимации.
При неравномерной сетке {xi } — переменная ширина окна:

                                         ρ(x, xi )
                         wi (x) = K                ,
                                          h(x)

где h(x) = ρ(x, x (k+1) ), x (k+1) — k-й сосед объекта x.
Оптимизация ширины окна по скользящему контролю:
                             ℓ
                                                            2
     LOO(h, X ℓ ) =               ah xi ; X ℓ {xi } − yi       → min .
                                                                      h
                           i=1

  К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                Формула Надарая–Ватсона
            Многомерная линейная регрессия
                                                Выбор ядра K и ширины окна h
                  Метод главных компонент
                                                Отсев выбросов
                     Нелинейная регрессия

Локально взвешенное сглаживание
(LOWESS — LOcally WEighted Scatter plot Smoothing)



   Основная идея:
   чем больше величина ошибки εi = ah xi ; X ℓ {xi } − yi , тем
   в большей степени прецедент (xi , yi ) является выбросом, и тем
   меньше должен быть его вес wi (x).

   Эвристика:
                                               ˜
   домножить веса wi (x) на коэффициенты γi = K (εi ),
       ˜
   где K — ещё одно ядро, вообще говоря, отличное от K (r ).

   Рекомендация:
                      ˜             ε
   квартическое ядро K (ε) = KQ 6 med{εi } ,
   где med{εi } — медиана вариационного ряда ошибок.

           К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                Формула Надарая–Ватсона
          Многомерная линейная регрессия
                                                Выбор ядра K и ширины окна h
                Метод главных компонент
                                                Отсев выбросов
                   Нелинейная регрессия

Алгоритм LOWESS

  Вход: X ℓ — обучающая выборка;
  Выход: коэффициенты γi , i = 1, . . . , ℓ;
   1: инициализация: γi := 1, i = 1, . . . , ℓ;
   2: повторять
   3:   для всех объектов i = 1, . . . , ℓ
   4:     вычислить оценки скользящего контроля:
                                                 ℓ
                                                                     ρ(xi ,xj )
                                                         y j γj K     h(xi )
                                              j=1, j=i
          ai := ah xi ; X ℓ {xi } =                 ℓ
                                                                                  ;
                                                                    ρ(xi ,xj )
                                                          γj K       h(xi )
                                               j=1, j=i
   5:   для всех объектов i = 1, . . . , ℓ
   6:           ˜
          γi := K |ai − yi | ;
   7: пока коэффициенты γi не стабилизируются;

         К. В. Воронцов (www.ccas.ru/voron)     Регрессия
Непараметрическая регрессия       Решение задачи наименьших квадратов
           Многомерная линейная регрессия       Сингулярное разложение
                 Метод главных компонент        Регуляризация (гребневая регрессия)
                    Нелинейная регрессия        Лассо Тибширани

Многомерная линейная регрессия

  f1 (x), . . . , fn (x) — числовые признаки;
  Модель многомерной линейной регрессии:
                                      n
                     f (x, α) =           αj fj (x),        α ∈ Rn .
                                    j=1

  Матричные обозначения:
                                                                             
         f1 (x1 ) . . . fn (x1 )                     y1                      α1
    F =  ...      ...     ... ,               y = . . . ,           α = . . . .
   ℓ×n                                         ℓ×1                     n×1
          f1 (xℓ ) . . . fn (xℓ )                     yℓ                     αn

  Функционал квадрата ошибки:
                           ℓ
                                                  2                    2
        Q(α, X ℓ ) =            f (xi , α) − yi        = Fα − y            → min .
                                                                              α
                          i=1

          К. В. Воронцов (www.ccas.ru/voron)    Регрессия
Непараметрическая регрессия    Решение задачи наименьших квадратов
            Многомерная линейная регрессия    Сингулярное разложение
                  Метод главных компонент     Регуляризация (гребневая регрессия)
                     Нелинейная регрессия     Лассо Тибширани

Нормальная система уравнений

  Необходимое условие минимума в матричном виде:
                          ∂Q
                             (α) = 2F т (F α − y ) = 0,
                          ∂α
  откуда следует нормальная система задачи МНК:

                                   F тF α = F тy ,

  где F т F — ковариационная матрица набора признаков f1 , . . . , fn .
      n×n


  Решение системы: α∗ = (F т F )−1 F т y = F + y .
  Значение функционала: Q(α∗ ) = PF y − y 2 ,
  где PF = FF + = F (F т F )−1 F т — проекционная матрица.

         К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия      Решение задачи наименьших квадратов
            Многомерная линейная регрессия      Сингулярное разложение
                  Метод главных компонент       Регуляризация (гребневая регрессия)
                     Нелинейная регрессия       Лассо Тибширани

Сингулярное разложение

  Произвольная ℓ×n-матрица представима в виде
  сингулярного разложения (singular value decomposition, SVD):

                                       F = VDU т .

  Основные свойства сингулярного разложения:
    1   ℓ×n-матрица V = (v1 , . . . , vn ) ортогональна, V т V = In ,
        столбцы vj — собственные векторы матрицы FF т ;
    2   n×n-матрица U = (u1 , . . . , un ) ортогональна, U т U = In ,
        столбцы uj — собственные векторы матрицы F т F ;
                                                    √         √
    3   n×n-матрица D диагональна, D = diag λ1 , . . . , λn ,
        λj 0 — собственные значения матриц F т F и FF т .



           К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия        Решение задачи наименьших квадратов
           Многомерная линейная регрессия        Сингулярное разложение
                 Метод главных компонент         Регуляризация (гребневая регрессия)
                    Нелинейная регрессия         Лассо Тибширани

Решение МНК через сингулярное разложение

  Псевдообратная F + , вектор МНК-решения α∗ ,
  МНК-аппроксимация целевого вектора F α∗ :
                                                                         n
                                                                                 1
       F + = (UDV т VDU т )−1 UDV т = UD −1 V т =                                    uj vjт ;
                                                                        j=1
                                                                                  λj
                                                n
                                                     1
       α∗ = F + y = UD −1 V т y =                        uj (vjт y );
                                               j=1
                                                      λj
                                                                        n
      F α∗ = PF y = (VDU т )UD −1 V т y = VV т y =                            vj (vjт y );
                                                                    j=1
                                        n
                                             1 т 2
     α∗   2
              = D −1 V т y     2
                                   =           (v y ) .
                                             λj j
                                       j=1


          К. В. Воронцов (www.ccas.ru/voron)     Регрессия
Непараметрическая регрессия      Решение задачи наименьших квадратов
          Многомерная линейная регрессия      Сингулярное разложение
                Метод главных компонент       Регуляризация (гребневая регрессия)
                   Нелинейная регрессия       Лассо Тибширани

Проблема мультиколлинеарности

  Если имеются λj → 0, то
      МНК-решение α∗ неустойчиво и неинтерпретируемо:
       α → ∞;
      ответы на новых объектах y ′ = F ′ α∗ неустойчивы;
      в то время как на обучении, казалось бы, «всё хорошо»:
      Q(α∗ ) = F α∗ − y 2 → 0;
      мультиколлинеарность влечёт переобучение.

  Три стратегии устранения мультиколлинеарности:
      Регуляризация: α → min;
      Преобразование признаков: f1 , . . . , fn → g1 , . . . , gm , m ≪ n;
      Отбор признаков: f1 , . . . , fn → fj1 , . . . , fjm , m ≪ n.

         К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия   Решение задачи наименьших квадратов
          Многомерная линейная регрессия   Сингулярное разложение
                Метод главных компонент    Регуляризация (гребневая регрессия)
                   Нелинейная регрессия    Лассо Тибширани



Штраф за увеличение нормы вектора весов α :
                                             2
                     Qτ (α) = F α − y            +    1
                                                     2σ   α 2,
          1
где τ =   σ   — неотрицательный параметр регуляризации.
Вероятностная интерпретация: априорное распределение
вектора α — гауссовское с ковариационной матрицей σIn .

Модифицированное МНК-решение (τ In — «гребень»):

                         ατ = (F т F + τ In )−1 F т y .
                          ∗



Преимущество сингулярного разложения:
можно подбирать параметр τ , вычислив SVD только один раз.


      К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия      Решение задачи наименьших квадратов
              Многомерная линейная регрессия      Сингулярное разложение
                    Метод главных компонент       Регуляризация (гребневая регрессия)
                       Нелинейная регрессия       Лассо Тибширани

Регуляризованный МНК через сингулярное разложение

  Вектор регуляризованного МНК-решения ατ∗
                                           ∗
  и МНК-аппроксимация целевого вектора F ατ :
                                                   n
                                                              λj
      ατ = U(D 2 + τ In )−1 DV т y =
       ∗
                                                                  uj (vjт y );
                                                           λj + τ
                                                  j=1
                                                                       n
       ∗                ∗                λj                                   λj
    F ατ     =   VDU т ατ     = V diag        V тy =                               vj (vjт y );
                                       λj + τ                               λj + τ
                                                                      j=1
                                                                n
     ∗   2                                                              1
    ατ       = D 2 (D 2 + τ In )−1 D −1 V т y          2
                                                           =               (v т y )2 .
                                                                     λj + τ j
                                                               j=1

  F ατ = F α∗ , но зато решение становится гораздо устойчивее.
     ∗




             К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия       Решение задачи наименьших квадратов
           Многомерная линейная регрессия       Сингулярное разложение
                 Метод главных компонент        Регуляризация (гребневая регрессия)
                    Нелинейная регрессия        Лассо Тибширани

Выбор параметра регуляризации τ

  Контрольная выборка: X k = (xi′ , yi′ )k ;
                                          i=1
                      ′              ′
                                                                     ′
                                                                         
                  f1 (x1 ) . . . fn (x1 )                           y1
           F′ =  ...      ...     ... ,                    y ′ = . . . .
          k×n          ′ ) . . . f (x ′ )                   k×1        ′
                  f1 (xk          n k                               yk

  Вычисление функционала Q на контрольных данных T раз
  потребует O(kn2 + knT ) операций:
                                                               √                    2
                                                                  λj
     Q(ατ , X k ) = F ′ ατ − y ′
        ∗                ∗              2
                                            = F ′ U diag       λj +τ   V т y −y ′       .
                                               k×n                     n×1

  Зависимость Q(τ ) обычно имеет характерный минимум.


          К. В. Воронцов (www.ccas.ru/voron)    Регрессия
Непараметрическая регрессия     Решение задачи наименьших квадратов
           Многомерная линейная регрессия     Сингулярное разложение
                 Метод главных компонент      Регуляризация (гребневая регрессия)
                    Нелинейная регрессия      Лассо Тибширани

Регуляризация сокращает «эффективную размерность»

  Сжатие (shrinkage) или сокращение весов (weight decay):
                     n                                             n
                             1                                          1 т 2
        ατ 2
         ∗
                =               (v т y )2     <     α   ∗ 2
                                                              =           (v y ) .
                          λj + τ j                                      λj j
                    j=1                                           j=1

  Почему говорят о сокращении эффективной размерности?
  Роль размерности играет след проекционной матрицы:

                tr F (F т F )−1 F т = tr(F т F )−1 F т F = tr In = n.

  При использовании регуляризации:
                                                                   n
            т              −1    т               λj                       λj
     tr F (F F + τ In )         F = tr diag                   =                < n.
                                               λj + τ                   λj + τ
                                                                  j=1

         К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия            Решение задачи наименьших квадратов
            Многомерная линейная регрессия            Сингулярное разложение
                  Метод главных компонент             Регуляризация (гребневая регрессия)
                     Нелинейная регрессия             Лассо Тибширани

Лассо Тибширани — другой подход к регуляризации
LASSO — Least Absolute Shrinkage and Selection Operator

                                                          2
                           Q(α) = F α − y
                          
                                                               → min;
                                                                    α
                                n
                          
                                   |αj |        κ;
                              j=1

   Лассо приводит к отбору признаков! Почему?
   После замены переменных
                        +    −
                αj = αj − αj ;     +     −
                         +    −
                                  αj 0; αj  0.
                |αj | = αj + αj ;
   ограничения принимают канонический вид:
                    n
                          +    −                       +             −
                         αj + αj            κ;        αj       0;   αj     0.
                   j=1
                                          +    −
   Чем меньше κ, тем больше j таких, что αj = αj = 0.
           К. В. Воронцов (www.ccas.ru/voron)         Регрессия
Непараметрическая регрессия        Решение задачи наименьших квадратов
            Многомерная линейная регрессия        Сингулярное разложение
                  Метод главных компонент         Регуляризация (гребневая регрессия)
                     Нелинейная регрессия         Лассо Тибширани

Сравнение гребневой регрессии и Лассо

     Зависимость {αj } от σ                     Зависимость {αj } от κ




  Задача диагностики рака (prostate cancer, UCI)
  T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning.
  Springer, 2001.

           К. В. Воронцов (www.ccas.ru/voron)     Регрессия
Непараметрическая регрессия
                                                 Постановка задачи
          Многомерная линейная регрессия
                                                 Основная теорема
                Метод главных компонент
                                                 Решение задачи наименьших квадратов
                   Нелинейная регрессия

Метод главных компонент: постановка задачи

  f1 (x), . . . , fn (x) — исходные числовые признаки;
  g1 (x), . . . , gm (x) — новые числовые признаки, m                            n;

  Требование: старые признаки должны линейно
  восстанавливаться по новым:
                         m
            ˆ
            fj (x) =          gs (x)ujs ,     j = 1, . . . , n,        ∀x ∈ X ,
                        s=1

  как можно точнее на обучающей выборке x1 , . . . , xℓ :
                    ℓ    n
                               ˆ                     2
                               fj (xi ) − fj (xi )       →        min
                                                             {gs (xi )},{ujs }
                  i=1 j=1



         К. В. Воронцов (www.ccas.ru/voron)      Регрессия
Непараметрическая регрессия
                                                   Постановка задачи
          Многомерная линейная регрессия
                                                   Основная теорема
                Метод главных компонент
                                                   Решение задачи наименьших квадратов
                   Нелинейная регрессия

Матричные обозначения

  Матрицы «объекты–признаки», старая и новая:
                                                               
         f1 (x1 ) . . . fn (x1 )          g1 (x1 ) . . . gm (x1 )
   F =  ...      ...     ... ;    G =  ...      ...     ... .
  ℓ×n                              ℓ×m
         f1 (xℓ ) . . . fn (xℓ )          g1 (xℓ ) . . . gm (xℓ )
  Матрица линейного преобразования новых признаков в старые:
                                
                 u11 . . . u1m
                                             хотим
          U = . . . . . . . . .  ; ˆ
                                     F = GU т ≈ F .
         n×m
                 un1 . . . unm
  Найти: и новые признаки G , и преобразование U:
             ℓ    n
                       ˆ                      2                    2
                       fj (xi ) − fj (xi )        = GU т − F           → min,
                                                                          G ,U
            i=1 j=1

         К. В. Воронцов (www.ccas.ru/voron)        Регрессия
Непараметрическая регрессия
                                                  Постановка задачи
            Многомерная линейная регрессия
                                                  Основная теорема
                  Метод главных компонент
                                                  Решение задачи наименьших квадратов
                     Нелинейная регрессия

Основная теорема метода главных компонент


  Теорема
                                                          2
  Если m rk F , то минимум GU т − F достигается, когда
  столбцы U — это с.в. матрицы F т F , соответствующие
  m максимальным с.з. λ1 , . . . , λm , а матрица G = FU.
  При этом:
    1   матрица U ортонормирована: U т U = Im ;
    2   матрица G ортогональна: G т G = Λ = diag(λ1 , . . . , λm );
    3   UΛ = F т FU; G Λ = FF т G ;
                                                     n
                       2           2
    4    GU т − F          = F         − tr Λ =           λj .
                                                  j=m+1




           К. В. Воронцов (www.ccas.ru/voron)     Регрессия
Непараметрическая регрессия
                                               Постановка задачи
           Многомерная линейная регрессия
                                               Основная теорема
                 Метод главных компонент
                                               Решение задачи наименьших квадратов
                    Нелинейная регрессия

Связь с сингулярным разложением

  Если взять m = n, то:
                      2
    1    GU т − F   = 0;
    2                 ˆ
        представление F = GU т = F точное и совпадает
                                             √
        с сингулярным разложением при G = V Λ:
                         √
            F = GU т = V ΛU т ; U т U = Im ; V т V = Im .
    3   линейное преобразование U работает в обе стороны:
            F = GU т ; G = FU.
        Поскольку новые признаки некоррелированы (G т G = Λ),
        преобразование U называется декоррелирующим
        (или преобразованием Карунена–Лоэва).



          К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                         Постановка задачи
               Многомерная линейная регрессия
                                                         Основная теорема
                     Метод главных компонент
                                                         Решение задачи наименьших квадратов
                        Нелинейная регрессия

Эффективная размерность выборки

  Упорядочим с.з. F т F по убыванию: λ1                                 ...        λn        0.
  Эффективная размерность выборки — это
  наименьшее целое m, при котором
                               GU т − F     2           λm+1 + · · · + λn
                   Em =                         =                                        ε.
                                  F 2                    λ1 + · · · + λn

  Критерий «крутого склона»: находим m: Em−1 ≫ Em :
   0.4
   0.3
   0.2
   0.1
     0
   -0.1                             m-1 m m+1
          1    2   3   4   5    6   7   8   9      10    11   12   13   14    15   16   17    18   19   20   λ
              К. В. Воронцов (www.ccas.ru/voron)         Регрессия
Непараметрическая регрессия
                                                   Постановка задачи
         Многомерная линейная регрессия
                                                   Основная теорема
               Метод главных компонент
                                                   Решение задачи наименьших квадратов
                  Нелинейная регрессия

Решение задачи НК в новых признаках

  Заменим F на её приближение GU т :
                                    2                          2
                    G U т α −y          = Gβ − y                   → min .
                                                                      β
                          β

  Связь нового и старого вектора коэффициентов:
                              α = Uβ;              β = U т α.
  Решение задачи наименьших квадратов относительно β
  (единственное отличие — m слагаемых вместо n):
                                                   m
                                                          1
                     β ∗ = D −1 V т y =                       uj (vjт y );
                                                 j=1
                                                           λj
                                             m
                  G β ∗ = VV т y =                 vj (vjт y );
                                             j=1

        К. В. Воронцов (www.ccas.ru/voron)         Регрессия
Непараметрическая регрессия
                                               Нелинейная модель регрессии
          Многомерная линейная регрессия
                                               Логистическая регрессия
                Метод главных компонент
                                               Нелинейные преобразования признаков
                   Нелинейная регрессия

Нелинейная модель регрессии

  Нелинейная модель регрессии f (x, α), α ∈ Rp .
  Функционал среднеквадратичного отклонения:
                                    ℓ
                           ℓ                               2
                 Q(α, X ) =              f (xi , α) − yi       → min .
                                                                   α
                                   i=1

  Метод Ньютона–Рафсона.
  1. Начальное приближение α0 = (α1 , . . . , αp ).
                                  0            0

  2. Итерационный процесс
                                                      −1
                    αt+1 := αt − ηt Q ′′ (αt )             Q ′ (αt ),
  Q ′ (αt ) — градиент функционала Q в точке αt ,
  Q ′′ (αt ) — гессиан функционала Q в точке αt ,
  ηt — величина шага (можно полагать ηt = 1).


         К. В. Воронцов (www.ccas.ru/voron)    Регрессия
Непараметрическая регрессия
                                                  Нелинейная модель регрессии
          Многомерная линейная регрессия
                                                  Логистическая регрессия
                Метод главных компонент
                                                  Нелинейные преобразования признаков
                   Нелинейная регрессия

Метод Ньютона-Рафсона

  Компоненты градиента:
                                    ℓ
                 ∂Q(α)                                        ∂f (xi , α)
                       =2               f (xi , α) − yi                   .
                  ∂αj                                            ∂αj
                                  i=1
  Компоненты гессиана:
                  ℓ                                      ℓ
  ∂ 2 Q(α)            ∂f (xi , α) ∂f (xi , α)                                   ∂ 2 f (xi , α)
           =2                                 −2              f (xi , α) − yi                  .
  ∂αj ∂αk                ∂αj         ∂αk                                         ∂αj ∂αk
                i=1                                    i=1
                                                      при линеаризации полагается = 0

  Не хотелось бы обращать гессиан на каждой итерации...
  Линеаризация f (xi , α) в окрестности текущего αt :
                                              p
                                                    ∂f (xi , αj )
            f (xi , α) = f (xi , αt ) +                                 t
                                                                  αj − αj .
                                                       ∂αj
                                              j=1

         К. В. Воронцов (www.ccas.ru/voron)       Регрессия
Непараметрическая регрессия
                                                Нелинейная модель регрессии
            Многомерная линейная регрессия
                                                Логистическая регрессия
                  Метод главных компонент
                                                Нелинейные преобразования признаков
                     Нелинейная регрессия

Метод Ньютона-Гаусса

  Матричные обозначения:
       ∂f             j=1,p
  Ft = ∂αj (xi , αt ) i=1,ℓ — ℓ×p-матрица первых производных;
  ft = f (xi , αt )   i=1,ℓ
                              — вектор значений f .
  Формула t-й итерации метода Ньютона–Гаусса:
                      αt+1 := αt − ht (Ftт Ft )−1 Ftт (f t − y ) .
                                                       β

  β — это решение задачи многомерной линейной регрессии
                                                  2
                              Ft β − (f t − y )       → min .
                                                            β

  Нелинейная регрессия сведена к серии линейных регрессий.
  Скорость сходимости — как и у метода Ньютона–Рафсона,
  но для вычислений можно применять стандартные методы.
           К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                                           Нелинейная модель регрессии
          Многомерная линейная регрессия
                                                                           Логистическая регрессия
                Метод главных компонент
                                                                           Нелинейные преобразования признаков
                   Нелинейная регрессия

Логистическая регрессия (напоминание)

  Y = {−1, +1} — два класса, xi , w ∈ Rn .
  Функционал аппроксимированного эмпирического риска:
                                                         ℓ
                    Q(w ) = −                                 log σ w т xi yi → min,
                                                     i=1                                        w

  где σ(z) = (1 + e −z )−1 — сигмоидная функция.
  Логарифмическая функция потерь L (Mi ) = log 1 + e −Mi
                   3.5

                   3.0

                   2.5

                   2.0

                   1.5

                   1.0

                   0.5

                    0
                         -3.0 -2.5 -2.0 -1.5 -1.0 -0.5   0   0.5 1.0 1.5 2.0 2.5 3.0   Mi = w т xi yi
         К. В. Воронцов (www.ccas.ru/voron)                                Регрессия
Непараметрическая регрессия
                                               Нелинейная модель регрессии
            Многомерная линейная регрессия
                                               Логистическая регрессия
                  Метод главных компонент
                                               Нелинейные преобразования признаков
                     Нелинейная регрессия

Метода Ньютона-Рафсона

  Метода Ньютона-Рафсона для минимизации функционала Q(w ):
                                                       −1
                    w t+1 := w t − ht Q ′′ (w t )           Q ′ (w t ),

  Элементы градиента — вектора первых производных Q ′ (w t ):

              ∂Q(w )     ℓ
                     = − (1 − σi )yi fj (xi ),              j = 1, . . . , n.
               ∂wj      i=1

  Элементы гессиана — матрицы вторых производных Q ′′ (w t ):

         ∂ 2 Q(w )    ℓ
                   =     (1 − σi )σi fj (xi )fk (xi ),        j, k = 1, . . . , n,
         ∂wj ∂wk     i=1

  где σi = σ(yi w т xi ).

          К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                  Нелинейная модель регрессии
               Многомерная линейная регрессия
                                                  Логистическая регрессия
                     Метод главных компонент
                                                  Нелинейные преобразования признаков
                        Нелинейная регрессия

Матричные обозначения

  Fℓ×n = fj (xi ) — матрица «объекты–признаки»;
  Γℓ×ℓ = diag (1 − σi )σi — диагональная матрица;
  ˜
  F = ΓF — взвешенная матрица «объекты–признаки»;
  yi = yi (1 − σi )/σi , y = (˜i )ℓ — взвешенный вектор ответов.
  ˜                      ˜    y i=1
  Тогда в методе Ньютона-Рафсона:
               −1                                        ˜ ˜       ˜ ˜      ˜ ˜
   Q ′′ (w )        Q ′ (w ) = −(F т Γ2 F )−1 F т Γ˜ = −(F т F )−1 F т y = −F + y .
                                                   y

  Это совпадает с МНК-решением линейной задачи регрессии
  со взвешенными объектами и модифицированными ответами:
                                    ℓ
          ˜                2                                                        2
  Q(w ) = F w −˜
               y               =         (1 − σi )σi w т x−yi     (1 − σi )/σi          → min .
                                                                                           w
                                   i=1       γi                       ˜
                                                                      yi


           К. В. Воронцов (www.ccas.ru/voron)     Регрессия
Непараметрическая регрессия
                                             Нелинейная модель регрессии
         Многомерная линейная регрессия
                                             Логистическая регрессия
               Метод главных компонент
                                             Нелинейные преобразования признаков
                  Нелинейная регрессия

Интерпретация

  На каждом шаге метода Ньютона-Рафсона решается
  задача многомерной линейной регрессии:
                 ℓ
                                                                    2
     Q(w ) =          (1 − σi )σi w т x − yi       (1 − σi )/σi         → min .
                                                                            w
                i=1        γi                            ˜
                                                         yi

  Интерпретация:
      σi — вероятность правильного ответа на объекте xi ;
      чем ближе xi к границе, тем больше вес γi ;
      чем выше вероятность ошибки, тем больше yi .
                                              ˜
      ВЫВОД: на каждой итерации происходит более точная
      настройка на «наиболее трудных» объектах.


        К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                 Нелинейная модель регрессии
             Многомерная линейная регрессия
                                                 Логистическая регрессия
                   Метод главных компонент
                                                 Нелинейные преобразования признаков
                      Нелинейная регрессия

МНК с итерационным перевзвешиванием объектов
IRLS — Iteratively Reweighted Least Squares


   Вход: F , y — матрица «объекты–признаки» и вектор ответов;
   Выход: w — вектор коэффициентов линейной комбинации.
     1: w := (F т F )−1 F т y — нулевое приближение, обычный МНК;
     2: для t := 1, 2, 3, . . .
     3:   σi = σ(yi w т xi ) для всех i = 1, . . . , ℓ;
     4:   γi := (1 − σi )σi для всех i = 1, . . . , ℓ;
     5:   ˜
          F := diag(γ1 , . . . , γℓ )F ;
     6:   yi := yi
          ˜             (1 − σi )/σi для всех i = 1, . . . , ℓ;
     7:   выбрать градиентный шаг ht ;
     8:                ˜ ˜       ˜ ˜
          w := w + ht (F т F )−1 F т y ;
     9:   если {σi } мало изменились то выйти из цикла;

            К. В. Воронцов (www.ccas.ru/voron)   Регрессия
Непараметрическая регрессия
                                                    Нелинейная модель регрессии
          Многомерная линейная регрессия
                                                    Логистическая регрессия
                Метод главных компонент
                                                    Нелинейные преобразования признаков
                   Нелинейная регрессия

Обобщение линейной модели регрессии

  Пусть ϕj : R → R — некоторые нелинейные преобразования
  исходных признаков. Модель регрессии:
                                               n
                            f (x, α) =              ϕj (fj (x)).
                                              j=1

  В частности, при ϕj (fj (x)) = αj fj (x) это линейная регрессия.
  ИДЕЯ: будем по очереди уточнять функции ϕj по обучающей
                       ℓ
  выборке fj (xi ), zi i=1 :
                   ℓ                                     n                      2
          ℓ
   Q(ϕj , X ) =         ϕj (fj (xi )) − yi −                    ϕk (fk (xi ))       → min .
                                                     k=1,k=j                              ϕj
                  i=1
                                                       zi =const(ϕj )

         К. В. Воронцов (www.ccas.ru/voron)         Регрессия
Непараметрическая регрессия
                                                    Нелинейная модель регрессии
            Многомерная линейная регрессия
                                                    Логистическая регрессия
                  Метод главных компонент
                                                    Нелинейные преобразования признаков
                     Нелинейная регрессия

Метод backfitting [Хасти, Тибширани, 1986]

  Вход: F , y — матрица «объекты–признаки» и вектор ответов;
  Выход: ϕj (x) — все функции преобразования признаков.
   1: нулевое приближение:
        α := решение задачи МЛР с признаками fj (x);
        ϕj (x) := αj fj (x), j = 1, . . . , n;
   2: повторять
   3:   для j = 1, . . . , n
                               n
   4:       zi := yi −               ϕk (fk (xi )), i = 1, . . . , ℓ;
                           k=1,k=j
                                ℓ
                                                          2
   5:       ϕj := arg min            ϕ(fj (x)) − zi           ;
                            ϕ i=1
                       ℓ
                                                2
   6:       Qj :=          ϕj (fj (x)) − zi         ;
                     i=1
   7:   пока значения Qj не стабилизируются
           К. В. Воронцов (www.ccas.ru/voron)       Регрессия
Проблема полноты
Метод обратного распространения ошибок
                             Эвристики




       Искусственные нейронные сети

                             К. В. Воронцов
                           vokov@forecsys.ru


      Этот курс доступен на странице вики-ресурса
        http://www.MachineLearning.ru/wiki
    «Машинное обучение (курс лекций, К.В.Воронцов)»



                                  6 мая 2010


      К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты
      Метод обратного распространения ошибок
                                   Эвристики

Содержание


  1   Проблема полноты
       Напоминания: линейные алгоритмы
       Проблема «исключающего ИЛИ»
       Вычислительные возможности нейронных сетей
  2   Метод обратного распространения ошибок
       Многослойная нейронная сеть
       Быстрое вычисление градиента
       Алгоритм BackProp
  3   Эвристики
       Стандартные эвристики и ускорение сходимости
       Диагональный метод Левенберга-Марквардта
       Наращивание и прореживание сети


            К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты         Напоминания: линейные алгоритмы
    Метод обратного распространения ошибок        Проблема «исключающего ИЛИ»
                                 Эвристики        Вычислительные возможности нейронных сетей

Линейные алгоритмы классификации и регрессии

  fj : X → R, j = 1, . . . , n — числовые признаки;
               n
   w , xi =         wj fj (x) − w0 — линейная комбинация признаков;
              j=1
  w0 , w1 , . . . , wn ∈ R — веса признаков;

  Задача классификации: Y = {±1}, a(x, w ) = sign w , xi ;
                                       ℓ
                     Q(w ; X ℓ ) =          L     w , xi yi → min;
                                                                    w
                                      i=1
                                                   Mi (w )

  Задача регрессии: Y = R, a(x, w ) = w , xi ;
                                       ℓ
                                                             2
                    Q(w ; X ℓ ) =              w , xi − yi       → min;
                                                                     w
                                     i=1



          К. В. Воронцов (www.ccas.ru/voron)      Искусственные нейронные сети
Проблема полноты           Напоминания: линейные алгоритмы
     Метод обратного распространения ошибок          Проблема «исключающего ИЛИ»
                                  Эвристики          Вычислительные возможности нейронных сетей

Нейронная реализация логических функций

  Функции И, ИЛИ, НЕ от бинарных переменных x 1 и x 2 :
                           x1 ∧ x2 = x1 + x2 −                  3
                                                                2   >0 ;
                             1      2                           1
                           x ∨x =          x1    +   x2   −     2   >0 ;
                                    1                   1
                                 ¬x =      −x 1     +   2   >0 ;

                                                            И
                                                            1
     x 1 vvv
    @ABC
    GFED
            vv
             1 vv
                  v&                                        0
     x 2
    GFED 1
    @ABC           /               / (x 1 ∨ x 2 )               0          1
                                                            ИЛИ
                     8
                rrr
            1/2                                             1
         rr
          r
     −1
    GFED
    @ABC

                                                            0
                                                                0          1

            К. В. Воронцов (www.ccas.ru/voron)       Искусственные нейронные сети
Проблема полноты          Напоминания: линейные алгоритмы
    Метод обратного распространения ошибок         Проблема «исключающего ИЛИ»
                                 Эвристики         Вычислительные возможности нейронных сетей

Логическая функция XOR (исключающее ИЛИ)

  Функция x 1 ⊕ x 2 = [x 1 = x 2 ] не реализуема одним нейроном.
  Два способа реализации:
      Добавлением нелинейного признака:
      x 1 ⊕ x 2 = x 1 + x 2 − 2x 1 x 2 − 1 > 0 ;
                                          2
      Сетью (суперпозицией) функций И, ИЛИ, НЕ:
      x 1 ⊕ x 2 = (x 1 ∨ x 2 ) − (x 1 ∧ x 2 ) − 1 > 0 .
                                                2
                                                                 1-й способ
   @ABC
   GFED‚
    x 1 W ‚‚                                                     1
         WW 1‚‚‚‚
           W       (
            1W
              WW ll6      ‚‚
             lllW B          +1‚‚
                                  (                              0
   @ABC 1 WWÕ
   GFED
    x 1‚ ÕÕÕW
      2                                         / (x 1 ⊕ x 2 )       0         1
              ‚‚‚
               ÕÕ ‚             ll6     P                        2-й способ
             ÕÕ (         ll−1
                                                                 1
          1/2
                 l6
                  l                   1/2
        ÕÕl3/2l
        Õ
          l
   @ABC
   GFED
    −1                      @ABC
                            GFED
                             −1
                                                                 0
                                                                     0         1
           К. В. Воронцов (www.ccas.ru/voron)      Искусственные нейронные сети
Проблема полноты        Напоминания: линейные алгоритмы
    Метод обратного распространения ошибок       Проблема «исключающего ИЛИ»
                                 Эвристики       Вычислительные возможности нейронных сетей

Любую ли функцию можно представить нейросетью?


  Утверждение
  Любая булева функция представима в виде ДНФ,
  следовательно, и в виде двухслойной сети.

  Решение тринадцатой проблемы Гильберта:
  Теорема (Колмогоров, 1957)
  Любая непрерывная функция n аргументов на единичном кубе
  [0, 1]n представима в виде суперпозиции непрерывных функций
  одного аргумента и операции сложения:
                                               2n+1         n
                     1    2          n
                f (x , x , . . . , x ) =              hk         ϕik (x i ) ,
                                               k=1         i=1

  где hk , ϕik — непрерывные функции, и ϕik не зависят от f .

          К. В. Воронцов (www.ccas.ru/voron)     Искусственные нейронные сети
Проблема полноты      Напоминания: линейные алгоритмы
    Метод обратного распространения ошибок     Проблема «исключающего ИЛИ»
                                 Эвристики     Вычислительные возможности нейронных сетей

Любую ли функцию можно представить нейросетью?

  Теорема (Вейерштрасс)
  Любую непрерывную функцию n переменных можно
  равномерно приблизить полиномом с любой точностью.

  Определение
  Набор функций F называется разделяющим точки
  множества X , если для любых различных x, x ′ ∈ X
  существует функция f ∈ F такая, что f (x) = f (x ′ ).

  Теорема (Стоун, 1948)
  Пусть X — компактное пространство, C (X ) — алгебра
  непрерывных на X вещественных функций, F — кольцо
  в C (X ), содержащее константу (1 ∈ F ) и разделяющее точки
  множества X . Тогда F плотно в C (X ).
          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты      Напоминания: линейные алгоритмы
    Метод обратного распространения ошибок     Проблема «исключающего ИЛИ»
                                 Эвристики     Вычислительные возможности нейронных сетей

Любую ли функцию можно представить нейросетью?


  Определение
  Набор функций F ⊆ C (X ) называется
  замкнутым относительно функции ϕ : R → R,
  если для любого f ∈ F выполнено ϕ(f ) ∈ F .

  Теорема (Горбань, 1998)
  Пусть X — компактное пространство, C (X ) — алгебра
  непрерывных на X вещественных функций, F — линейное
  подпространство в C (X ), замкнутое относительно нелинейной
  непрерывной функции ϕ, содержащее константу (1 ∈ F )
  и разделяющее точки множества X . Тогда F плотно в C (X ).




          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты      Напоминания: линейные алгоритмы
    Метод обратного распространения ошибок     Проблема «исключающего ИЛИ»
                                 Эвристики     Вычислительные возможности нейронных сетей

Любую ли функцию можно представить нейросетью?

  Выводы:
      С помощью линейных операций и одной нелинейной
      функции активации ϕ можно вычислять любую
      непрерывную функцию с любой желаемой точностью.
      Однако эти теоремы ничего не говорят о числе слоёв
      нейронной сети и о числе нейронов в каждом слое.
  Практические рекомендации:
      Двух-трёх слоёв обычно достаточно.
      Можно достраивать нейроны в произвольных местах сети
      по необходимости, вообще не заботясь о числе слоёв.




          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты           Многослойная нейронная сеть
     Метод обратного распространения ошибок          Быстрое вычисление градиента
                                  Эвристики          Алгоритм BackProp

Многослойная нейронная сеть

  Пусть для общности Y = RM , для простоты слоёв только два.
  входной слой,                   скрытый слой,                             выходной слой,
   n признаков                     H нейронов                                M нейронов

    @ABC
    GFED‚ w11
      x 1 i‚                        /          σ1 ‚‚ w11                    /         σ1   / a1
                                l5                i                    l5
            ii 1h ‚‚
              w
                     ‚‚‚ ll  llly F              ii 1m ‚‚
                                                    w
                                                           ‚‚‚ l    lll y F
      . . . w1Hii lllll yyy . . .
                         ‚                          w1Mii llllll yyyy . . .
                                                               ‚‚‚
              wj1
                    ii ‚‚‚‚
                  lll i yyyy‚‚‚                         ll ii yy‚‚‚‚‚
                                                         i         y
                                                    wh1
     ?= ll wjh
     89:; ‚             iiy       )              llw
                                                  l          iiy          )
       xj ‚             yyi           /       σh ‚‚ hm         y
                                                              yi              /       σm   / am
              wjH ‚‚  yy iiillll5 A
                     y ‚ lli                        whM ‚‚y yy iiillll5 A
                   y‚ ‚
      . . . wn1 y llll‚ iii . . .
                         ‚‚                             yy ‚‚llllliii . . .
                                                              ‚‚‚
                y                                   w y
             ywnh lll
              y             ‚‚‚ i                  yH1llll ‚‚‚‚‚i   i
            y
           yl
           lw                  ‚‚)               yywHm
                                                 ll                    ‚)
     89:;
     ?= nH
      xn                                /     σH wHM                            /     σM   / aM
                                          :                                       :
               w01                                     w01
               w0h                                     w0m
              w0H                                     w0M
    @ABC
    GFED
     −1                                       @ABC
                                              GFED
                                               −1


             К. В. Воронцов (www.ccas.ru/voron)      Искусственные нейронные сети
Проблема полноты       Многослойная нейронная сеть
    Метод обратного распространения ошибок      Быстрое вычисление градиента
                                 Эвристики      Алгоритм BackProp

Напоминание: Алгоритм SG (Stochastic Gradient)

  Задача минимизации суммарных потерь:
                                     ℓ
                      Q(w ) :=            L (w , xi , yi ) → min .
                                                               w
                                    i=1

  Вход: выборка X ℓ ; темп обучения η; параметр λ;
  Выход: веса w ≡ wjh , whm ∈ RH(n+M+1)+M ;
   1: инициализировать веса w и текущую оценку Q(w );
   2: повторять
   3:   выбрать объект xi из X ℓ (например, случайно);
   4:   вычислить потерю Li := L (w , xi , yi );
   5:   градиентный шаг: w := w − η∇L (w , xi , yi );
   6:   оценить значение функционала: Q := (1 − λ)Q + λLi ;
   7: пока значение Q и/или веса w не стабилизируются;



          К. В. Воронцов (www.ccas.ru/voron)    Искусственные нейронные сети
Проблема полноты        Многослойная нейронная сеть
    Метод обратного распространения ошибок       Быстрое вычисление градиента
                                 Эвристики       Алгоритм BackProp

Задача дифференцирования суперпозиции функций

  Выходные значения сети am (xi ), m = 1..M на объекте xi :

                      H                                                J
    m                             h                  h
   a (xi ) = σm            whm u (xi ) ;           u (xi ) = σh             wjh fj (xi ) .
                     h=0                                              j=0

  Пусть для конкретности Li (w ) — средний квадрат ошибки:
                                          M
                                      1                          2
                       Li (w ) =                am (xi ) − yim .
                                      2
                                          m=1

  Промежуточная задача: найти частные производные

                              ∂Li (w )            ∂Li (w )
                                       ;                   .
                               ∂am                 ∂u h


          К. В. Воронцов (www.ccas.ru/voron)     Искусственные нейронные сети
Проблема полноты            Многослойная нейронная сеть
    Метод обратного распространения ошибок           Быстрое вычисление градиента
                                 Эвристики           Алгоритм BackProp

Быстрое вычисление градиента

  Промежуточная задача: частные производные
                  ∂Li (w )
                           = am (xi ) − yim = εim
                    ∂am
  — это ошибка на выходном слое;
                           M                                     M
            ∂Li (w )              m
                     =          a (xi ) −    yim     ′
                                                    σm whm   =         εm σm whm = εh
                                                                        i
                                                                           ′
                                                                                    i
             ∂u h
                         m=1                                     m=1
  — назовём это ошибкой на выходном слое. Похоже, что εh i
  вычисляется по εm , если запустить сеть «задом наперёд»:
                  i
                                        ε1 σ ′
                               w
                                    jjj i 1
                          jjjj h1
                          t
   εh   o                j„„„„            ...
    i
                               whM „ „
                                    „
                                         εM σ M
                                          i
                                              ′


               К. В. Воронцов (www.ccas.ru/voron)    Искусственные нейронные сети
Проблема полноты          Многослойная нейронная сеть
    Метод обратного распространения ошибок         Быстрое вычисление градиента
                                 Эвристики         Алгоритм BackProp

Быстрое вычисление градиента

  Теперь, имея частные производные Li (w ) по am и u h ,
  легко выписать градиент Li (w ) по весам w :

  ∂Li (w )   ∂Li (w ) ∂am
           =                = εm σm u h (xi ), m = 1..M, h = 0..H;
                                i
                                    ′
   ∂whm       ∂am ∂whm
  ∂Li (w )   ∂Li (w ) ∂u h
           =               = εh σh fj (xi ), h = 1..H, j = 0..n;
                              i
                                  ′
   ∂wjh       ∂u h ∂wjh

  Алгоритм обратного распространения ошибки BackProp:

  Вход: X ℓ = (xi , yi )ℓ ⊂ Rn × RM ; параметры H, λ, η;
                        i=1
  Выход: синаптические веса wjh , whm ;
   1:   ...


              К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты       Многослойная нейронная сеть
    Метод обратного распространения ошибок      Быстрое вычисление градиента
                                 Эвристики      Алгоритм BackProp

Алгоритм BackProp

   1:   инициализировать веса wjh , whm ;
   2:   повторять
   3:     выбрать объект xi из X ℓ (например, случайно);
   4:     прямой ход:
                      J          j
          uih := σh   j=0 wjh xi , h = 1..H;
                       H
          aim := σm                 h     m     m     m
                       h=0 whm ui , εi := ai − yi , m = 1..M;
          Li := M (εm )2 ;
                    m=1 i
   5:     обратный ход:
          εh := M εm σm whm , h = 1..H;
           i       m=1 i
                           ′

   6:     градиентный шаг:
          whm := whm − ηεm σm uih , h = 0..H, m = 1..M;
                            i
                                 ′
                         h σ ′ x j , j = 0..n, h = 1..H;
          wjh := wjh − ηεi h i
   7:     Q := (1 − λ)Q + λLi ;
   8:   пока Q не стабилизируется;

           К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты      Многослойная нейронная сеть
    Метод обратного распространения ошибок     Быстрое вычисление градиента
                                 Эвристики     Алгоритм BackProp

Алгоритм BackProp: преимущества и недостатки

  Преимущества:
      эффективность: градиент вычисляется за время,
      сравнимое со временем вычисления самой сети;
      метод легко обобщается на любые σ, L ;
      возможно динамическое (потоковое) обучение;
      на сверхбольших выборках не обязательно брать все xi ;
      возможность распараллеливания;

  Недостатки — все те же, свойственные SG:
      возможна медленная сходимость;
      застревание в локальных минимумах;
      проблема переобучения;
      подбор комплекса эвристик является искусством;

          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты      Стандартные эвристики и ускорение сходимости
    Метод обратного распространения ошибок     Диагональный метод Левенберга-Марквардта
                                 Эвристики     Наращивание и прореживание сети

Стандартные эвристики для метода SG

  Применимы все те же эвристики, что и в обычном SG:
      инициализация весов;
      порядок предъявления объектов;
      оптимизация величины градиентного шага;
      регуляризация (сокращение весов);

  Кроме того, появляются новые проблемы:
      выбор функций активации в каждом нейроне;
      выбор числа слоёв и числа нейронов;
      выбор значимых связей;




          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты      Стандартные эвристики и ускорение сходимости
    Метод обратного распространения ошибок     Диагональный метод Левенберга-Марквардта
                                 Эвристики     Наращивание и прореживание сети

Ускорение сходимости

  1. Более тщательный подбор начального приближения.
  Нейроны настраиваются как отдельные линейные алгоритмы
      либо по случайной подвыборке X ′ ⊆ X ℓ ;
      либо по случайному подмножеству входов;
      либо из различных случайных начальных приближений;
  тем самым обеспечивается различность нейронов.
  2. Выбивание из локальных минимумов (jogging of weights).
  3. Адаптивный градиентный шаг (метод скорейшего спуска).
  4. Метод сопряжённых градиентов и chunking — разбиение
                        ℓ
  суммы Q(w ) =             Li (w ) на блоки (chunks).
                      i=1



          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты       Стандартные эвристики и ускорение сходимости
    Метод обратного распространения ошибок      Диагональный метод Левенберга-Марквардта
                                 Эвристики      Наращивание и прореживание сети

Диагональный метод Левенберга-Марквардта

  Метод Ньютона-Рафсона (второго порядка):
                            w := w − η∇L (w )H(w ),
                    ∂ 2 Q(w )                                                         2
  где H(w ) =      ∂wjh ∂wj ′ h′   — гессиан, размера H(n+M+1)+M .
  Эвристика. Считаем, что гессиан диагонален:
                                    η
                      ηjh = ∂ 2 L (w )
                                 i
                               ∂w 2
                                       + µ,
                                               jh
  η — темп обучения,
  µ — параметр, предотвращающий обнуление знаменателя.
  Шаг η вычисляется индивидуально для каждого веса.
  Отношение η/µ есть темп обучения на ровных участках
  функционала Li (w ), где вторая производная обнуляется.

          К. В. Воронцов (www.ccas.ru/voron)    Искусственные нейронные сети
Проблема полноты      Стандартные эвристики и ускорение сходимости
    Метод обратного распространения ошибок     Диагональный метод Левенберга-Марквардта
                                 Эвристики     Наращивание и прореживание сети

Динамическое наращивание сети

    1   обучение при заведомо недостаточном числе нейронов H;
    2   после стабилизации Q(w ) — добавление нового нейрона
        и его инициализация путём обучения
             либо   по случайной подвыборке X ′ ⊆ X ℓ ;
             либо   по объектам с наибольшими значениями потерь;
             либо   по случайному подмножеству входов;
             либо   из различных случайных начальных приближений;
    3   снова итерации BackProp;

  Эмпирический опыт: Общее время обучения обычно лишь
  в 1.5–2 раза больше, чем если бы в сети сразу было нужное
  количество нейронов. Полезная информация, накопленная
  сетью, не теряется при добавлении новых нейронов.



          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети
Проблема полноты            Стандартные эвристики и ускорение сходимости
    Метод обратного распространения ошибок           Диагональный метод Левенберга-Марквардта
                                 Эвристики           Наращивание и прореживание сети

Прореживание сети (OBD — Optimal Brain Damage)

  Пусть w — локальный минимум Q(w ), тогда
  Q(w ) можно аппроксимировать квадратичной формой:
                Q(w + δ) = Q(w ) + 1 δ т H(w )δ + o( δ 2 ),
                                   2
                    ∂ 2 Q(w )                                                              2
  где H(w ) =      ∂wjh ∂wj ′ h′       — гессиан, размера H(n+M+1)+M .

  Эвристика. Пусть гессиан H(w ) диагонален, тогда
                           n       H          2 Q(w )       H    M
         т                              2 ∂                            2    ∂ 2 Q(w )
        δ H(w )δ =                     δjh       2
                                                        +             δhm        2
                                                                                      .
                                              ∂wjh                           ∂whm
                         j=0 h=1                            h=0 m=0

  Хотим обнулить вес: wjh + δjh = 0. Как изменится Q(w )?
  Определение. Значимость (salience) веса wjh — это изменение
                                                                            2
  функционала Q(w ) при его обнулении: Sjh = wjh ∂ ∂w 2 ) .
                                               2 Q(w
                                                                                jh



          К. В. Воронцов (www.ccas.ru/voron)         Искусственные нейронные сети
Проблема полноты      Стандартные эвристики и ускорение сходимости
    Метод обратного распространения ошибок     Диагональный метод Левенберга-Марквардта
                                 Эвристики     Наращивание и прореживание сети

Прореживание сети (OBD — Optimal Brain Damage)

                                                                     ∂2Q    ∂2Q
    1   В BackProp вычислять вторые производные                         2 ,
                                                                     ∂wjh ∂whm2 .

    2   Если процесс минимизации Q(w ) пришёл в минимум,то
             упорядочить все веса по убыванию Sjh ;
             удалить N связей с наименьшей значимостью;
             снова запустить BackProp.
    3   Если Q(w , X ℓ ) или Q(w , X k ) существенно ухудшился,
        то вернуть последние удалённые связи и выйти.

  Отбор признаков с помощью OBD — аналогично.
                                                        H
  Суммарная значимость признака: Sj =                       Sjh .
                                                      h=1
  Эмпирический опыт: результат постепенного прореживания
  обычно лучше, чем BackProp изначально прореженной сети.


          К. В. Воронцов (www.ccas.ru/voron)   Искусственные нейронные сети

More Related Content

What's hot

Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрированияTheoretical mechanics department
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахromovpa
 
математика на вступительных экзаменах в мгу в 2010г(газета математика)
математика на  вступительных экзаменах в мгу в 2010г(газета математика)математика на  вступительных экзаменах в мгу в 2010г(газета математика)
математика на вступительных экзаменах в мгу в 2010г(газета математика)eekdiary
 
Численное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераЧисленное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераTheoretical mechanics department
 
20110409 quantum algorithms_vyali_lecture07
20110409 quantum algorithms_vyali_lecture0720110409 quantum algorithms_vyali_lecture07
20110409 quantum algorithms_vyali_lecture07Computer Science Club
 
Итерационные методы решения СЛАУ
Итерационные методы решения СЛАУИтерационные методы решения СЛАУ
Итерационные методы решения СЛАУTheoretical mechanics department
 
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...Theoretical mechanics department
 
Мезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReduceМезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReducePavel Mezentsev
 
Метод проекции градиента для решения стационарной системы Стокса как задачи ...
Метод проекции градиента для решения стационарной системы Стокса  как задачи ...Метод проекции градиента для решения стационарной системы Стокса  как задачи ...
Метод проекции градиента для решения стационарной системы Стокса как задачи ...iST1
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02Computer Science Club
 
Решение задач на собственные значения
Решение задач на собственные значенияРешение задач на собственные значения
Решение задач на собственные значенияTheoretical mechanics department
 
Многочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийМногочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийTheoretical mechanics department
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
 
20110409 quantum algorithms_vyali_lecture06
20110409 quantum algorithms_vyali_lecture0620110409 quantum algorithms_vyali_lecture06
20110409 quantum algorithms_vyali_lecture06Computer Science Club
 
20110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture0320110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture03Computer Science Club
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Technosphere1
 

What's hot (20)

Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрирования
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
Сплайн интерполяция
Сплайн интерполяцияСплайн интерполяция
Сплайн интерполяция
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системах
 
математика на вступительных экзаменах в мгу в 2010г(газета математика)
математика на  вступительных экзаменах в мгу в 2010г(газета математика)математика на  вступительных экзаменах в мгу в 2010г(газета математика)
математика на вступительных экзаменах в мгу в 2010г(газета математика)
 
Численное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераЧисленное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод Эйлера
 
Integral1
Integral1Integral1
Integral1
 
20110409 quantum algorithms_vyali_lecture07
20110409 quantum algorithms_vyali_lecture0720110409 quantum algorithms_vyali_lecture07
20110409 quantum algorithms_vyali_lecture07
 
Итерационные методы решения СЛАУ
Итерационные методы решения СЛАУИтерационные методы решения СЛАУ
Итерационные методы решения СЛАУ
 
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
 
Мезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReduceМезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReduce
 
Метод проекции градиента для решения стационарной системы Стокса как задачи ...
Метод проекции градиента для решения стационарной системы Стокса  как задачи ...Метод проекции градиента для решения стационарной системы Стокса  как задачи ...
Метод проекции градиента для решения стационарной системы Стокса как задачи ...
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
 
Решение задач на собственные значения
Решение задач на собственные значенияРешение задач на собственные значения
Решение задач на собственные значения
 
Многочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийМногочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближений
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
20110409 quantum algorithms_vyali_lecture06
20110409 quantum algorithms_vyali_lecture0620110409 quantum algorithms_vyali_lecture06
20110409 quantum algorithms_vyali_lecture06
 
Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
 
20110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture0320110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture03
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 

Similar to К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"

Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Nikolay Grebenshikov
 
интерполяционный многочлен лагранжа
интерполяционный многочлен лагранжаинтерполяционный многочлен лагранжа
интерполяционный многочлен лагранжаVladimir Kukharenko
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03Computer Science Club
 
20081116 structuralcomplexitytheory lecture09-10
20081116 structuralcomplexitytheory lecture09-1020081116 structuralcomplexitytheory lecture09-10
20081116 structuralcomplexitytheory lecture09-10Computer Science Club
 
Линейная алгебра - II
Линейная алгебра - IIЛинейная алгебра - II
Линейная алгебра - IIDEVTYPE
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторовTechnosphere1
 
Лекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрияЛекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрияsimple_people
 
предел последовательности
предел последовательностипредел последовательности
предел последовательностиtomik1044
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
11.2 курс лекций афу
11.2 курс лекций афу11.2 курс лекций афу
11.2 курс лекций афуGKarina707
 
CV2011 Lecture 6. Fitting
CV2011 Lecture 6. FittingCV2011 Lecture 6. Fitting
CV2011 Lecture 6. FittingAnton Konushin
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Technosphere1
 
Конкурс презентаций - Малашенко
Конкурс презентаций - МалашенкоКонкурс презентаций - Малашенко
Конкурс презентаций - Малашенкоgalkina
 
Fractal Geometry
Fractal GeometryFractal Geometry
Fractal GeometrySSA KPI
 
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"Nikolay Grebenshikov
 

Similar to К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети" (20)

Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
 
презентация к уроку2
презентация к уроку2презентация к уроку2
презентация к уроку2
 
интерполяционный многочлен лагранжа
интерполяционный многочлен лагранжаинтерполяционный многочлен лагранжа
интерполяционный многочлен лагранжа
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03
 
20081116 structuralcomplexitytheory lecture09-10
20081116 structuralcomplexitytheory lecture09-1020081116 structuralcomplexitytheory lecture09-10
20081116 structuralcomplexitytheory lecture09-10
 
Линейная алгебра - II
Линейная алгебра - IIЛинейная алгебра - II
Линейная алгебра - II
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
Лекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрияЛекция 16 Вычислительная геометрия
Лекция 16 Вычислительная геометрия
 
предел последовательности
предел последовательностипредел последовательности
предел последовательности
 
4
44
4
 
Lection01
Lection01Lection01
Lection01
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
11.2 курс лекций афу
11.2 курс лекций афу11.2 курс лекций афу
11.2 курс лекций афу
 
CV2011 Lecture 6. Fitting
CV2011 Lecture 6. FittingCV2011 Lecture 6. Fitting
CV2011 Lecture 6. Fitting
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
2 prohds
2 prohds2 prohds
2 prohds
 
Конкурс презентаций - Малашенко
Конкурс презентаций - МалашенкоКонкурс презентаций - Малашенко
Конкурс презентаций - Малашенко
 
Fractal Geometry
Fractal GeometryFractal Geometry
Fractal Geometry
 
Funkciya y cos_ee_svojstva_i_grafik
Funkciya y cos_ee_svojstva_i_grafikFunkciya y cos_ee_svojstva_i_grafik
Funkciya y cos_ee_svojstva_i_grafik
 
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
 

More from Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

More from Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"

  • 1. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессия Регрессия К. В. Воронцов vokov@forecsys.ru http://www.ccas.ru/voron 14 апреля 2010 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 2. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессия Метод наименьших квадратов X — объекты (часто Rn ); Y — ответы (часто R, реже Rm ); X ℓ = (xi , yi )i=1 — обучающая выборка; ℓ yi = y (xi ), y : X → Y — неизвестная зависимость; a(x) = f (x, α) — модель зависимости, α ∈ Rp — вектор параметров модели. Метод наименьших квадратов (МНК): ℓ ℓ 2 Q(α, X ) = wi f (xi , α) − yi → min, α i=1 где wi — вес, степень важности i-го объекта. Q(α∗ , X ℓ ) — остаточная сумма квадратов (residual sum of squares, RSS). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 3. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессия Метод максимума правдоподобия Модель данных с некоррелированным гауссовским шумом: y (xi ) = f (xi , α) + εi , εi ∼ N (0, σi2 ), i = 1, . . . , ℓ. Метод максимума правдоподобия (ММП): ℓ 1 1 2 L(ε1 , . . . , εℓ |α) = √ exp − ε → max; σi 2π 2σi2 i α i=1 ℓ 1 1 2 − ln L(ε1 , . . . , εℓ |α) = const(α) + f (xi , α) − yi → min; 2 σi2 α i=1 Теорема Решения МНК и ММП, совпадают, причём веса объектов обратно пропорциональны дисперсии шума, wi = σi−2 . К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 4. Непараметрическая регрессия Многомерная линейная регрессия Метод главных компонент Нелинейная регрессия Содержание 1 Непараметрическая регрессия Формула Надарая–Ватсона Выбор ядра K и ширины окна h Отсев выбросов 2 Многомерная линейная регрессия Решение задачи наименьших квадратов Сингулярное разложение Регуляризация (гребневая регрессия) Лассо Тибширани 3 Метод главных компонент Постановка задачи Основная теорема Решение задачи наименьших квадратов 4 Нелинейная регрессия Нелинейная модель регрессии Логистическая регрессия Нелинейные преобразования признаков К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 5. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессия Формула Надарая–Ватсона Приближение константой a(x) = α в окрестности x ∈ X : ℓ 2 Q(α; X ℓ ) = wi (x) α − yi → min; α∈R i=1 где wi (x) = K ρ(x,xi ) — веса объектов xi относительно x; h K (r ) — ядро, невозрастающее, ограниченное, гладкое; h — ширина окна сглаживания. Формула ядерного сглаживания Надарая–Ватсона: ℓ ℓ ρ(x,xi ) yi wi (x) yi K h i=1 i=1 ah (x; X ℓ ) = ℓ = ℓ . ρ(x,xi ) wi (x) K h i=1 i=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 6. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессия Обоснование формулы Надарая–Ватсона Теорема Пусть выполнены следующие условия: 1) выборка X ℓ = (xi , yi )ℓ простая, из распределения p(x, y ); i=1 ∞ 2) ядро K (r ) ограничено: 0 K (r ) dr < ∞, lim rK (r ) = 0; r →∞ 3) зависимость E(y |x) не имеет вертикальных асимптот: E(y 2 |x) = Y y 2 p(y |x) dy < ∞ при любом x ∈ X ; 4) последовательность hℓ убывает, но не слишком быстро: lim hℓ = 0, lim ℓhℓ = ∞. ℓ→∞ ℓ→∞ Тогда имеет место сходимость по вероятности: P ahℓ (x; X ℓ ) → E(y |x) в любой точке x ∈ X , в которой E(y |x), p(x) и D(y |x) непрерывны и p(x) > 0. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 7. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессия Ядро K (r ) — существенно влияет на гладкость функции ah (x), — слабо влияет на качество аппроксимации. Ширина окна h — существенно влияет на качество аппроксимации. При неравномерной сетке {xi } — переменная ширина окна: ρ(x, xi ) wi (x) = K , h(x) где h(x) = ρ(x, x (k+1) ), x (k+1) — k-й сосед объекта x. Оптимизация ширины окна по скользящему контролю: ℓ 2 LOO(h, X ℓ ) = ah xi ; X ℓ {xi } − yi → min . h i=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 8. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессия Локально взвешенное сглаживание (LOWESS — LOcally WEighted Scatter plot Smoothing) Основная идея: чем больше величина ошибки εi = ah xi ; X ℓ {xi } − yi , тем в большей степени прецедент (xi , yi ) является выбросом, и тем меньше должен быть его вес wi (x). Эвристика: ˜ домножить веса wi (x) на коэффициенты γi = K (εi ), ˜ где K — ещё одно ядро, вообще говоря, отличное от K (r ). Рекомендация: ˜ ε квартическое ядро K (ε) = KQ 6 med{εi } , где med{εi } — медиана вариационного ряда ошибок. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 9. Непараметрическая регрессия Формула Надарая–Ватсона Многомерная линейная регрессия Выбор ядра K и ширины окна h Метод главных компонент Отсев выбросов Нелинейная регрессия Алгоритм LOWESS Вход: X ℓ — обучающая выборка; Выход: коэффициенты γi , i = 1, . . . , ℓ; 1: инициализация: γi := 1, i = 1, . . . , ℓ; 2: повторять 3: для всех объектов i = 1, . . . , ℓ 4: вычислить оценки скользящего контроля: ℓ ρ(xi ,xj ) y j γj K h(xi ) j=1, j=i ai := ah xi ; X ℓ {xi } = ℓ ; ρ(xi ,xj ) γj K h(xi ) j=1, j=i 5: для всех объектов i = 1, . . . , ℓ 6: ˜ γi := K |ai − yi | ; 7: пока коэффициенты γi не стабилизируются; К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 10. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Многомерная линейная регрессия f1 (x), . . . , fn (x) — числовые признаки; Модель многомерной линейной регрессии: n f (x, α) = αj fj (x), α ∈ Rn . j=1 Матричные обозначения:       f1 (x1 ) . . . fn (x1 ) y1 α1 F =  ... ... ... , y = . . . , α = . . . . ℓ×n ℓ×1 n×1 f1 (xℓ ) . . . fn (xℓ ) yℓ αn Функционал квадрата ошибки: ℓ 2 2 Q(α, X ℓ ) = f (xi , α) − yi = Fα − y → min . α i=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 11. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Нормальная система уравнений Необходимое условие минимума в матричном виде: ∂Q (α) = 2F т (F α − y ) = 0, ∂α откуда следует нормальная система задачи МНК: F тF α = F тy , где F т F — ковариационная матрица набора признаков f1 , . . . , fn . n×n Решение системы: α∗ = (F т F )−1 F т y = F + y . Значение функционала: Q(α∗ ) = PF y − y 2 , где PF = FF + = F (F т F )−1 F т — проекционная матрица. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 12. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Сингулярное разложение Произвольная ℓ×n-матрица представима в виде сингулярного разложения (singular value decomposition, SVD): F = VDU т . Основные свойства сингулярного разложения: 1 ℓ×n-матрица V = (v1 , . . . , vn ) ортогональна, V т V = In , столбцы vj — собственные векторы матрицы FF т ; 2 n×n-матрица U = (u1 , . . . , un ) ортогональна, U т U = In , столбцы uj — собственные векторы матрицы F т F ; √ √ 3 n×n-матрица D диагональна, D = diag λ1 , . . . , λn , λj 0 — собственные значения матриц F т F и FF т . К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 13. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Решение МНК через сингулярное разложение Псевдообратная F + , вектор МНК-решения α∗ , МНК-аппроксимация целевого вектора F α∗ : n 1 F + = (UDV т VDU т )−1 UDV т = UD −1 V т = uj vjт ; j=1 λj n 1 α∗ = F + y = UD −1 V т y = uj (vjт y ); j=1 λj n F α∗ = PF y = (VDU т )UD −1 V т y = VV т y = vj (vjт y ); j=1 n 1 т 2 α∗ 2 = D −1 V т y 2 = (v y ) . λj j j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 14. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Проблема мультиколлинеарности Если имеются λj → 0, то МНК-решение α∗ неустойчиво и неинтерпретируемо: α → ∞; ответы на новых объектах y ′ = F ′ α∗ неустойчивы; в то время как на обучении, казалось бы, «всё хорошо»: Q(α∗ ) = F α∗ − y 2 → 0; мультиколлинеарность влечёт переобучение. Три стратегии устранения мультиколлинеарности: Регуляризация: α → min; Преобразование признаков: f1 , . . . , fn → g1 , . . . , gm , m ≪ n; Отбор признаков: f1 , . . . , fn → fj1 , . . . , fjm , m ≪ n. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 15. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Штраф за увеличение нормы вектора весов α : 2 Qτ (α) = F α − y + 1 2σ α 2, 1 где τ = σ — неотрицательный параметр регуляризации. Вероятностная интерпретация: априорное распределение вектора α — гауссовское с ковариационной матрицей σIn . Модифицированное МНК-решение (τ In — «гребень»): ατ = (F т F + τ In )−1 F т y . ∗ Преимущество сингулярного разложения: можно подбирать параметр τ , вычислив SVD только один раз. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 16. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Регуляризованный МНК через сингулярное разложение Вектор регуляризованного МНК-решения ατ∗ ∗ и МНК-аппроксимация целевого вектора F ατ : n λj ατ = U(D 2 + τ In )−1 DV т y = ∗ uj (vjт y ); λj + τ j=1 n ∗ ∗ λj λj F ατ = VDU т ατ = V diag V тy = vj (vjт y ); λj + τ λj + τ j=1 n ∗ 2 1 ατ = D 2 (D 2 + τ In )−1 D −1 V т y 2 = (v т y )2 . λj + τ j j=1 F ατ = F α∗ , но зато решение становится гораздо устойчивее. ∗ К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 17. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Выбор параметра регуляризации τ Контрольная выборка: X k = (xi′ , yi′ )k ; i=1  ′ ′   ′  f1 (x1 ) . . . fn (x1 ) y1 F′ =  ... ... ... , y ′ = . . . . k×n ′ ) . . . f (x ′ ) k×1 ′ f1 (xk n k yk Вычисление функционала Q на контрольных данных T раз потребует O(kn2 + knT ) операций: √ 2 λj Q(ατ , X k ) = F ′ ατ − y ′ ∗ ∗ 2 = F ′ U diag λj +τ V т y −y ′ . k×n n×1 Зависимость Q(τ ) обычно имеет характерный минимум. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 18. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Регуляризация сокращает «эффективную размерность» Сжатие (shrinkage) или сокращение весов (weight decay): n n 1 1 т 2 ατ 2 ∗ = (v т y )2 < α ∗ 2 = (v y ) . λj + τ j λj j j=1 j=1 Почему говорят о сокращении эффективной размерности? Роль размерности играет след проекционной матрицы: tr F (F т F )−1 F т = tr(F т F )−1 F т F = tr In = n. При использовании регуляризации: n т −1 т λj λj tr F (F F + τ In ) F = tr diag = < n. λj + τ λj + τ j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 19. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Лассо Тибширани — другой подход к регуляризации LASSO — Least Absolute Shrinkage and Selection Operator  2  Q(α) = F α − y  → min; α n   |αj | κ; j=1 Лассо приводит к отбору признаков! Почему? После замены переменных + − αj = αj − αj ; + − + − αj 0; αj 0. |αj | = αj + αj ; ограничения принимают канонический вид: n + − + − αj + αj κ; αj 0; αj 0. j=1 + − Чем меньше κ, тем больше j таких, что αj = αj = 0. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 20. Непараметрическая регрессия Решение задачи наименьших квадратов Многомерная линейная регрессия Сингулярное разложение Метод главных компонент Регуляризация (гребневая регрессия) Нелинейная регрессия Лассо Тибширани Сравнение гребневой регрессии и Лассо Зависимость {αj } от σ Зависимость {αj } от κ Задача диагностики рака (prostate cancer, UCI) T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning. Springer, 2001. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 21. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессия Метод главных компонент: постановка задачи f1 (x), . . . , fn (x) — исходные числовые признаки; g1 (x), . . . , gm (x) — новые числовые признаки, m n; Требование: старые признаки должны линейно восстанавливаться по новым: m ˆ fj (x) = gs (x)ujs , j = 1, . . . , n, ∀x ∈ X , s=1 как можно точнее на обучающей выборке x1 , . . . , xℓ : ℓ n ˆ 2 fj (xi ) − fj (xi ) → min {gs (xi )},{ujs } i=1 j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 22. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессия Матричные обозначения Матрицы «объекты–признаки», старая и новая:     f1 (x1 ) . . . fn (x1 ) g1 (x1 ) . . . gm (x1 ) F =  ... ... ... ; G =  ... ... ... . ℓ×n ℓ×m f1 (xℓ ) . . . fn (xℓ ) g1 (xℓ ) . . . gm (xℓ ) Матрица линейного преобразования новых признаков в старые:   u11 . . . u1m хотим U = . . . . . . . . .  ; ˆ F = GU т ≈ F . n×m un1 . . . unm Найти: и новые признаки G , и преобразование U: ℓ n ˆ 2 2 fj (xi ) − fj (xi ) = GU т − F → min, G ,U i=1 j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 23. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессия Основная теорема метода главных компонент Теорема 2 Если m rk F , то минимум GU т − F достигается, когда столбцы U — это с.в. матрицы F т F , соответствующие m максимальным с.з. λ1 , . . . , λm , а матрица G = FU. При этом: 1 матрица U ортонормирована: U т U = Im ; 2 матрица G ортогональна: G т G = Λ = diag(λ1 , . . . , λm ); 3 UΛ = F т FU; G Λ = FF т G ; n 2 2 4 GU т − F = F − tr Λ = λj . j=m+1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 24. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессия Связь с сингулярным разложением Если взять m = n, то: 2 1 GU т − F = 0; 2 ˆ представление F = GU т = F точное и совпадает √ с сингулярным разложением при G = V Λ: √ F = GU т = V ΛU т ; U т U = Im ; V т V = Im . 3 линейное преобразование U работает в обе стороны: F = GU т ; G = FU. Поскольку новые признаки некоррелированы (G т G = Λ), преобразование U называется декоррелирующим (или преобразованием Карунена–Лоэва). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 25. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессия Эффективная размерность выборки Упорядочим с.з. F т F по убыванию: λ1 ... λn 0. Эффективная размерность выборки — это наименьшее целое m, при котором GU т − F 2 λm+1 + · · · + λn Em = = ε. F 2 λ1 + · · · + λn Критерий «крутого склона»: находим m: Em−1 ≫ Em : 0.4 0.3 0.2 0.1 0 -0.1 m-1 m m+1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 λ К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 26. Непараметрическая регрессия Постановка задачи Многомерная линейная регрессия Основная теорема Метод главных компонент Решение задачи наименьших квадратов Нелинейная регрессия Решение задачи НК в новых признаках Заменим F на её приближение GU т : 2 2 G U т α −y = Gβ − y → min . β β Связь нового и старого вектора коэффициентов: α = Uβ; β = U т α. Решение задачи наименьших квадратов относительно β (единственное отличие — m слагаемых вместо n): m 1 β ∗ = D −1 V т y = uj (vjт y ); j=1 λj m G β ∗ = VV т y = vj (vjт y ); j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 27. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Нелинейная модель регрессии Нелинейная модель регрессии f (x, α), α ∈ Rp . Функционал среднеквадратичного отклонения: ℓ ℓ 2 Q(α, X ) = f (xi , α) − yi → min . α i=1 Метод Ньютона–Рафсона. 1. Начальное приближение α0 = (α1 , . . . , αp ). 0 0 2. Итерационный процесс −1 αt+1 := αt − ηt Q ′′ (αt ) Q ′ (αt ), Q ′ (αt ) — градиент функционала Q в точке αt , Q ′′ (αt ) — гессиан функционала Q в точке αt , ηt — величина шага (можно полагать ηt = 1). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 28. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Метод Ньютона-Рафсона Компоненты градиента: ℓ ∂Q(α) ∂f (xi , α) =2 f (xi , α) − yi . ∂αj ∂αj i=1 Компоненты гессиана: ℓ ℓ ∂ 2 Q(α) ∂f (xi , α) ∂f (xi , α) ∂ 2 f (xi , α) =2 −2 f (xi , α) − yi . ∂αj ∂αk ∂αj ∂αk ∂αj ∂αk i=1 i=1 при линеаризации полагается = 0 Не хотелось бы обращать гессиан на каждой итерации... Линеаризация f (xi , α) в окрестности текущего αt : p ∂f (xi , αj ) f (xi , α) = f (xi , αt ) + t αj − αj . ∂αj j=1 К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 29. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Метод Ньютона-Гаусса Матричные обозначения: ∂f j=1,p Ft = ∂αj (xi , αt ) i=1,ℓ — ℓ×p-матрица первых производных; ft = f (xi , αt ) i=1,ℓ — вектор значений f . Формула t-й итерации метода Ньютона–Гаусса: αt+1 := αt − ht (Ftт Ft )−1 Ftт (f t − y ) . β β — это решение задачи многомерной линейной регрессии 2 Ft β − (f t − y ) → min . β Нелинейная регрессия сведена к серии линейных регрессий. Скорость сходимости — как и у метода Ньютона–Рафсона, но для вычислений можно применять стандартные методы. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 30. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Логистическая регрессия (напоминание) Y = {−1, +1} — два класса, xi , w ∈ Rn . Функционал аппроксимированного эмпирического риска: ℓ Q(w ) = − log σ w т xi yi → min, i=1 w где σ(z) = (1 + e −z )−1 — сигмоидная функция. Логарифмическая функция потерь L (Mi ) = log 1 + e −Mi 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi = w т xi yi К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 31. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Метода Ньютона-Рафсона Метода Ньютона-Рафсона для минимизации функционала Q(w ): −1 w t+1 := w t − ht Q ′′ (w t ) Q ′ (w t ), Элементы градиента — вектора первых производных Q ′ (w t ): ∂Q(w ) ℓ = − (1 − σi )yi fj (xi ), j = 1, . . . , n. ∂wj i=1 Элементы гессиана — матрицы вторых производных Q ′′ (w t ): ∂ 2 Q(w ) ℓ = (1 − σi )σi fj (xi )fk (xi ), j, k = 1, . . . , n, ∂wj ∂wk i=1 где σi = σ(yi w т xi ). К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 32. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Матричные обозначения Fℓ×n = fj (xi ) — матрица «объекты–признаки»; Γℓ×ℓ = diag (1 − σi )σi — диагональная матрица; ˜ F = ΓF — взвешенная матрица «объекты–признаки»; yi = yi (1 − σi )/σi , y = (˜i )ℓ — взвешенный вектор ответов. ˜ ˜ y i=1 Тогда в методе Ньютона-Рафсона: −1 ˜ ˜ ˜ ˜ ˜ ˜ Q ′′ (w ) Q ′ (w ) = −(F т Γ2 F )−1 F т Γ˜ = −(F т F )−1 F т y = −F + y . y Это совпадает с МНК-решением линейной задачи регрессии со взвешенными объектами и модифицированными ответами: ℓ ˜ 2 2 Q(w ) = F w −˜ y = (1 − σi )σi w т x−yi (1 − σi )/σi → min . w i=1 γi ˜ yi К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 33. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Интерпретация На каждом шаге метода Ньютона-Рафсона решается задача многомерной линейной регрессии: ℓ 2 Q(w ) = (1 − σi )σi w т x − yi (1 − σi )/σi → min . w i=1 γi ˜ yi Интерпретация: σi — вероятность правильного ответа на объекте xi ; чем ближе xi к границе, тем больше вес γi ; чем выше вероятность ошибки, тем больше yi . ˜ ВЫВОД: на каждой итерации происходит более точная настройка на «наиболее трудных» объектах. К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 34. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия МНК с итерационным перевзвешиванием объектов IRLS — Iteratively Reweighted Least Squares Вход: F , y — матрица «объекты–признаки» и вектор ответов; Выход: w — вектор коэффициентов линейной комбинации. 1: w := (F т F )−1 F т y — нулевое приближение, обычный МНК; 2: для t := 1, 2, 3, . . . 3: σi = σ(yi w т xi ) для всех i = 1, . . . , ℓ; 4: γi := (1 − σi )σi для всех i = 1, . . . , ℓ; 5: ˜ F := diag(γ1 , . . . , γℓ )F ; 6: yi := yi ˜ (1 − σi )/σi для всех i = 1, . . . , ℓ; 7: выбрать градиентный шаг ht ; 8: ˜ ˜ ˜ ˜ w := w + ht (F т F )−1 F т y ; 9: если {σi } мало изменились то выйти из цикла; К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 35. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Обобщение линейной модели регрессии Пусть ϕj : R → R — некоторые нелинейные преобразования исходных признаков. Модель регрессии: n f (x, α) = ϕj (fj (x)). j=1 В частности, при ϕj (fj (x)) = αj fj (x) это линейная регрессия. ИДЕЯ: будем по очереди уточнять функции ϕj по обучающей ℓ выборке fj (xi ), zi i=1 : ℓ n 2 ℓ Q(ϕj , X ) = ϕj (fj (xi )) − yi − ϕk (fk (xi )) → min . k=1,k=j ϕj i=1 zi =const(ϕj ) К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 36. Непараметрическая регрессия Нелинейная модель регрессии Многомерная линейная регрессия Логистическая регрессия Метод главных компонент Нелинейные преобразования признаков Нелинейная регрессия Метод backfitting [Хасти, Тибширани, 1986] Вход: F , y — матрица «объекты–признаки» и вектор ответов; Выход: ϕj (x) — все функции преобразования признаков. 1: нулевое приближение: α := решение задачи МЛР с признаками fj (x); ϕj (x) := αj fj (x), j = 1, . . . , n; 2: повторять 3: для j = 1, . . . , n n 4: zi := yi − ϕk (fk (xi )), i = 1, . . . , ℓ; k=1,k=j ℓ 2 5: ϕj := arg min ϕ(fj (x)) − zi ; ϕ i=1 ℓ 2 6: Qj := ϕj (fj (x)) − zi ; i=1 7: пока значения Qj не стабилизируются К. В. Воронцов (www.ccas.ru/voron) Регрессия
  • 37. Проблема полноты Метод обратного распространения ошибок Эвристики Искусственные нейронные сети К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.MachineLearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» 6 мая 2010 К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 38. Проблема полноты Метод обратного распространения ошибок Эвристики Содержание 1 Проблема полноты Напоминания: линейные алгоритмы Проблема «исключающего ИЛИ» Вычислительные возможности нейронных сетей 2 Метод обратного распространения ошибок Многослойная нейронная сеть Быстрое вычисление градиента Алгоритм BackProp 3 Эвристики Стандартные эвристики и ускорение сходимости Диагональный метод Левенберга-Марквардта Наращивание и прореживание сети К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 39. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Линейные алгоритмы классификации и регрессии fj : X → R, j = 1, . . . , n — числовые признаки; n w , xi = wj fj (x) − w0 — линейная комбинация признаков; j=1 w0 , w1 , . . . , wn ∈ R — веса признаков; Задача классификации: Y = {±1}, a(x, w ) = sign w , xi ; ℓ Q(w ; X ℓ ) = L w , xi yi → min; w i=1 Mi (w ) Задача регрессии: Y = R, a(x, w ) = w , xi ; ℓ 2 Q(w ; X ℓ ) = w , xi − yi → min; w i=1 К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 40. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Нейронная реализация логических функций Функции И, ИЛИ, НЕ от бинарных переменных x 1 и x 2 : x1 ∧ x2 = x1 + x2 − 3 2 >0 ; 1 2 1 x ∨x = x1 + x2 − 2 >0 ; 1 1 ¬x = −x 1 + 2 >0 ; И 1 x 1 vvv @ABC GFED vv 1 vv v& 0 x 2 GFED 1 @ABC / / (x 1 ∨ x 2 ) 0 1 ИЛИ 8 rrr 1/2 1 rr r −1 GFED @ABC 0 0 1 К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 41. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Логическая функция XOR (исключающее ИЛИ) Функция x 1 ⊕ x 2 = [x 1 = x 2 ] не реализуема одним нейроном. Два способа реализации: Добавлением нелинейного признака: x 1 ⊕ x 2 = x 1 + x 2 − 2x 1 x 2 − 1 > 0 ; 2 Сетью (суперпозицией) функций И, ИЛИ, НЕ: x 1 ⊕ x 2 = (x 1 ∨ x 2 ) − (x 1 ∧ x 2 ) − 1 > 0 . 2 1-й способ @ABC GFED‚ x 1 W ‚‚ 1 WW 1‚‚‚‚ W ( 1W WW ll6 ‚‚ lllW B +1‚‚ ( 0 @ABC 1 WWÕ GFED x 1‚ ÕÕÕW 2 / (x 1 ⊕ x 2 ) 0 1 ‚‚‚ ÕÕ ‚ ll6 P 2-й способ ÕÕ ( ll−1 1 1/2 l6 l 1/2 ÕÕl3/2l Õ l @ABC GFED −1 @ABC GFED −1 0 0 1 К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 42. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Любую ли функцию можно представить нейросетью? Утверждение Любая булева функция представима в виде ДНФ, следовательно, и в виде двухслойной сети. Решение тринадцатой проблемы Гильберта: Теорема (Колмогоров, 1957) Любая непрерывная функция n аргументов на единичном кубе [0, 1]n представима в виде суперпозиции непрерывных функций одного аргумента и операции сложения: 2n+1 n 1 2 n f (x , x , . . . , x ) = hk ϕik (x i ) , k=1 i=1 где hk , ϕik — непрерывные функции, и ϕik не зависят от f . К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 43. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Любую ли функцию можно представить нейросетью? Теорема (Вейерштрасс) Любую непрерывную функцию n переменных можно равномерно приблизить полиномом с любой точностью. Определение Набор функций F называется разделяющим точки множества X , если для любых различных x, x ′ ∈ X существует функция f ∈ F такая, что f (x) = f (x ′ ). Теорема (Стоун, 1948) Пусть X — компактное пространство, C (X ) — алгебра непрерывных на X вещественных функций, F — кольцо в C (X ), содержащее константу (1 ∈ F ) и разделяющее точки множества X . Тогда F плотно в C (X ). К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 44. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Любую ли функцию можно представить нейросетью? Определение Набор функций F ⊆ C (X ) называется замкнутым относительно функции ϕ : R → R, если для любого f ∈ F выполнено ϕ(f ) ∈ F . Теорема (Горбань, 1998) Пусть X — компактное пространство, C (X ) — алгебра непрерывных на X вещественных функций, F — линейное подпространство в C (X ), замкнутое относительно нелинейной непрерывной функции ϕ, содержащее константу (1 ∈ F ) и разделяющее точки множества X . Тогда F плотно в C (X ). К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 45. Проблема полноты Напоминания: линейные алгоритмы Метод обратного распространения ошибок Проблема «исключающего ИЛИ» Эвристики Вычислительные возможности нейронных сетей Любую ли функцию можно представить нейросетью? Выводы: С помощью линейных операций и одной нелинейной функции активации ϕ можно вычислять любую непрерывную функцию с любой желаемой точностью. Однако эти теоремы ничего не говорят о числе слоёв нейронной сети и о числе нейронов в каждом слое. Практические рекомендации: Двух-трёх слоёв обычно достаточно. Можно достраивать нейроны в произвольных местах сети по необходимости, вообще не заботясь о числе слоёв. К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 46. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Многослойная нейронная сеть Пусть для общности Y = RM , для простоты слоёв только два. входной слой, скрытый слой, выходной слой, n признаков H нейронов M нейронов @ABC GFED‚ w11 x 1 i‚ / σ1 ‚‚ w11 / σ1 / a1 l5 i l5 ii 1h ‚‚ w ‚‚‚ ll llly F ii 1m ‚‚ w ‚‚‚ l lll y F . . . w1Hii lllll yyy . . . ‚ w1Mii llllll yyyy . . . ‚‚‚ wj1 ii ‚‚‚‚ lll i yyyy‚‚‚ ll ii yy‚‚‚‚‚ i y wh1 ?= ll wjh 89:; ‚ iiy ) llw l iiy ) xj ‚ yyi / σh ‚‚ hm y yi / σm / am wjH ‚‚ yy iiillll5 A y ‚ lli whM ‚‚y yy iiillll5 A y‚ ‚ . . . wn1 y llll‚ iii . . . ‚‚ yy ‚‚llllliii . . . ‚‚‚ y w y ywnh lll y ‚‚‚ i yH1llll ‚‚‚‚‚i i y yl lw ‚‚) yywHm ll ‚) 89:; ?= nH xn / σH wHM / σM / aM : : w01 w01 w0h w0m w0H w0M @ABC GFED −1 @ABC GFED −1 К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 47. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Напоминание: Алгоритм SG (Stochastic Gradient) Задача минимизации суммарных потерь: ℓ Q(w ) := L (w , xi , yi ) → min . w i=1 Вход: выборка X ℓ ; темп обучения η; параметр λ; Выход: веса w ≡ wjh , whm ∈ RH(n+M+1)+M ; 1: инициализировать веса w и текущую оценку Q(w ); 2: повторять 3: выбрать объект xi из X ℓ (например, случайно); 4: вычислить потерю Li := L (w , xi , yi ); 5: градиентный шаг: w := w − η∇L (w , xi , yi ); 6: оценить значение функционала: Q := (1 − λ)Q + λLi ; 7: пока значение Q и/или веса w не стабилизируются; К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 48. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Задача дифференцирования суперпозиции функций Выходные значения сети am (xi ), m = 1..M на объекте xi : H J m h h a (xi ) = σm whm u (xi ) ; u (xi ) = σh wjh fj (xi ) . h=0 j=0 Пусть для конкретности Li (w ) — средний квадрат ошибки: M 1 2 Li (w ) = am (xi ) − yim . 2 m=1 Промежуточная задача: найти частные производные ∂Li (w ) ∂Li (w ) ; . ∂am ∂u h К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 49. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Быстрое вычисление градиента Промежуточная задача: частные производные ∂Li (w ) = am (xi ) − yim = εim ∂am — это ошибка на выходном слое; M M ∂Li (w ) m = a (xi ) − yim ′ σm whm = εm σm whm = εh i ′ i ∂u h m=1 m=1 — назовём это ошибкой на выходном слое. Похоже, что εh i вычисляется по εm , если запустить сеть «задом наперёд»: i ε1 σ ′ w jjj i 1 jjjj h1 t εh o j„„„„ ... i whM „ „ „ εM σ M i ′ К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 50. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Быстрое вычисление градиента Теперь, имея частные производные Li (w ) по am и u h , легко выписать градиент Li (w ) по весам w : ∂Li (w ) ∂Li (w ) ∂am = = εm σm u h (xi ), m = 1..M, h = 0..H; i ′ ∂whm ∂am ∂whm ∂Li (w ) ∂Li (w ) ∂u h = = εh σh fj (xi ), h = 1..H, j = 0..n; i ′ ∂wjh ∂u h ∂wjh Алгоритм обратного распространения ошибки BackProp: Вход: X ℓ = (xi , yi )ℓ ⊂ Rn × RM ; параметры H, λ, η; i=1 Выход: синаптические веса wjh , whm ; 1: ... К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 51. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Алгоритм BackProp 1: инициализировать веса wjh , whm ; 2: повторять 3: выбрать объект xi из X ℓ (например, случайно); 4: прямой ход: J j uih := σh j=0 wjh xi , h = 1..H; H aim := σm h m m m h=0 whm ui , εi := ai − yi , m = 1..M; Li := M (εm )2 ; m=1 i 5: обратный ход: εh := M εm σm whm , h = 1..H; i m=1 i ′ 6: градиентный шаг: whm := whm − ηεm σm uih , h = 0..H, m = 1..M; i ′ h σ ′ x j , j = 0..n, h = 1..H; wjh := wjh − ηεi h i 7: Q := (1 − λ)Q + λLi ; 8: пока Q не стабилизируется; К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 52. Проблема полноты Многослойная нейронная сеть Метод обратного распространения ошибок Быстрое вычисление градиента Эвристики Алгоритм BackProp Алгоритм BackProp: преимущества и недостатки Преимущества: эффективность: градиент вычисляется за время, сравнимое со временем вычисления самой сети; метод легко обобщается на любые σ, L ; возможно динамическое (потоковое) обучение; на сверхбольших выборках не обязательно брать все xi ; возможность распараллеливания; Недостатки — все те же, свойственные SG: возможна медленная сходимость; застревание в локальных минимумах; проблема переобучения; подбор комплекса эвристик является искусством; К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 53. Проблема полноты Стандартные эвристики и ускорение сходимости Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта Эвристики Наращивание и прореживание сети Стандартные эвристики для метода SG Применимы все те же эвристики, что и в обычном SG: инициализация весов; порядок предъявления объектов; оптимизация величины градиентного шага; регуляризация (сокращение весов); Кроме того, появляются новые проблемы: выбор функций активации в каждом нейроне; выбор числа слоёв и числа нейронов; выбор значимых связей; К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 54. Проблема полноты Стандартные эвристики и ускорение сходимости Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта Эвристики Наращивание и прореживание сети Ускорение сходимости 1. Более тщательный подбор начального приближения. Нейроны настраиваются как отдельные линейные алгоритмы либо по случайной подвыборке X ′ ⊆ X ℓ ; либо по случайному подмножеству входов; либо из различных случайных начальных приближений; тем самым обеспечивается различность нейронов. 2. Выбивание из локальных минимумов (jogging of weights). 3. Адаптивный градиентный шаг (метод скорейшего спуска). 4. Метод сопряжённых градиентов и chunking — разбиение ℓ суммы Q(w ) = Li (w ) на блоки (chunks). i=1 К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 55. Проблема полноты Стандартные эвристики и ускорение сходимости Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта Эвристики Наращивание и прореживание сети Диагональный метод Левенберга-Марквардта Метод Ньютона-Рафсона (второго порядка): w := w − η∇L (w )H(w ), ∂ 2 Q(w ) 2 где H(w ) = ∂wjh ∂wj ′ h′ — гессиан, размера H(n+M+1)+M . Эвристика. Считаем, что гессиан диагонален: η ηjh = ∂ 2 L (w ) i ∂w 2 + µ, jh η — темп обучения, µ — параметр, предотвращающий обнуление знаменателя. Шаг η вычисляется индивидуально для каждого веса. Отношение η/µ есть темп обучения на ровных участках функционала Li (w ), где вторая производная обнуляется. К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 56. Проблема полноты Стандартные эвристики и ускорение сходимости Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта Эвристики Наращивание и прореживание сети Динамическое наращивание сети 1 обучение при заведомо недостаточном числе нейронов H; 2 после стабилизации Q(w ) — добавление нового нейрона и его инициализация путём обучения либо по случайной подвыборке X ′ ⊆ X ℓ ; либо по объектам с наибольшими значениями потерь; либо по случайному подмножеству входов; либо из различных случайных начальных приближений; 3 снова итерации BackProp; Эмпирический опыт: Общее время обучения обычно лишь в 1.5–2 раза больше, чем если бы в сети сразу было нужное количество нейронов. Полезная информация, накопленная сетью, не теряется при добавлении новых нейронов. К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 57. Проблема полноты Стандартные эвристики и ускорение сходимости Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта Эвристики Наращивание и прореживание сети Прореживание сети (OBD — Optimal Brain Damage) Пусть w — локальный минимум Q(w ), тогда Q(w ) можно аппроксимировать квадратичной формой: Q(w + δ) = Q(w ) + 1 δ т H(w )δ + o( δ 2 ), 2 ∂ 2 Q(w ) 2 где H(w ) = ∂wjh ∂wj ′ h′ — гессиан, размера H(n+M+1)+M . Эвристика. Пусть гессиан H(w ) диагонален, тогда n H 2 Q(w ) H M т 2 ∂ 2 ∂ 2 Q(w ) δ H(w )δ = δjh 2 + δhm 2 . ∂wjh ∂whm j=0 h=1 h=0 m=0 Хотим обнулить вес: wjh + δjh = 0. Как изменится Q(w )? Определение. Значимость (salience) веса wjh — это изменение 2 функционала Q(w ) при его обнулении: Sjh = wjh ∂ ∂w 2 ) . 2 Q(w jh К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети
  • 58. Проблема полноты Стандартные эвристики и ускорение сходимости Метод обратного распространения ошибок Диагональный метод Левенберга-Марквардта Эвристики Наращивание и прореживание сети Прореживание сети (OBD — Optimal Brain Damage) ∂2Q ∂2Q 1 В BackProp вычислять вторые производные 2 , ∂wjh ∂whm2 . 2 Если процесс минимизации Q(w ) пришёл в минимум,то упорядочить все веса по убыванию Sjh ; удалить N связей с наименьшей значимостью; снова запустить BackProp. 3 Если Q(w , X ℓ ) или Q(w , X k ) существенно ухудшился, то вернуть последние удалённые связи и выйти. Отбор признаков с помощью OBD — аналогично. H Суммарная значимость признака: Sj = Sjh . h=1 Эмпирический опыт: результат постепенного прореживания обычно лучше, чем BackProp изначально прореженной сети. К. В. Воронцов (www.ccas.ru/voron) Искусственные нейронные сети