Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Машинное обучение, часть 1, осень 2016: Нейронные сети II

300 views

Published on

Продолжаем рассказ про нейронные сети.

  • Be the first to comment

  • Be the first to like this

Машинное обучение, часть 1, осень 2016: Нейронные сети II

  1. 1. Нейронные сети совсем чуть-чуть И. Куралёнок, Н. Поваров Яндекс СПб, 2016 И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 1 из 28
  2. 2. Постановка задачи обучения С построением фичей: повесим на клиента датчики Наша цель повесить датчики правильно, зная какую информацию мы хотим получить. Похоже на glass box Без построения фичей: льется поток неведомых данных Хотим выделить сигналы, имеющие отношение к искомому Похоже на black box И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 2 из 28
  3. 3. Пример По дороге Пенза-Копейск ездят автомобили. Народ на обочине хочет с них получить доход. И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 3 из 28
  4. 4. Пример По дороге Пенза-Копейск ездят автомобили. Народ на обочине хочет с них получить доход. В.П. Гаврилов — работник заправки, для него главное: Машина дорогая Машина чистая Водитель не бугай etc. И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 3 из 28
  5. 5. Пример По дороге Пенза-Копейск ездят автомобили. Народ на обочине хочет с них получить доход. В.П. Гаврилов — работник заправки, для него главное: Машина дорогая Машина чистая Водитель не бугай etc. Э.С. Светлакова — продавец картошки/рыбы/воздушных змеев: Машина семейная Едет в направлении города Едет не очень быстро Никого не обгоняет etc. И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 3 из 28
  6. 6. Пример По дороге Пенза-Копейск ездят автомобили. Народ на обочине хочет с них получить доход. В.П. Гаврилов — работник заправки, для него главное: Машина дорогая Машина чистая Водитель не бугай etc. Э.С. Светлакова — продавец картошки/рыбы/воздушных змеев: Машина семейная Едет в направлении города Едет не очень быстро Никого не обгоняет etc. Вот наша сетка и решает кем ей в этой жизни стать, и какие параметры важны :). И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 3 из 28
  7. 7. Немного рассуждений А можно ли одновременно оптимизировать и выделение полезной информации и обучение? И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28
  8. 8. Немного рассуждений А можно ли одновременно оптимизировать и выделение полезной информации и обучение? Ограничимся линейными моделями как в решающей функции, так и в построении FE F = i wi vT i x И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28
  9. 9. Немного рассуждений А можно ли одновременно оптимизировать и выделение полезной информации и обучение? Ограничимся линейными моделями как в решающей функции, так и в построении FE Но так все сведется к линейной регрессии! Давайте добавим какое-нибудь нелинейное преобразование F = i wi g vT i x И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28
  10. 10. Немного рассуждений А можно ли одновременно оптимизировать и выделение полезной информации и обучение? Ограничимся линейными моделями как в решающей функции, так и в построении FE Но так все сведется к линейной регрессии! Давайте добавим какое-нибудь нелинейное преобразование Если преобразование монотонное, то можно его для красоты применить и к результату F = g i wi g vT i x И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28
  11. 11. Немного рассуждений А можно ли одновременно оптимизировать и выделение полезной информации и обучение? Ограничимся линейными моделями как в решающей функции, так и в построении FE Но так все сведется к линейной регрессии! Давайте добавим какое-нибудь нелинейное преобразование Если преобразование монотонное, то можно его для красоты применить и к результату Дополним рекурсией и будем подбирать не одну функцию а несколько Fi = g wT di g(Wd−1g(. . . g(W0x)) И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28
  12. 12. Немного рассуждений А можно ли одновременно оптимизировать и выделение полезной информации и обучение? Ограничимся линейными моделями как в решающей функции, так и в построении FE Но так все сведется к линейной регрессии! Давайте добавим какое-нибудь нелинейное преобразование Если преобразование монотонное, то можно его для красоты применить и к результату Дополним рекурсией и будем подбирать не одну функцию а несколько Fi = g wT di g(Wd−1g(. . . g(W0x)) ⇒Понятно, что так писать не удобно. И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 4 из 28
  13. 13. Персептрон Розенблатта Fi = g wT di g(Wd−1g(. . . g(W0x)) Как можно видеть, система состоит из некоторого количества блоков g(Wtu). Если блок 1, g = sign(x) и мы подбираем одну функцию, то это элементарный персептрон Розенблатта. Если блоков много, то сложный :). И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 5 из 28
  14. 14. Но на самом деле все было не так! И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 6 из 28
  15. 15. Но на самом деле все было не так! Искусственные нейронные сети (ИНС) — математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 6 из 28
  16. 16. Нейрон I И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 7 из 28
  17. 17. Нейрон II И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 8 из 28
  18. 18. Примеры приложений Предсказание финансовых временных рядов Психодиагностика Хемоинформатика Нейроуправление Экономика И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 9 из 28
  19. 19. Карго I И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 10 из 28
  20. 20. Карго II И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 11 из 28
  21. 21. Карго III И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 12 из 28
  22. 22. Карго IV И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 13 из 28
  23. 23. Немного истории 1 McCulloch, Pitts. “A Logical Calculus of Ideas Immanent in Nervous Activity”. 1943 2 “Кибернетическая модель мозга” 1957 3 ЭВМ Mark I 1960 4 Minsky, Papert “Perceptrons: an introduction to computational geometry” 1969 5 ЭВМ Mark III 1985 6 Google Brain vs. Котики 2011 (Andrew Ng and co.) 7 Krizhevsky, A., Sutskever, I. and Hinton, G. E. “ImageNet Classification with Deep Convolutional Neural Networks” 2012 И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 14 из 28
  24. 24. Отличия от машин фон Неймана Массовый параллелизм; Распределённое представление информации и вычисления Способность к обучению и обобщению Адаптивность Свойство контекстуальной обработки информации Толерантность к ошибкам Низкое энергопотребление И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 15 из 28
  25. 25. Типы нейро компьютеров И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 16 из 28
  26. 26. Виды нейронных сетей По числу слоев: Однослойные Двухслойные Многослойные По способу взаимодействия нейронов: C обратной связью Без обратной связи По нескольким соседям И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 17 из 28
  27. 27. Известные типы сетей Персептронные сети Ассоциативная память SOM etc. И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 18 из 28
  28. 28. Персептрон Розенблатта Fi = g wT di g(Wd−1g(. . . g(W0x)) Как можно видеть, система состоит из некоторого количества блоков g(Wtu). Если блок 1, g = sign(x) и мы подбираем одну функцию, то это элементарный персептрон Розенблатта. Если блоков много, то сложный :). Без обратной связи, многослойнаяИ. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 19 из 28
  29. 29. Обучение персептронной сети Обратное распространение ошибки в случае MSE С sign работать тяжело, поэтому возьмем g поглаже: T = −1 2 k(yk − ok)2 g(u) = 1 1+e−2αu ∆wi,j = η ∂T ∂wi,j И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 20 из 28
  30. 30. Обратное распространение ошибки в случае MSE Последний слой Sj = i wi,jxi ∂T ∂wi,j = ∂T ∂Sj ∂Sj ∂wi,j = xi ∂T ∂Sj ∂T ∂Sj = ∂T ∂oj ∂oj ∂Sj = ... = −2αoj(1 − oj)(yj − oj) И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 21 из 28
  31. 31. Обратное распространение ошибки в случае MSE Не последний слой ∂T ∂Sj = k ∂T ∂Sk ∂Sj ∂wi,j = xi ∂T ∂Sj ∂Sk ∂Sj = ∂Sk ∂oj ∂oj ∂Sj = ... = −2αwj,koj(1 − oj) И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 22 из 28
  32. 32. Обратное распространение ошибки в случае MSE Итого Для последнего слоя: δj = −2αoj(1 − oj)(yj − oj) Для внутреннего слоя: δj = −2αoj(1 − oj) k (δkwj,k) Для всех: ∆wi,j = ηδjoi И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 23 из 28
  33. 33. Сети Хопфилда Авто-ассоциативная память Подадим сигнал на входы x = {−1, 1}n Подождем пока они по закону xt+1 = −1sign(Wxt −θ) Узнаем какие код решения С обратной связью, однослойная И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 24 из 28
  34. 34. Обучение сетей Хопфилда На самом деле, мы знаем куда это добро сойдется, если подать заданный сигнал x arg min u0=x 1 E(u) = arg min u0=x − 1 2 uT Wu + θT u мы дойдем до локального минимума, которых может быть много в зависимости от W . Если: W = 1 m m k=1 xkxT k то минимумы будут именно в этих точках. 1 При фиксированной выше процедуре оптимизации (конвергенции), которая даже сходится в асинхронном случае И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 25 из 28
  35. 35. Свойства сетей Хопфилда Не думают, а скорее реализуют адаптивную функцию ближайшего соседа Сходятся, имеют эффективную параллельную реализацию Могут работать долго и в результате дать “химеру” И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 26 из 28
  36. 36. Как ту же идею заставить “думать” Bolzmann machine Немного поменяем как все это добро работает: сделаем значения в нодах из {0, 1}, договоримся о 0-х на диагонали W . Будем надеяться, что состояния системы распределены по Больцману: p(s|W , θ) ∼ e sT Ws+θT s kT Тогда веса W и θ мы можем исходя из близости этого распределения и того, которое хотим получить: arg min W ,θ s p(s|X)log p(s|X) p(s|W ) Отдельно рассматривают ограничение на связи внутри думающего (hidden) уровня, такое называют RBM. С обратной связью, двухслойная И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 27 из 28
  37. 37. Что мы сегодня узнали Можно решать задачи обучения в комплексе Есть прямые аналогии в биологии и этим пробовали пользоваться ⇒ культ карго Это сложно (получается при большой удаче) и для этого есть специальный язык Есть разные принципы построения взаимодействия внутри сети Природа все равно без датчиков не живет И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2016 Стр. 28 из 28

×