Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №11 "Основы нейронных сетей"
Лектор - Павел Нестеров
Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Basic knowhow of several techniques commonly used in deep learning and neural networks -- activation functions, cost functions, optimizers, regularization, parameter initialization, normalization, data handling, hyperparameter selection. Presented as lecture material for the course EE599 Deep Learning in Spring 2019 at University of Southern California.
Basic knowhow of several techniques commonly used in deep learning and neural networks -- activation functions, cost functions, optimizers, regularization, parameter initialization, normalization, data handling, hyperparameter selection. Presented as lecture material for the course EE599 Deep Learning in Spring 2019 at University of Southern California.
Part 1 of the Deep Learning Fundamentals Series, this session discusses the use cases and scenarios surrounding Deep Learning and AI; reviews the fundamentals of artificial neural networks (ANNs) and perceptrons; discuss the basics around optimization beginning with the cost function, gradient descent, and backpropagation; and activation functions (including Sigmoid, TanH, and ReLU). The demos included in these slides are running on Keras with TensorFlow backend on Databricks.
https://telecombcn-dl.github.io/2018-dlai/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №13 "Глубокие нейронные сети"
Лектор - Павел Нестеров
Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №12 "Ограниченная машина Больцмана"
Лектор - Павел Нестеров
Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Part 1 of the Deep Learning Fundamentals Series, this session discusses the use cases and scenarios surrounding Deep Learning and AI; reviews the fundamentals of artificial neural networks (ANNs) and perceptrons; discuss the basics around optimization beginning with the cost function, gradient descent, and backpropagation; and activation functions (including Sigmoid, TanH, and ReLU). The demos included in these slides are running on Keras with TensorFlow backend on Databricks.
https://telecombcn-dl.github.io/2018-dlai/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №13 "Глубокие нейронные сети"
Лектор - Павел Нестеров
Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №12 "Ограниченная машина Больцмана"
Лектор - Павел Нестеров
Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №9 "Алгоритмические композиции. Начало"
Лектор - Владимир Гулин
Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №7 "Машина опорных векторов"
Лектор - Николай Анохин
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
В этой лекции я даю небольшое введение в нейронные сети.
Начиная с работы мозга прихожу к идее искусственных нейронных сетей, а во второй части даю математическое описание модели.
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)Ontico
Цель доклада — помочь слушателям построить актуальную карту происходящего в области искусственных нейронных сетей. В рассказ войдёт разбор основных архитектур промышленных нейросетей сегодняшнего дня, их особенности и отличия друг от друга, границы применения и типовые решаемые задачи, а также актуальные направления развития области, в настоящий момент выходящие из лабораторий в промышленное использование. Также коснёмся темы используемых в индустрии фреймворков для работы с нейросетями.
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Yandex
Свёрточные нейронные сети позволяют получать потрясающие результаты во многих задачах компьютерного зрения. В этом докладе я расскажу о нашем опыте обучения и применения свёрточных нейронных сетей. Отдельно будет затронут актуальный вопрос сжатия и ускорения нейросетевых моделей.
Презентация на защите курсового проекта по дисциплине "Проектирование баз данных". Автор Истомин А.С. (УрФУ, г.Екатеринбург, 2011 г.).
Руководитель доцент, к.т.н. Лавров В.В. http://vlavrov.professorjournal.ru
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...Semen Martynov
Применение осцилляторных нейронных сетей позволяет выделить все объекты на фотоснимке (путём группировки осцилляторов по частоте синхронизации) и переключать внимание между ними. Известны и более простые способы выделения объекта, однако данный метод максимально близко моделирует процесс распознавания, который происходит в человеческом мозгу.
Методы машинного обучения в физике элементарных частицAndrey Ustyuzhanin
рассмотрим основные этапы обработки данных физики высоких энергий на примере одного из экспериментов Большого Адронного Коллайдера — LHCb; мы увидим насколько похожими оказываются решения отдельных задач LHCb на решения, используемые в Яндексе.
Предлагаемый угол зрения на проблемы физики элементарных частиц позволяет увидеть возможности, открывающиеся от взаимного расширения спектра методов и технологий, а также возможность проведении междисциплинарных исследований, способных усилить каждую из этих областей.
Основы машинного обучения, базовые понятия (например переобучение и способы его предотвращения), различные архитектуры сетей, и, в частности, сверточные сети. Так же рассмотрены методы оптимизации вычислений в подобных архитектурах: quantization, binary-net и другие.
Введение в архитектуры нейронных сетей / HighLoad++ 2016Grigory Sapunov
Slides from HighLoad++ 2016 conference.
Introduction into neural network architectures (Rus)
Презентация для конференции HighLoad++ 2016.
http://www.highload.ru/2016/abstracts/2454.html
Видеозапись доклада:
https://www.youtube.com/watch?v=XY5AczPW7V4
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №5 "Обработка текстов, Naive Bayes"
Лектор - Николай Анохин
Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №4 "Задача классификации"
Лектор - Николай Анохин
Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №1 "Задачи Data Mining"
Лектор - Николай Анохин
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №3 "Различные алгоритмы кластеризации"
Лектор - Николай Анохин
Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
2. План лекции
Предпосылки
Краткая история теории нейронных сетей
Многоснойная нейронная сеть прямого распространения
Алгоритм обратного распространения ошибки
Что дальше?
1 / 55
3. Принципиальное отличие
Теория статистического обучения
Линейная и логистическая регрессии,
expectation-maximization, naive bayes classifier, random
forest, support vectior machine, gradient boosting trees и
т.д.
Имитация работы мозга человека
Perceptron, cognitron, self-organizing maps, multi-layer
feedforward network, convolution network, Boltzmann
machine, deep neural network и т.д.
2 / 55
4. С другой стороны
Искусственная нейронная сеть
алгоритмическая композиция (ансамбль) слабых моделей
байесова или марковская сеть
???
или любое другое обобщение, важны идеи лежащие в основе
теории
3 / 55
5. Нервная система до нейробиологии
Рис.: 17 век, Рене Декарт о нервной системе: «Раздражение ступни
передаётся по нервам в мозг, взаимодействует там с духом и таким
образом порождает ощущение боли».
4 / 55
6. Нервная система в современном понимании
В 1906 году врач и гистолог Сантьяго Рамон-и-Кахаль
совместно с врачем Камилло Гольджи получают нобелевскую
премию за "за работы по структуре нервной системы"; их
работы заложили основы нейронной теории нервной системы и
современной нейробиологии.
Рис.: Блок-схема нервной системы1
1Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
5 / 55
8. Мозг человека, #2
86 · 109
нейронов в мозге, из них 16.3 · 109
в
коре
CPU: 15-core Xeon IvyBridge-EX - 4.3 · 109
транзисторов
GPU: Nvidia Tesla GK110 Kepler - 7.08 · 109
транзисторов
нейроны (и мозг в целом) обладают
нейропластичностью - способностью
изменяться под действием опыта;
мозг - комплексная, нелинейная система
параллельной обработки данных, способная
изменять структуру своих составных
частей;
мозг решает определенный тип задач
значительно быстрее чем любой
современный компьютер, несмотря на то,
что нейрон крайне медленная
вычислительная единица.
7 / 55
10. Нейронные ансамбли
Физиолог и нейропсихолог Дональд Хебб разработал теорию
взаимосвязи головного мозга и мыслительных процессов в
книге "The Organization of Behavior"(1949).
Нейронный ансамбль - совокупность нейронов, составляющих
функциональную группу в высших отделах мозга.
Нейроансамбль - распределенный способ кодирования
информации.
Нейрон сам по себе генерирует по мимо сигнала еще и шум, но
ансамбль в среднем генерирует чистый сигнал (bagging?).
9 / 55
11. Нейронная модель Ходжкина-Хаксли, #1
Модель Ходжкина—Хаксли (1952 год) — математическая
модель, описывающая генерацию и распространение
потенциалов действия в нейронах2
.
Потенциал действия — волна возбуждения, перемещающаяся по
мембране живой клетки в процессе передачи нервного сигнала.
Нобелевская премия по физиологии и медицине "за открытия,
касающиеся ионных механизмов возбуждения и торможения в
периферических и центральных участках нервных клеток"(1963
год).
2см. приложение Cellmembranion.gif
10 / 55
12. Нейронная модель Ходжкина-Хаксли, #2
Каждому элементу схемы соответствует свой биохимический аналог:
Cm - электроемкость внутреннего липидного слоя клеточной
мембраны;
gn - потенциал-зависимые ионные каналы отвечают за
нелинейную электрическую проводимость;
gL - каналы мембранных пор отвечают за пассивную
проводимость;
Ex - источники напряжения побуждает ионы к движению через
мембранные каналы.
11 / 55
13. Модель МакКаллока-Питтса (1943 год)
a (x) = θ
n
j=1 wj · xi − w0 ;
θ (z) = [z ≥ 0] = 0,z<0
1,z≥0 - функция Хевисайда;
эквивалентно линейному классификатору.
Данная модель, с незначительными изменениями, актуальна и по
сей день.
12 / 55
14. Правила Хебба (1949)
В своей книге Дональд Хебб описал процесс адаптирования
нейронов в мозге в процессе обучения, и сформулировал базовые
механизмы нейропластичности:
1. если два нейрона по разные стороны от синапсов активируются
синхронно, то "вес"синапса слегка возрастает;
2. если два нейрона по разные стороны от синапсов активируются
асинхронно, то "вес"синапса слегка ослабевает или синапс
удаляется3
.
Эти правила легли в основу зарождающейся теории нейросетей,
сегодня в мы можем увидеть этот мета-алгоритм в основных
методах обучения нейронных сетей.
3это расширенное правило, в оригинале второй части не было
13 / 55
15. Правила Хебба, математическая формулировка, #1
Допустим у нас имеется набор бинарных векторов размерности n,
каждому из которых соответствует бинарный выход y:
X = {x1, x2, . . . , xm} , ∀xi ∈ {0, 1}
n
Y = {y1, y2, . . . , ym} , ∀yi ∈ {0, 1}
D = {(x1, y1) , (x2, y2) , . . . , (xn, yn)}
Тогда нейрон может совершить два типа ошибок:
1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1
зачем?
2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1
зачем?
14 / 55
16. Правила Хебба, математическая формулировка, #2
Тогда нейрон может совершить два типа ошибок:
1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1
не преодолели порог ⇒ увеличить скалярное произведение
2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1
перешагнули порог ⇒ уменьшить скалярное произведение
15 / 55
17. Однослойный персептрон Розенблатта (1958 год)
Нейрофизиолог Френк Розенблатт предложил схему устройства,
моделирующего процесс человеческого восприятия, и назвал его
"персептроном". По мимо этого:
показал, что персептрон может выполнять базовые логические
операции;
разработал алгоритм обучения такой модели - метод коррекции
ошибки;
доказал сходимость алгоритма (теорема сходимости
персептрона), но только для линейно разделимых классов;
реализовал физический прототип такой модели;
реализовал первый в мире нейрокомпьютер "MARK-1".
16 / 55
22. Анимация сходимости для операций AND и XOR
операция OR - 1layer-net-or.gif
операция AND - 1layer-net-and1.gif
операция XOR - 1layer-net-xor.gif 4
4http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to-
artificial-neural-networks/
21 / 55
23. Доказательства неэффективности нейронных сетей
В 1969 году математик и исследователь ИИ Марвин Минский
провел детальный математический анализ персептрона и
опубликовал формальное доказательство ограниченности этой
модели.
"There is no reason to suppose that any of these virtues carry
over to the many-layered version. Nevertheless, we consider it to be
an important research problem to elucidate (or reject) our intuitive
judgement that the extension to multilayer systems is sterile."5
Отсутствие преимуществ + ограничения модели в итоге
поубавили интерес научного сообщества к нейронным сетям,
требовалось, что то принципиально новое
5Персептроны, Марвин Минский в соавторстве с Сеймуром Папертом, MIT
Press, 1969
22 / 55
24. Период "забвения"
Исследования искусственных нейросетей не спеша продолжаются, но
в режиме поиска чего-то нового:
1972: Т. Кохонен разрабатывает новый тип нейросетей,
способных функционировать в качестве памяти;
1975-1980: К. Фукусима разрабатывает когнитрон и
неокогнитрон, совершенно новый тип многослойной сверточной
сети, созданной по аналогии со строением зрительной системы;
1982: Дж. Хопфилд разрабатывает новый тип нейросети с
обратными связями, выполняющей функции ассоциативной
памяти;
1986: Дэвид Румельхарт, Дж. Хинтон и Рональд Вильямс
разрабатывают вычислительно эффективный многослойных
нейросетей - метод обратного распространения ошибки (именно
работа этих авторов возрождает интерес к нейронным сетям в
мире).
23 / 55
25. Теорема универсальной аппроксимации6
Введем следующие обозначения:
φ(x) - не тождественная, ограниченная и монотонно
возрастающая функция
In - n-мерный единичный гиперкуб
C (In) - множество непрерывных функций на In
⇒ ∀f ∧ ∀ > 0∃
m ∈ N
{βi }i=1...m , ∀βi ∈ R
{αi }i=1...m , ∀αi ∈ R
{wij }j=1...n,i=1...m , ∀wij ∈ R
∧∃F (x1, . . . , xn) =
m
i=1 αi φ
n
j=1 wij · xj + βi :
|F (x1, . . . , xn) − f (x1, . . . , xn)| <
Какая архитектура нейросети удовлетворяет такой формулировке?
6Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
24 / 55
27. Демонстрация сходимости нейросети с одним скрытым
слоем
операция XOR - 2layer-net-xor.gif
бинарная классификация - 2layer-net-ring.gif
аппроксимация функции sin - 2layer-net-regression-sine.gif
аппроксимация функции abs - 2layer-net-regression-abs.gif7
7http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to-
artificial-neural-networks/
26 / 55
28. Многоснойная нейронная сеть прямого распространения
Рис.: Архитектура сети с двумя скрытыми слоями8
8Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
27 / 55
29. Отличие персептрона Румельхарта от персептрона
Розенблатта
Нелинейная функция активации;
один и более скрытых слоев (до работ Хинтона по ограниченной
машине Больцмана, на практике не использовали более двух
скрытых слоев, а чаще всего один);
сигналы на входе и на выходе не обязательно бинарные;
произвольная архитектура сети (в рамках многослойности);
ошибка сети интерпретирует в смысле некоторой меры, а не как
число неправильных образов в режиме обучения.
28 / 55
30. Модифицированная модель нейрона МакКаллока-Питтса
Рис.: Схема искусственного нейрона9
9Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
29 / 55
31. Функция активации
Задача функции активации - ограничить амплитуду выходного
значения нейрона; чаще всего для этого используется одна из
сигмоидальных (S-образных) функций:
логистическая функция: f (z) =
1
1 + e−a·z
, ∀a ∈ R
гиперболический тангенс: f (z) =
ea·x
− e−a·x
ea·x + e−a·x
, ∀a ∈ R
Рис.: Логистический сигмоид
30 / 55
32. Backprop, обозначения #1
z
(n)
j = b
(n)
j +
Nn−1
i=1
w
(n)
ij x
(n)
i =
Nn−1
i=0
w
(n)
ij x
(n)
i (1)
y
(n)
k = f
(n)
k z
(n)
k (2)
31 / 55
33. Backprop, обозначения #2
Обычное обучение с учителем:
дан набор данных
D = (x1, t1) , (x2, t2) , . . . , x|D|, t|D| , xi ∈ RNinput
, yi ∈ RNoutput
необходимо построить такое отображение (нейросеть)
fnetwork : X → Y , которое минимизирует некоторый
функционал ошибки E : RNoutput
× RNoutput
→ R, например
Евклидово расстояние для задачи регрессии
логарифм функции правдоподобия распределения Бернулли для
задачи классификации среди пересекающихся классов
кросс-энтропия для задачи классификации среди
непересекающихся классов
32 / 55
34. Градиентный спуск, #1
Алгоритм backprop - это модификация классического градиентного
спуска. Параметрами модели являются только веса всех нейронов
сети:
δ
(n)
ij = −η
∂E y(n)
, t
∂w
(n)
ij
(3)
η - скорость обучения (спуска, learning rate)
y(n)
- вектор выходов нейросети (выходы последнего слоя)
t - ожидаемые выходы нейросети для текущего примера
Есть идеи?
33 / 55
38. Градиентный спуск, выходной слой, #2
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
∂E
∂y
(n)
j
∂y
(n)
j
∂z
(n)
j
(5)
Таким образом при условии дифференцируемости целевой функции
и функции активации, вычисление градиента любого из весов
выходного слоя становится легко решаемой задачей.
37 / 55
39. Градиентный спуск, любой скрытый слой, #1
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
∂zn
j
∂z
(n+1)
k
∂yn
j
???
38 / 55
40. Градиентный спуск, любой скрытый слой, #2
Рис.: Схема прямого (нелинейного) и обратного (линейного)
распространения сигнала в сети
39 / 55
41. Градиентный спуск, любой скрытый слой, #3
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
∂zn
j
∂z
(n+1)
k
∂yn
j
= i
∂w(n+1)ik
yn
i
∂yn
j
= w
(n+1)
ik
40 / 55
42. Градиентный спуск, любой скрытый слой, #4
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
zn
j
= x
(n−1)
i
k
w
(n+1)
ik
∂E
∂z
(n+1)
k
∂yn
j
∂zn
j
41 / 55
43. Некоторые функции стоимости, #1
Среднеквадратичная ошибка:
E =
1
2 i∈output (ti − yi )
2
∂E
∂yi
???
Логарифм правдоподобия Бернулли:
E = − i∈output (ti log yi + (1 − ti ) log (1 − yi ))
∂E
∂yi
???
42 / 55
44. Некоторые функции стоимости, #2
Среднеквадратичная ошибка:
E =
1
2 i∈output (ti − yi )
2
∂E
∂yi
= yi − ti
Логарифм правдоподобия Бернулли:
E = − i∈output (ti log yi + (1 − ti ) log (1 − yi ))
∂E
∂yi
=
ti
yi
−
1 − ti
1 − yi
43 / 55
45. Некоторые функции активации, #1
Логистическая функция:
f (z) =
1
1 + e−a·z
∂f
∂z
???
Гиперболический тангенс:
f (z) =
ea·z
− e−a·z
ea·z + e−a·z
∂f
∂z
???
44 / 55
46. Некоторые функции активации, #2
Логистическая функция:
f (z) =
1
1 + e−a·z
∂f
∂z
= a · f (z) · (1 − f (x))
Гиперболический тангенс:
f (z) =
ea·z
− e−a·z
ea·z + e−a·z
∂f
∂z
= a · 1 − f 2
(z)
45 / 55
48. Регуляризация в нейронной сети, #1
Что это и зачем?
ER = E y, t + R(W )
Примеры L1 и L2 регуляризации:
RL1(W ) = ijn w
(n)
ij
∂RL1(W )
∂w
(n)
ij
???
RL2(W ) =
1
2 ijn w
(n)
ij
2
∂RL2(W )
∂w
(n)
ij
???
47 / 55
49. Регуляризация в нейронной сети, #2
ER = E y, t + λ · R(W )
Примеры L1 и L2 регуляризации:
RL1(W ) = ijn w
(n)
ij
∂RL1(W )
∂w
(n)
ij
= sign w
(n)
ij
RL2(W ) =
1
2 ijn w
(n)
ij
2
∂RL2(W )
∂w
(n)
ij
= w
(n)
ij
48 / 55
53. Ускорение сходимости
Добавление момента обучения:
∆wij (τ) = η (µ∆wij (τ − 1) + wij ) (6)
Локальная скорость обучения:
δ
(n)
ij = −η · r
(n)
ij · (· · · ) (7)
r
(n)
ij =
r
(n)
ij = b + r
(n)
ij , w
(n)
ij (τ − 1) · w
(n)
ij (τ) > 0
r
(n)
ij = p · r
(n)
ij
(8)
где
b - аддитивный бонус
p - мультпликативный штраф
b + p = 1
естьсмысл добавить верхнюю и нижнюю границы для значения
r
(n)
ij
52 / 55
54. Планы
softmax слой в сети прямого распространения
обучение без учителя;
стохастический нейрон и стохастическая нейросеть;
ограниченная машина Больцмана.
глубокие сети
53 / 55