SlideShare a Scribd company logo
Лекция n1
Основы нейронных сетей
Нестеров Павел
4 декабря 2014 г.
План лекции
Предпосылки
Краткая история теории нейронных сетей
Многоснойная нейронная сеть прямого распространения
Алгоритм обратного распространения ошибки
Что дальше?
1 / 55
Принципиальное отличие
Теория статистического обучения
Линейная и логистическая регрессии,
expectation-maximization, naive bayes classifier, random
forest, support vectior machine, gradient boosting trees и
т.д.
Имитация работы мозга человека
Perceptron, cognitron, self-organizing maps, multi-layer
feedforward network, convolution network, Boltzmann
machine, deep neural network и т.д.
2 / 55
С другой стороны
Искусственная нейронная сеть
алгоритмическая композиция (ансамбль) слабых моделей
байесова или марковская сеть
???
или любое другое обобщение, важны идеи лежащие в основе
теории
3 / 55
Нервная система до нейробиологии
Рис.: 17 век, Рене Декарт о нервной системе: «Раздражение ступни
передаётся по нервам в мозг, взаимодействует там с духом и таким
образом порождает ощущение боли».
4 / 55
Нервная система в современном понимании
В 1906 году врач и гистолог Сантьяго Рамон-и-Кахаль
совместно с врачем Камилло Гольджи получают нобелевскую
премию за "за работы по структуре нервной системы"; их
работы заложили основы нейронной теории нервной системы и
современной нейробиологии.
Рис.: Блок-схема нервной системы1
1Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
5 / 55
Мозг человека, #1
6 / 55
Мозг человека, #2
86 · 109
нейронов в мозге, из них 16.3 · 109
в
коре
CPU: 15-core Xeon IvyBridge-EX - 4.3 · 109
транзисторов
GPU: Nvidia Tesla GK110 Kepler - 7.08 · 109
транзисторов
нейроны (и мозг в целом) обладают
нейропластичностью - способностью
изменяться под действием опыта;
мозг - комплексная, нелинейная система
параллельной обработки данных, способная
изменять структуру своих составных
частей;
мозг решает определенный тип задач
значительно быстрее чем любой
современный компьютер, несмотря на то,
что нейрон крайне медленная
вычислительная единица.
7 / 55
Схема биологического нейрона
8 / 55
Нейронные ансамбли
Физиолог и нейропсихолог Дональд Хебб разработал теорию
взаимосвязи головного мозга и мыслительных процессов в
книге "The Organization of Behavior"(1949).
Нейронный ансамбль - совокупность нейронов, составляющих
функциональную группу в высших отделах мозга.
Нейроансамбль - распределенный способ кодирования
информации.
Нейрон сам по себе генерирует по мимо сигнала еще и шум, но
ансамбль в среднем генерирует чистый сигнал (bagging?).
9 / 55
Нейронная модель Ходжкина-Хаксли, #1
Модель Ходжкина—Хаксли (1952 год) — математическая
модель, описывающая генерацию и распространение
потенциалов действия в нейронах2
.
Потенциал действия — волна возбуждения, перемещающаяся по
мембране живой клетки в процессе передачи нервного сигнала.
Нобелевская премия по физиологии и медицине "за открытия,
касающиеся ионных механизмов возбуждения и торможения в
периферических и центральных участках нервных клеток"(1963
год).
2см. приложение Cellmembranion.gif
10 / 55
Нейронная модель Ходжкина-Хаксли, #2
Каждому элементу схемы соответствует свой биохимический аналог:
Cm - электроемкость внутреннего липидного слоя клеточной
мембраны;
gn - потенциал-зависимые ионные каналы отвечают за
нелинейную электрическую проводимость;
gL - каналы мембранных пор отвечают за пассивную
проводимость;
Ex - источники напряжения побуждает ионы к движению через
мембранные каналы.
11 / 55
Модель МакКаллока-Питтса (1943 год)
a (x) = θ
n
j=1 wj · xi − w0 ;
θ (z) = [z ≥ 0] = 0,z<0
1,z≥0 - функция Хевисайда;
эквивалентно линейному классификатору.
Данная модель, с незначительными изменениями, актуальна и по
сей день.
12 / 55
Правила Хебба (1949)
В своей книге Дональд Хебб описал процесс адаптирования
нейронов в мозге в процессе обучения, и сформулировал базовые
механизмы нейропластичности:
1. если два нейрона по разные стороны от синапсов активируются
синхронно, то "вес"синапса слегка возрастает;
2. если два нейрона по разные стороны от синапсов активируются
асинхронно, то "вес"синапса слегка ослабевает или синапс
удаляется3
.
Эти правила легли в основу зарождающейся теории нейросетей,
сегодня в мы можем увидеть этот мета-алгоритм в основных
методах обучения нейронных сетей.
3это расширенное правило, в оригинале второй части не было
13 / 55
Правила Хебба, математическая формулировка, #1
Допустим у нас имеется набор бинарных векторов размерности n,
каждому из которых соответствует бинарный выход y:
X = {x1, x2, . . . , xm} , ∀xi ∈ {0, 1}
n
Y = {y1, y2, . . . , ym} , ∀yi ∈ {0, 1}
D = {(x1, y1) , (x2, y2) , . . . , (xn, yn)}
Тогда нейрон может совершить два типа ошибок:
1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1
зачем?
2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1
зачем?
14 / 55
Правила Хебба, математическая формулировка, #2
Тогда нейрон может совершить два типа ошибок:
1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1
не преодолели порог ⇒ увеличить скалярное произведение
2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1
перешагнули порог ⇒ уменьшить скалярное произведение
15 / 55
Однослойный персептрон Розенблатта (1958 год)
Нейрофизиолог Френк Розенблатт предложил схему устройства,
моделирующего процесс человеческого восприятия, и назвал его
"персептроном". По мимо этого:
показал, что персептрон может выполнять базовые логические
операции;
разработал алгоритм обучения такой модели - метод коррекции
ошибки;
доказал сходимость алгоритма (теорема сходимости
персептрона), но только для линейно разделимых классов;
реализовал физический прототип такой модели;
реализовал первый в мире нейрокомпьютер "MARK-1".
16 / 55
Нейрокомпьютер MARK-1
17 / 55
Элементарный персептрон
Метод коррекции ошибки
ˆyi = 0 ∧ yi = 1 ⇒ ∆w = η(n) · x(n)
ˆyi = 1 ∧ yi = 0 ⇒ ∆w = −η(n) · x(n)
η(n) - скорость обучения, зависящая от итерации
x(n) - входной образ на итерации n
18 / 55
Недостатки элементарного персептрона, AND
19 / 55
Недостатки элементарного персептрона, XOR
20 / 55
Анимация сходимости для операций AND и XOR
операция OR - 1layer-net-or.gif
операция AND - 1layer-net-and1.gif
операция XOR - 1layer-net-xor.gif 4
4http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to-
artificial-neural-networks/
21 / 55
Доказательства неэффективности нейронных сетей
В 1969 году математик и исследователь ИИ Марвин Минский
провел детальный математический анализ персептрона и
опубликовал формальное доказательство ограниченности этой
модели.
"There is no reason to suppose that any of these virtues carry
over to the many-layered version. Nevertheless, we consider it to be
an important research problem to elucidate (or reject) our intuitive
judgement that the extension to multilayer systems is sterile."5
Отсутствие преимуществ + ограничения модели в итоге
поубавили интерес научного сообщества к нейронным сетям,
требовалось, что то принципиально новое
5Персептроны, Марвин Минский в соавторстве с Сеймуром Папертом, MIT
Press, 1969
22 / 55
Период "забвения"
Исследования искусственных нейросетей не спеша продолжаются, но
в режиме поиска чего-то нового:
1972: Т. Кохонен разрабатывает новый тип нейросетей,
способных функционировать в качестве памяти;
1975-1980: К. Фукусима разрабатывает когнитрон и
неокогнитрон, совершенно новый тип многослойной сверточной
сети, созданной по аналогии со строением зрительной системы;
1982: Дж. Хопфилд разрабатывает новый тип нейросети с
обратными связями, выполняющей функции ассоциативной
памяти;
1986: Дэвид Румельхарт, Дж. Хинтон и Рональд Вильямс
разрабатывают вычислительно эффективный многослойных
нейросетей - метод обратного распространения ошибки (именно
работа этих авторов возрождает интерес к нейронным сетям в
мире).
23 / 55
Теорема универсальной аппроксимации6
Введем следующие обозначения:
φ(x) - не тождественная, ограниченная и монотонно
возрастающая функция
In - n-мерный единичный гиперкуб
C (In) - множество непрерывных функций на In
⇒ ∀f ∧ ∀ > 0∃
m ∈ N
{βi }i=1...m , ∀βi ∈ R
{αi }i=1...m , ∀αi ∈ R
{wij }j=1...n,i=1...m , ∀wij ∈ R
∧∃F (x1, . . . , xn) =
m
i=1 αi φ
n
j=1 wij · xj + βi :
|F (x1, . . . , xn) − f (x1, . . . , xn)| <
Какая архитектура нейросети удовлетворяет такой формулировке?
6Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
24 / 55
Универсальный аппроксиматор
В чем проблема универсального аппроксиматора, исходя из условий
теоремы?
25 / 55
Демонстрация сходимости нейросети с одним скрытым
слоем
операция XOR - 2layer-net-xor.gif
бинарная классификация - 2layer-net-ring.gif
аппроксимация функции sin - 2layer-net-regression-sine.gif
аппроксимация функции abs - 2layer-net-regression-abs.gif7
7http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to-
artificial-neural-networks/
26 / 55
Многоснойная нейронная сеть прямого распространения
Рис.: Архитектура сети с двумя скрытыми слоями8
8Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
27 / 55
Отличие персептрона Румельхарта от персептрона
Розенблатта
Нелинейная функция активации;
один и более скрытых слоев (до работ Хинтона по ограниченной
машине Больцмана, на практике не использовали более двух
скрытых слоев, а чаще всего один);
сигналы на входе и на выходе не обязательно бинарные;
произвольная архитектура сети (в рамках многослойности);
ошибка сети интерпретирует в смысле некоторой меры, а не как
число неправильных образов в режиме обучения.
28 / 55
Модифицированная модель нейрона МакКаллока-Питтса
Рис.: Схема искусственного нейрона9
9Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
29 / 55
Функция активации
Задача функции активации - ограничить амплитуду выходного
значения нейрона; чаще всего для этого используется одна из
сигмоидальных (S-образных) функций:
логистическая функция: f (z) =
1
1 + e−a·z
, ∀a ∈ R
гиперболический тангенс: f (z) =
ea·x
− e−a·x
ea·x + e−a·x
, ∀a ∈ R
Рис.: Логистический сигмоид
30 / 55
Backprop, обозначения #1
z
(n)
j = b
(n)
j +
Nn−1
i=1
w
(n)
ij x
(n)
i =
Nn−1
i=0
w
(n)
ij x
(n)
i (1)
y
(n)
k = f
(n)
k z
(n)
k (2)
31 / 55
Backprop, обозначения #2
Обычное обучение с учителем:
дан набор данных
D = (x1, t1) , (x2, t2) , . . . , x|D|, t|D| , xi ∈ RNinput
, yi ∈ RNoutput
необходимо построить такое отображение (нейросеть)
fnetwork : X → Y , которое минимизирует некоторый
функционал ошибки E : RNoutput
× RNoutput
→ R, например
Евклидово расстояние для задачи регрессии
логарифм функции правдоподобия распределения Бернулли для
задачи классификации среди пересекающихся классов
кросс-энтропия для задачи классификации среди
непересекающихся классов
32 / 55
Градиентный спуск, #1
Алгоритм backprop - это модификация классического градиентного
спуска. Параметрами модели являются только веса всех нейронов
сети:
δ
(n)
ij = −η
∂E y(n)
, t
∂w
(n)
ij
(3)
η - скорость обучения (спуска, learning rate)
y(n)
- вектор выходов нейросети (выходы последнего слоя)
t - ожидаемые выходы нейросети для текущего примера
Есть идеи?
33 / 55
Градиентный спуск, #2
∂E
∂w
(n)
ij
=
∂E
∂z
(n)
j
∂z
(n)
j
∂w
(n)
ij
???
34 / 55
Градиентный спуск, #3
∂E
∂w
(n)
ij
=
∂E
∂z
(n)
j
∂z
(n)
j
∂w
(n)
ij
∂z
(n)
j
∂w
(n)
ij
= i
∂w
(n)
ij x
(n−1)
i
∂w
(n)
ij
= x
(n−1)
i
В итоге получим:
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
(4)
35 / 55
Градиентный спуск, выходной слой, #1
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
E (y(z), t) ???
36 / 55
Градиентный спуск, выходной слой, #2
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
∂E
∂y
(n)
j
∂y
(n)
j
∂z
(n)
j
(5)
Таким образом при условии дифференцируемости целевой функции
и функции активации, вычисление градиента любого из весов
выходного слоя становится легко решаемой задачей.
37 / 55
Градиентный спуск, любой скрытый слой, #1
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
∂zn
j
∂z
(n+1)
k
∂yn
j
???
38 / 55
Градиентный спуск, любой скрытый слой, #2
Рис.: Схема прямого (нелинейного) и обратного (линейного)
распространения сигнала в сети
39 / 55
Градиентный спуск, любой скрытый слой, #3
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
∂zn
j
∂z
(n+1)
k
∂yn
j
= i
∂w(n+1)ik
yn
i
∂yn
j
= w
(n+1)
ik
40 / 55
Градиентный спуск, любой скрытый слой, #4
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
zn
j
= x
(n−1)
i
k
w
(n+1)
ik
∂E
∂z
(n+1)
k
∂yn
j
∂zn
j
41 / 55
Некоторые функции стоимости, #1
Среднеквадратичная ошибка:
E =
1
2 i∈output (ti − yi )
2
∂E
∂yi
???
Логарифм правдоподобия Бернулли:
E = − i∈output (ti log yi + (1 − ti ) log (1 − yi ))
∂E
∂yi
???
42 / 55
Некоторые функции стоимости, #2
Среднеквадратичная ошибка:
E =
1
2 i∈output (ti − yi )
2
∂E
∂yi
= yi − ti
Логарифм правдоподобия Бернулли:
E = − i∈output (ti log yi + (1 − ti ) log (1 − yi ))
∂E
∂yi
=
ti
yi
−
1 − ti
1 − yi
43 / 55
Некоторые функции активации, #1
Логистическая функция:
f (z) =
1
1 + e−a·z
∂f
∂z
???
Гиперболический тангенс:
f (z) =
ea·z
− e−a·z
ea·z + e−a·z
∂f
∂z
???
44 / 55
Некоторые функции активации, #2
Логистическая функция:
f (z) =
1
1 + e−a·z
∂f
∂z
= a · f (z) · (1 − f (x))
Гиперболический тангенс:
f (z) =
ea·z
− e−a·z
ea·z + e−a·z
∂f
∂z
= a · 1 − f 2
(z)
45 / 55
Режимы обучения
online learning
batch learning
full-batch learning
46 / 55
Регуляризация в нейронной сети, #1
Что это и зачем?
ER = E y, t + R(W )
Примеры L1 и L2 регуляризации:
RL1(W ) = ijn w
(n)
ij
∂RL1(W )
∂w
(n)
ij
???
RL2(W ) =
1
2 ijn w
(n)
ij
2
∂RL2(W )
∂w
(n)
ij
???
47 / 55
Регуляризация в нейронной сети, #2
ER = E y, t + λ · R(W )
Примеры L1 и L2 регуляризации:
RL1(W ) = ijn w
(n)
ij
∂RL1(W )
∂w
(n)
ij
= sign w
(n)
ij
RL2(W ) =
1
2 ijn w
(n)
ij
2
∂RL2(W )
∂w
(n)
ij
= w
(n)
ij
48 / 55
Регуляризация в нейронной сети, #2
(a) RBM, no reg (b) RBM, L2 reg
Рис.: Иллюстрация эффекта регуляризации
49 / 55
Регуляризация в нейронной сети, #3
(a) RBM, L2 reg (b) RBM, L1 reg
Рис.: Иллюстрация эффекта регуляризации
50 / 55
Критерий остановки
Рис.: Кроссвалидация
51 / 55
Ускорение сходимости
Добавление момента обучения:
∆wij (τ) = η (µ∆wij (τ − 1) + wij ) (6)
Локальная скорость обучения:
δ
(n)
ij = −η · r
(n)
ij · (· · · ) (7)
r
(n)
ij =



r
(n)
ij = b + r
(n)
ij , w
(n)
ij (τ − 1) · w
(n)
ij (τ) > 0
r
(n)
ij = p · r
(n)
ij
(8)
где
b - аддитивный бонус
p - мультпликативный штраф
b + p = 1
естьсмысл добавить верхнюю и нижнюю границы для значения
r
(n)
ij
52 / 55
Планы
softmax слой в сети прямого распространения
обучение без учителя;
стохастический нейрон и стохастическая нейросеть;
ограниченная машина Больцмана.
глубокие сети
53 / 55
Вопросы

More Related Content

What's hot

Instance based learning
Instance based learningInstance based learning
Instance based learningSlideshare
 
Deep Dive into Hyperparameter Tuning
Deep Dive into Hyperparameter TuningDeep Dive into Hyperparameter Tuning
Deep Dive into Hyperparameter Tuning
Shubhmay Potdar
 
A brief introduction to Gaussian process
A brief introduction to Gaussian processA brief introduction to Gaussian process
A brief introduction to Gaussian process
Eric Xihui Lin
 
Neural Networks: Multilayer Perceptron
Neural Networks: Multilayer PerceptronNeural Networks: Multilayer Perceptron
Neural Networks: Multilayer Perceptron
Mostafa G. M. Mostafa
 
07 Machine Learning - Expectation Maximization
07 Machine Learning - Expectation Maximization07 Machine Learning - Expectation Maximization
07 Machine Learning - Expectation Maximization
Andres Mendez-Vazquez
 
opengl.ppt
opengl.pptopengl.ppt
opengl.ppt
Subiksha57
 
Introduction to XGboost
Introduction to XGboostIntroduction to XGboost
Introduction to XGboost
Shuai Zhang
 
CNN Attention Networks
CNN Attention NetworksCNN Attention Networks
CNN Attention Networks
Taeoh Kim
 
Concept learning
Concept learningConcept learning
Concept learning
Amir Shokri
 
Feed forward ,back propagation,gradient descent
Feed forward ,back propagation,gradient descentFeed forward ,back propagation,gradient descent
Feed forward ,back propagation,gradient descent
Muhammad Rasel
 
Variational Autoencoder
Variational AutoencoderVariational Autoencoder
Variational Autoencoder
Mark Chang
 
Multilayer perceptron
Multilayer perceptronMultilayer perceptron
Multilayer perceptron
omaraldabash
 
Perceptron
PerceptronPerceptron
Perceptron
Nagarajan
 
Introduction to Neural Networks
Introduction to Neural NetworksIntroduction to Neural Networks
Introduction to Neural Networks
Databricks
 
Distributed deep learning
Distributed deep learningDistributed deep learning
Distributed deep learning
Mehdi Shibahara
 
Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018
Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018
Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018
Universitat Politècnica de Catalunya
 
Artificial Neural Networks Lect5: Multi-Layer Perceptron & Backpropagation
Artificial Neural Networks Lect5: Multi-Layer Perceptron & BackpropagationArtificial Neural Networks Lect5: Multi-Layer Perceptron & Backpropagation
Artificial Neural Networks Lect5: Multi-Layer Perceptron & Backpropagation
Mohammed Bennamoun
 
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methodsData Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
Salah Amean
 
UNIT 1 Machine Learning [KCS-055] (1).pptx
UNIT 1 Machine Learning [KCS-055] (1).pptxUNIT 1 Machine Learning [KCS-055] (1).pptx
UNIT 1 Machine Learning [KCS-055] (1).pptx
RohanPathak30
 
Neural Networks and Deep Learning: An Intro
Neural Networks and Deep Learning: An IntroNeural Networks and Deep Learning: An Intro
Neural Networks and Deep Learning: An Intro
Fariz Darari
 

What's hot (20)

Instance based learning
Instance based learningInstance based learning
Instance based learning
 
Deep Dive into Hyperparameter Tuning
Deep Dive into Hyperparameter TuningDeep Dive into Hyperparameter Tuning
Deep Dive into Hyperparameter Tuning
 
A brief introduction to Gaussian process
A brief introduction to Gaussian processA brief introduction to Gaussian process
A brief introduction to Gaussian process
 
Neural Networks: Multilayer Perceptron
Neural Networks: Multilayer PerceptronNeural Networks: Multilayer Perceptron
Neural Networks: Multilayer Perceptron
 
07 Machine Learning - Expectation Maximization
07 Machine Learning - Expectation Maximization07 Machine Learning - Expectation Maximization
07 Machine Learning - Expectation Maximization
 
opengl.ppt
opengl.pptopengl.ppt
opengl.ppt
 
Introduction to XGboost
Introduction to XGboostIntroduction to XGboost
Introduction to XGboost
 
CNN Attention Networks
CNN Attention NetworksCNN Attention Networks
CNN Attention Networks
 
Concept learning
Concept learningConcept learning
Concept learning
 
Feed forward ,back propagation,gradient descent
Feed forward ,back propagation,gradient descentFeed forward ,back propagation,gradient descent
Feed forward ,back propagation,gradient descent
 
Variational Autoencoder
Variational AutoencoderVariational Autoencoder
Variational Autoencoder
 
Multilayer perceptron
Multilayer perceptronMultilayer perceptron
Multilayer perceptron
 
Perceptron
PerceptronPerceptron
Perceptron
 
Introduction to Neural Networks
Introduction to Neural NetworksIntroduction to Neural Networks
Introduction to Neural Networks
 
Distributed deep learning
Distributed deep learningDistributed deep learning
Distributed deep learning
 
Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018
Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018
Loss Functions for Deep Learning - Javier Ruiz Hidalgo - UPC Barcelona 2018
 
Artificial Neural Networks Lect5: Multi-Layer Perceptron & Backpropagation
Artificial Neural Networks Lect5: Multi-Layer Perceptron & BackpropagationArtificial Neural Networks Lect5: Multi-Layer Perceptron & Backpropagation
Artificial Neural Networks Lect5: Multi-Layer Perceptron & Backpropagation
 
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methodsData Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
 
UNIT 1 Machine Learning [KCS-055] (1).pptx
UNIT 1 Machine Learning [KCS-055] (1).pptxUNIT 1 Machine Learning [KCS-055] (1).pptx
UNIT 1 Machine Learning [KCS-055] (1).pptx
 
Neural Networks and Deep Learning: An Intro
Neural Networks and Deep Learning: An IntroNeural Networks and Deep Learning: An Intro
Neural Networks and Deep Learning: An Intro
 

Viewers also liked

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
Technosphere1
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
Technosphere1
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
Technosphere1
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
Technosphere1
 
Введение в искусственные нейронные сети
Введение в искусственные нейронные сетиВведение в искусственные нейронные сети
Введение в искусственные нейронные сети
Ivan Miniailenko
 
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Ontico
 
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Yandex
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
Technosphere1
 
Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"
ph.d. Dmitry Stepanov
 
Fukushima Cognitron
Fukushima CognitronFukushima Cognitron
Fukushima CognitronESCOM
 
Neuroface
NeurofaceNeuroface
3 место - Белоусов Денис
3 место - Белоусов Денис3 место - Белоусов Денис
3 место - Белоусов Денис
Екатерина Мартынычева
 
нейронная сеть кохонена
нейронная сеть кохоненанейронная сеть кохонена
нейронная сеть кохонена
bu33ard
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
ph.d. Dmitry Stepanov
 
2011 Истомин А.С.
2011 Истомин А.С.2011 Истомин А.С.
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
Serge Terekhov
 
Нейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросетиНейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросети
refasw
 

Viewers also liked (20)

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Введение в искусственные нейронные сети
Введение в искусственные нейронные сетиВведение в искусственные нейронные сети
Введение в искусственные нейронные сети
 
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
 
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"
 
Fukushima Cognitron
Fukushima CognitronFukushima Cognitron
Fukushima Cognitron
 
Neuroface
NeurofaceNeuroface
Neuroface
 
3 место - Белоусов Денис
3 место - Белоусов Денис3 место - Белоусов Денис
3 место - Белоусов Денис
 
нейронная сеть кохонена
нейронная сеть кохоненанейронная сеть кохонена
нейронная сеть кохонена
 
Нейросети
НейросетиНейросети
Нейросети
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
 
2011 Истомин А.С.
2011 Истомин А.С.2011 Истомин А.С.
2011 Истомин А.С.
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Нейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросетиНейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросети
 

Similar to Лекция №11 "Основы нейронных сетей"

нейронные сети
нейронные сетинейронные сети
нейронные сетиhudvin
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
AlignedResearch
 
Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"
begingroup
 
37359 (1).pptx
37359 (1).pptx37359 (1).pptx
37359 (1).pptx
AidaMustafyeva
 
Многослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.pptМногослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.ppt
AleksandrGozhyj
 
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Semen Martynov
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
Andrey Ustyuzhanin
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
yaevents
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
Anton Konushin
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
Ivan Kavalerov
 
Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016
Grigory Sapunov
 
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Anamezon
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.
Anton Konushin
 
Лекция 3
Лекция 3Лекция 3
Лекция 3
Ivan Stolyarov
 
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНННейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Konstantin Zavarov, ICP
 
Finding the Source of Sound
Finding the Source of SoundFinding the Source of Sound
Finding the Source of Sound
SSA KPI
 
лабораторная работа 1
лабораторная работа 1лабораторная работа 1
лабораторная работа 1Gulnaz Shakirova
 

Similar to Лекция №11 "Основы нейронных сетей" (20)

0907.0229
0907.02290907.0229
0907.0229
 
нейронные сети
нейронные сетинейронные сети
нейронные сети
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
 
Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"
 
37359 (1).pptx
37359 (1).pptx37359 (1).pptx
37359 (1).pptx
 
Многослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.pptМногослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.ppt
 
лекция 32
лекция 32лекция 32
лекция 32
 
NeuralNetworks_intro
NeuralNetworks_introNeuralNetworks_intro
NeuralNetworks_intro
 
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
 
Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016
 
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.
 
Лекция 3
Лекция 3Лекция 3
Лекция 3
 
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНННейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
 
Finding the Source of Sound
Finding the Source of SoundFinding the Source of Sound
Finding the Source of Sound
 
лабораторная работа 1
лабораторная работа 1лабораторная работа 1
лабораторная работа 1
 

More from Technosphere1

Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
Technosphere1
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
Technosphere1
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
Technosphere1
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Technosphere1
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
Technosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
Technosphere1
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: ЗаключительнаяTechnosphere1
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
Technosphere1
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
Technosphere1
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
Technosphere1
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
Technosphere1
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
Technosphere1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
Technosphere1
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
Technosphere1
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
Technosphere1
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
Technosphere1
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
Technosphere1
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
Technosphere1
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
Technosphere1
 

More from Technosphere1 (20)

Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
 
Webdev7 (2)
Webdev7 (2)Webdev7 (2)
Webdev7 (2)
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
 

Лекция №11 "Основы нейронных сетей"

  • 1. Лекция n1 Основы нейронных сетей Нестеров Павел 4 декабря 2014 г.
  • 2. План лекции Предпосылки Краткая история теории нейронных сетей Многоснойная нейронная сеть прямого распространения Алгоритм обратного распространения ошибки Что дальше? 1 / 55
  • 3. Принципиальное отличие Теория статистического обучения Линейная и логистическая регрессии, expectation-maximization, naive bayes classifier, random forest, support vectior machine, gradient boosting trees и т.д. Имитация работы мозга человека Perceptron, cognitron, self-organizing maps, multi-layer feedforward network, convolution network, Boltzmann machine, deep neural network и т.д. 2 / 55
  • 4. С другой стороны Искусственная нейронная сеть алгоритмическая композиция (ансамбль) слабых моделей байесова или марковская сеть ??? или любое другое обобщение, важны идеи лежащие в основе теории 3 / 55
  • 5. Нервная система до нейробиологии Рис.: 17 век, Рене Декарт о нервной системе: «Раздражение ступни передаётся по нервам в мозг, взаимодействует там с духом и таким образом порождает ощущение боли». 4 / 55
  • 6. Нервная система в современном понимании В 1906 году врач и гистолог Сантьяго Рамон-и-Кахаль совместно с врачем Камилло Гольджи получают нобелевскую премию за "за работы по структуре нервной системы"; их работы заложили основы нейронной теории нервной системы и современной нейробиологии. Рис.: Блок-схема нервной системы1 1Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 5 / 55
  • 8. Мозг человека, #2 86 · 109 нейронов в мозге, из них 16.3 · 109 в коре CPU: 15-core Xeon IvyBridge-EX - 4.3 · 109 транзисторов GPU: Nvidia Tesla GK110 Kepler - 7.08 · 109 транзисторов нейроны (и мозг в целом) обладают нейропластичностью - способностью изменяться под действием опыта; мозг - комплексная, нелинейная система параллельной обработки данных, способная изменять структуру своих составных частей; мозг решает определенный тип задач значительно быстрее чем любой современный компьютер, несмотря на то, что нейрон крайне медленная вычислительная единица. 7 / 55
  • 10. Нейронные ансамбли Физиолог и нейропсихолог Дональд Хебб разработал теорию взаимосвязи головного мозга и мыслительных процессов в книге "The Organization of Behavior"(1949). Нейронный ансамбль - совокупность нейронов, составляющих функциональную группу в высших отделах мозга. Нейроансамбль - распределенный способ кодирования информации. Нейрон сам по себе генерирует по мимо сигнала еще и шум, но ансамбль в среднем генерирует чистый сигнал (bagging?). 9 / 55
  • 11. Нейронная модель Ходжкина-Хаксли, #1 Модель Ходжкина—Хаксли (1952 год) — математическая модель, описывающая генерацию и распространение потенциалов действия в нейронах2 . Потенциал действия — волна возбуждения, перемещающаяся по мембране живой клетки в процессе передачи нервного сигнала. Нобелевская премия по физиологии и медицине "за открытия, касающиеся ионных механизмов возбуждения и торможения в периферических и центральных участках нервных клеток"(1963 год). 2см. приложение Cellmembranion.gif 10 / 55
  • 12. Нейронная модель Ходжкина-Хаксли, #2 Каждому элементу схемы соответствует свой биохимический аналог: Cm - электроемкость внутреннего липидного слоя клеточной мембраны; gn - потенциал-зависимые ионные каналы отвечают за нелинейную электрическую проводимость; gL - каналы мембранных пор отвечают за пассивную проводимость; Ex - источники напряжения побуждает ионы к движению через мембранные каналы. 11 / 55
  • 13. Модель МакКаллока-Питтса (1943 год) a (x) = θ n j=1 wj · xi − w0 ; θ (z) = [z ≥ 0] = 0,z<0 1,z≥0 - функция Хевисайда; эквивалентно линейному классификатору. Данная модель, с незначительными изменениями, актуальна и по сей день. 12 / 55
  • 14. Правила Хебба (1949) В своей книге Дональд Хебб описал процесс адаптирования нейронов в мозге в процессе обучения, и сформулировал базовые механизмы нейропластичности: 1. если два нейрона по разные стороны от синапсов активируются синхронно, то "вес"синапса слегка возрастает; 2. если два нейрона по разные стороны от синапсов активируются асинхронно, то "вес"синапса слегка ослабевает или синапс удаляется3 . Эти правила легли в основу зарождающейся теории нейросетей, сегодня в мы можем увидеть этот мета-алгоритм в основных методах обучения нейронных сетей. 3это расширенное правило, в оригинале второй части не было 13 / 55
  • 15. Правила Хебба, математическая формулировка, #1 Допустим у нас имеется набор бинарных векторов размерности n, каждому из которых соответствует бинарный выход y: X = {x1, x2, . . . , xm} , ∀xi ∈ {0, 1} n Y = {y1, y2, . . . , ym} , ∀yi ∈ {0, 1} D = {(x1, y1) , (x2, y2) , . . . , (xn, yn)} Тогда нейрон может совершить два типа ошибок: 1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1 зачем? 2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1 зачем? 14 / 55
  • 16. Правила Хебба, математическая формулировка, #2 Тогда нейрон может совершить два типа ошибок: 1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1 не преодолели порог ⇒ увеличить скалярное произведение 2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1 перешагнули порог ⇒ уменьшить скалярное произведение 15 / 55
  • 17. Однослойный персептрон Розенблатта (1958 год) Нейрофизиолог Френк Розенблатт предложил схему устройства, моделирующего процесс человеческого восприятия, и назвал его "персептроном". По мимо этого: показал, что персептрон может выполнять базовые логические операции; разработал алгоритм обучения такой модели - метод коррекции ошибки; доказал сходимость алгоритма (теорема сходимости персептрона), но только для линейно разделимых классов; реализовал физический прототип такой модели; реализовал первый в мире нейрокомпьютер "MARK-1". 16 / 55
  • 19. Элементарный персептрон Метод коррекции ошибки ˆyi = 0 ∧ yi = 1 ⇒ ∆w = η(n) · x(n) ˆyi = 1 ∧ yi = 0 ⇒ ∆w = −η(n) · x(n) η(n) - скорость обучения, зависящая от итерации x(n) - входной образ на итерации n 18 / 55
  • 22. Анимация сходимости для операций AND и XOR операция OR - 1layer-net-or.gif операция AND - 1layer-net-and1.gif операция XOR - 1layer-net-xor.gif 4 4http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to- artificial-neural-networks/ 21 / 55
  • 23. Доказательства неэффективности нейронных сетей В 1969 году математик и исследователь ИИ Марвин Минский провел детальный математический анализ персептрона и опубликовал формальное доказательство ограниченности этой модели. "There is no reason to suppose that any of these virtues carry over to the many-layered version. Nevertheless, we consider it to be an important research problem to elucidate (or reject) our intuitive judgement that the extension to multilayer systems is sterile."5 Отсутствие преимуществ + ограничения модели в итоге поубавили интерес научного сообщества к нейронным сетям, требовалось, что то принципиально новое 5Персептроны, Марвин Минский в соавторстве с Сеймуром Папертом, MIT Press, 1969 22 / 55
  • 24. Период "забвения" Исследования искусственных нейросетей не спеша продолжаются, но в режиме поиска чего-то нового: 1972: Т. Кохонен разрабатывает новый тип нейросетей, способных функционировать в качестве памяти; 1975-1980: К. Фукусима разрабатывает когнитрон и неокогнитрон, совершенно новый тип многослойной сверточной сети, созданной по аналогии со строением зрительной системы; 1982: Дж. Хопфилд разрабатывает новый тип нейросети с обратными связями, выполняющей функции ассоциативной памяти; 1986: Дэвид Румельхарт, Дж. Хинтон и Рональд Вильямс разрабатывают вычислительно эффективный многослойных нейросетей - метод обратного распространения ошибки (именно работа этих авторов возрождает интерес к нейронным сетям в мире). 23 / 55
  • 25. Теорема универсальной аппроксимации6 Введем следующие обозначения: φ(x) - не тождественная, ограниченная и монотонно возрастающая функция In - n-мерный единичный гиперкуб C (In) - множество непрерывных функций на In ⇒ ∀f ∧ ∀ > 0∃ m ∈ N {βi }i=1...m , ∀βi ∈ R {αi }i=1...m , ∀αi ∈ R {wij }j=1...n,i=1...m , ∀wij ∈ R ∧∃F (x1, . . . , xn) = m i=1 αi φ n j=1 wij · xj + βi : |F (x1, . . . , xn) − f (x1, . . . , xn)| < Какая архитектура нейросети удовлетворяет такой формулировке? 6Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 24 / 55
  • 26. Универсальный аппроксиматор В чем проблема универсального аппроксиматора, исходя из условий теоремы? 25 / 55
  • 27. Демонстрация сходимости нейросети с одним скрытым слоем операция XOR - 2layer-net-xor.gif бинарная классификация - 2layer-net-ring.gif аппроксимация функции sin - 2layer-net-regression-sine.gif аппроксимация функции abs - 2layer-net-regression-abs.gif7 7http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to- artificial-neural-networks/ 26 / 55
  • 28. Многоснойная нейронная сеть прямого распространения Рис.: Архитектура сети с двумя скрытыми слоями8 8Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 27 / 55
  • 29. Отличие персептрона Румельхарта от персептрона Розенблатта Нелинейная функция активации; один и более скрытых слоев (до работ Хинтона по ограниченной машине Больцмана, на практике не использовали более двух скрытых слоев, а чаще всего один); сигналы на входе и на выходе не обязательно бинарные; произвольная архитектура сети (в рамках многослойности); ошибка сети интерпретирует в смысле некоторой меры, а не как число неправильных образов в режиме обучения. 28 / 55
  • 30. Модифицированная модель нейрона МакКаллока-Питтса Рис.: Схема искусственного нейрона9 9Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 29 / 55
  • 31. Функция активации Задача функции активации - ограничить амплитуду выходного значения нейрона; чаще всего для этого используется одна из сигмоидальных (S-образных) функций: логистическая функция: f (z) = 1 1 + e−a·z , ∀a ∈ R гиперболический тангенс: f (z) = ea·x − e−a·x ea·x + e−a·x , ∀a ∈ R Рис.: Логистический сигмоид 30 / 55
  • 32. Backprop, обозначения #1 z (n) j = b (n) j + Nn−1 i=1 w (n) ij x (n) i = Nn−1 i=0 w (n) ij x (n) i (1) y (n) k = f (n) k z (n) k (2) 31 / 55
  • 33. Backprop, обозначения #2 Обычное обучение с учителем: дан набор данных D = (x1, t1) , (x2, t2) , . . . , x|D|, t|D| , xi ∈ RNinput , yi ∈ RNoutput необходимо построить такое отображение (нейросеть) fnetwork : X → Y , которое минимизирует некоторый функционал ошибки E : RNoutput × RNoutput → R, например Евклидово расстояние для задачи регрессии логарифм функции правдоподобия распределения Бернулли для задачи классификации среди пересекающихся классов кросс-энтропия для задачи классификации среди непересекающихся классов 32 / 55
  • 34. Градиентный спуск, #1 Алгоритм backprop - это модификация классического градиентного спуска. Параметрами модели являются только веса всех нейронов сети: δ (n) ij = −η ∂E y(n) , t ∂w (n) ij (3) η - скорость обучения (спуска, learning rate) y(n) - вектор выходов нейросети (выходы последнего слоя) t - ожидаемые выходы нейросети для текущего примера Есть идеи? 33 / 55
  • 36. Градиентный спуск, #3 ∂E ∂w (n) ij = ∂E ∂z (n) j ∂z (n) j ∂w (n) ij ∂z (n) j ∂w (n) ij = i ∂w (n) ij x (n−1) i ∂w (n) ij = x (n−1) i В итоге получим: ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j (4) 35 / 55
  • 37. Градиентный спуск, выходной слой, #1 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j E (y(z), t) ??? 36 / 55
  • 38. Градиентный спуск, выходной слой, #2 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i ∂E ∂y (n) j ∂y (n) j ∂z (n) j (5) Таким образом при условии дифференцируемости целевой функции и функции активации, вычисление градиента любого из весов выходного слоя становится легко решаемой задачей. 37 / 55
  • 39. Градиентный спуск, любой скрытый слой, #1 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂yn j ∂yn j ∂zn j ∂z (n+1) k ∂yn j ??? 38 / 55
  • 40. Градиентный спуск, любой скрытый слой, #2 Рис.: Схема прямого (нелинейного) и обратного (линейного) распространения сигнала в сети 39 / 55
  • 41. Градиентный спуск, любой скрытый слой, #3 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂yn j ∂yn j ∂zn j ∂z (n+1) k ∂yn j = i ∂w(n+1)ik yn i ∂yn j = w (n+1) ik 40 / 55
  • 42. Градиентный спуск, любой скрытый слой, #4 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂yn j ∂yn j zn j = x (n−1) i k w (n+1) ik ∂E ∂z (n+1) k ∂yn j ∂zn j 41 / 55
  • 43. Некоторые функции стоимости, #1 Среднеквадратичная ошибка: E = 1 2 i∈output (ti − yi ) 2 ∂E ∂yi ??? Логарифм правдоподобия Бернулли: E = − i∈output (ti log yi + (1 − ti ) log (1 − yi )) ∂E ∂yi ??? 42 / 55
  • 44. Некоторые функции стоимости, #2 Среднеквадратичная ошибка: E = 1 2 i∈output (ti − yi ) 2 ∂E ∂yi = yi − ti Логарифм правдоподобия Бернулли: E = − i∈output (ti log yi + (1 − ti ) log (1 − yi )) ∂E ∂yi = ti yi − 1 − ti 1 − yi 43 / 55
  • 45. Некоторые функции активации, #1 Логистическая функция: f (z) = 1 1 + e−a·z ∂f ∂z ??? Гиперболический тангенс: f (z) = ea·z − e−a·z ea·z + e−a·z ∂f ∂z ??? 44 / 55
  • 46. Некоторые функции активации, #2 Логистическая функция: f (z) = 1 1 + e−a·z ∂f ∂z = a · f (z) · (1 − f (x)) Гиперболический тангенс: f (z) = ea·z − e−a·z ea·z + e−a·z ∂f ∂z = a · 1 − f 2 (z) 45 / 55
  • 47. Режимы обучения online learning batch learning full-batch learning 46 / 55
  • 48. Регуляризация в нейронной сети, #1 Что это и зачем? ER = E y, t + R(W ) Примеры L1 и L2 регуляризации: RL1(W ) = ijn w (n) ij ∂RL1(W ) ∂w (n) ij ??? RL2(W ) = 1 2 ijn w (n) ij 2 ∂RL2(W ) ∂w (n) ij ??? 47 / 55
  • 49. Регуляризация в нейронной сети, #2 ER = E y, t + λ · R(W ) Примеры L1 и L2 регуляризации: RL1(W ) = ijn w (n) ij ∂RL1(W ) ∂w (n) ij = sign w (n) ij RL2(W ) = 1 2 ijn w (n) ij 2 ∂RL2(W ) ∂w (n) ij = w (n) ij 48 / 55
  • 50. Регуляризация в нейронной сети, #2 (a) RBM, no reg (b) RBM, L2 reg Рис.: Иллюстрация эффекта регуляризации 49 / 55
  • 51. Регуляризация в нейронной сети, #3 (a) RBM, L2 reg (b) RBM, L1 reg Рис.: Иллюстрация эффекта регуляризации 50 / 55
  • 53. Ускорение сходимости Добавление момента обучения: ∆wij (τ) = η (µ∆wij (τ − 1) + wij ) (6) Локальная скорость обучения: δ (n) ij = −η · r (n) ij · (· · · ) (7) r (n) ij =    r (n) ij = b + r (n) ij , w (n) ij (τ − 1) · w (n) ij (τ) > 0 r (n) ij = p · r (n) ij (8) где b - аддитивный бонус p - мультпликативный штраф b + p = 1 естьсмысл добавить верхнюю и нижнюю границы для значения r (n) ij 52 / 55
  • 54. Планы softmax слой в сети прямого распространения обучение без учителя; стохастический нейрон и стохастическая нейросеть; ограниченная машина Больцмана. глубокие сети 53 / 55