Backpropagation

Backpropagation
Oswaldo Andrés Ordóñez Bolaños

Tabla de contenido
The chain rule
Introducción
redes
neuronales
Gradiente
descendiente
01
Backpropagati
on
02
03
04

Neurona
𝑥1
𝑥2
𝑥3
𝑦1
Suma ponderada
Problema de regression lineal
𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑏
1
𝑤1
𝑤2
𝑤3
𝑏

Función de activación para
redes neuronales
Neurona
𝑥1
𝑥2
𝑥3
𝑦1
1
𝑤1
𝑤2
𝑤3
𝑏
f (𝒘𝟏𝒙𝟏 + 𝒘𝟐𝒙𝟐 + 𝒘𝟑𝒙𝟑 + 𝒃)

Los NN deben evaluarse con una función de
pérdida y optimizarse en consecuencia.

Recap
Configuración de pesos y
sesgo
Función de
activación
Función de coste
Error
Minimización con
gradiente
descendiente

f (𝒙) 𝐜𝐨𝐧𝐯𝐞𝐱𝐚 f (𝒙) 𝐧𝐨 𝐜𝐨𝐧𝐯𝐞𝐱𝐚
f ‘(𝒙) = 𝟎
Maximos locales Puntos de inflexión

Gradiente descendiente
Localizamos la mayor pendiente en la posición actual
Se avanza en la dirección con mayor pendiente
Paramos en una nueva posición y volvemos a repetir
Hasta la convergencia

𝜕𝑒𝑟𝑟𝑜𝑟
𝜕𝜃1
𝜕𝑒𝑟𝑟𝑜𝑟
𝜕𝜃2
𝜵𝒇
Gradiente
Pendiente de la función
𝜃 = 𝜃 − 𝜶 ∇𝑓
𝜶 = 𝑹𝒂𝒕𝒊𝒐 𝒅𝒆 𝒂𝒑𝒓𝒆𝒏𝒅𝒊𝒛𝒂𝒋𝒆
𝑪𝒖𝒂𝒏𝒕𝒐 𝒂𝒇𝒆𝒄𝒕𝒂 𝒂𝒍 𝒈𝒓𝒂𝒅𝒊𝒆𝒏𝒕𝒆
𝑒𝑟𝑟𝑜𝑟
𝜃1
𝜃2

03
The chain
rule
𝑑𝑦
𝑑𝑥
=
𝑑𝑦
𝑑𝑢
*
𝑑𝑢
𝑑𝑥

Peso
Altura
Altura
Tamaño de zapatos
Con nuestra altura
predicha, podemos
predecir la talla de
zapatos

Peso
Altura
Altura
Talla de zapatos
2
1
𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 =
2
1
𝑑 𝑎𝑙𝑡𝑢𝑟𝑎
𝑑 𝑝𝑒𝑠𝑜
= 2
𝐴𝑙𝑡𝑢𝑟𝑎 =
𝑑 𝐴𝑙𝑡𝑢𝑟𝑎
𝑑 𝑃𝑒𝑠𝑜
∗ 𝑃𝑒𝑠𝑜 = 2 ∗ 𝑃𝑒𝑠𝑜 (1)
1
1
4
𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 =
1
4
1
𝑑 𝑇𝑎𝑙𝑙𝑎
=
1
4
𝑇𝑎𝑙𝑙𝑎 𝑧𝑎𝑝𝑎𝑡𝑜 =
∗
∗ 𝑝𝑒𝑠𝑜(2)
𝑇𝑎𝑙𝑙𝑎 𝑧𝑎𝑝𝑎𝑡𝑜 =
∗ 𝑇𝑎𝑙𝑙𝑎 =
1
4
∗ 𝐴𝑙𝑡𝑢𝑟𝑎 (2)

=
∗
=
1
4
∗ 2 =
1
2
Por cada 1 incremento en Peso, la talla
incrementa en
1
2

Aprendizaje y ajuste
de parámetros

Una red neuronal auto ajustará sus
parámetros para aprender una
representación interna de la información
que estaba procesando.

Recap 2.0
Configuración de pesos y
sesgo
Función de
activación
Función de coste
Error
Minimización con
gradiente
descendiente
¿ Como varia el coste ante
un cambio del parámetro
W ?
𝜕𝐶
𝜕𝑤

Retro propagación de errores
Método para calcular las derivadas parciales
de cada uno de los parámetros de nuestra red
con respecto a la función de coste, para
después optimizar con el descenso del
gradiente.

Contratistas
Sub
Secretario
s
Secretari
os
Alcalde
$ error
El error se retro propaga por
toda la red

Cada trabajador hará un reporte de cual es la
responsabilidad de dicho resultado
Algoritmo de backpropagation
Se envía a un ente de rendición de cuentas
El ente de rendición de cuentas decide quien
tuvo o no la culpa, lo saca o lo ajusta
Descenso del gradiente
Gradiente con
the chain rule

Parámetros inicializados de
forma aleatoria.
Implicando que seguramente
el error es muy grande

𝜕𝐶
𝜕𝑤𝑙
𝜕𝐶
𝜕𝑏𝑙
Ultima capa l
𝑍𝑙
= 𝑊𝑙
𝑋 + 𝑏𝑙
𝑎(𝑍𝑙
)
𝐶(𝑎(𝑍𝑙)) = 𝑒𝑟𝑟𝑜𝑟
Suma ponderada
Función de activación
Función de coste

𝜕𝐶
𝜕𝑤𝑙 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑤𝑙
𝜕𝐶
𝜕𝑎𝑙
Derivada con respecto a la función de coste
𝜕𝑎𝑙
𝜕𝑧𝑙
Derivada con respecto a la función de activació
𝜕𝑧𝑙
𝜕𝑤𝑙 -
𝜕𝑧𝑙
𝜕𝑏𝑙
𝜕𝑧𝑙
𝜕𝑤𝑙 = 𝑎𝐿−1
(1)
𝜕𝑧𝑙
𝜕𝑏𝑙
= 1 (2)
El valor de entrada de la
neurona que corresponde a
la salida de la capa anterior.

𝜕𝐶
𝜕𝑤𝑙 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑤𝑙
𝜕𝐶
𝜕𝑧𝑙
Error imputado a la neurona
𝛿𝑙
𝜕𝐶
𝜕𝑤𝑙 = 𝛿𝑙
*
𝜕𝑧𝑙
𝜕𝑤𝑙 = 𝛿𝑙
∗ 𝑎𝐿−1
𝜕𝐶
𝜕𝑏𝑙 = 𝛿𝑙*
𝜕𝑧𝑙
𝜕𝑏𝑙 = 𝛿𝑙
Reemplazamos (1) – (2)

¿ Y si son más capaz ?
𝜕𝐶
𝜕𝑤𝑙−1 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑎𝑙−1 ∗
𝜕𝑎𝑙−1
𝜕𝑧𝑙−1 ∗
𝜕𝑧𝑙−1
𝜕𝑤𝑙−1
𝜕𝐶
𝜕𝑏𝑙−1 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑎𝑙−1 ∗
𝜕𝑎𝑙−1
𝜕𝑧𝑙−1 ∗
𝜕𝑧𝑙−1
𝜕𝑏𝑙−1
𝛿𝑙
𝛿𝑙 1
𝑎𝐿−2
𝛿𝑙
𝛿𝑙
𝛿𝑙
𝐷𝑒𝑟𝑖𝑣𝑎𝑑𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛
𝑑𝑒 𝑎𝑐𝑡𝑖𝑣𝑎𝑐𝑖ó𝑛
𝛿𝑙
𝛿𝑙

𝜕𝑧𝑙
𝜕𝑎𝑙−1
Como varia la suma ponderada de una capa, cuando se varia el ouput de una capa previa
𝑤𝑙

𝜕𝐶
𝜕𝑤𝑙−1 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑎𝑙−1 ∗
𝜕𝑎𝑙−1
𝜕𝑧𝑙−1 ∗
𝜕𝑧𝑙−1
𝜕𝑤𝑙−1
𝜕𝐶
𝜕𝑏𝑙−1 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑎𝑙−1 ∗
𝜕𝑎𝑙−1
𝜕𝑧𝑙−1 ∗
𝜕𝑧𝑙−1
𝜕𝑏𝑙−1
𝛿𝑙
𝛿𝑙 1
𝜕𝐶
𝜕𝑧𝑙−1= 𝛿𝑙−1

𝛿𝑙 =
𝜕𝐶
𝜕𝑎𝑙
∗
𝜕𝑎𝑙
𝜕𝑧𝑙
Computo del error de la ultima capa
Retropropagamos el error de la capa anterior
𝛿𝑙−1 = 𝛿𝑙 ∗ 𝑤𝑙 ∗
𝜕𝑎𝑙−1
𝜕𝑧𝑙−1
Calculamos las derivadas de la capa usando el error
𝜕𝐶
𝜕𝑤𝑙−1
= 𝛿𝑙−1
𝜕𝐶
𝜕𝑤𝑙−1= 𝛿𝑙−1
∗ 𝑎𝐿−2

Muchas
gracias
¿ Preguntas ?
Oswaldo Andrés Ordóñez
Bolaños

Backpropagation

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Similar to Backpropagation

Similar to Backpropagation (20)

Recently uploaded

Recently uploaded (20)

Backpropagation