12. Recap
Configuración de pesos y
sesgo
Función de
activación
Función de coste
Error
Minimización con
gradiente
descendiente
13. f (𝒙) 𝐜𝐨𝐧𝐯𝐞𝐱𝐚 f (𝒙) 𝐧𝐨 𝐜𝐨𝐧𝐯𝐞𝐱𝐚
f ‘(𝒙) = 𝟎
Maximos locales Puntos de inflexión
14. Gradiente descendiente
Localizamos la mayor pendiente en la posición actual
Se avanza en la dirección con mayor pendiente
Paramos en una nueva posición y volvemos a repetir
Hasta la convergencia
24. Una red neuronal auto ajustará sus
parámetros para aprender una
representación interna de la información
que estaba procesando.
25. Recap 2.0
Configuración de pesos y
sesgo
Función de
activación
Función de coste
Error
Minimización con
gradiente
descendiente
¿ Como varia el coste ante
un cambio del parámetro
W ?
𝜕𝐶
𝜕𝑤
26. Retro propagación de errores
Método para calcular las derivadas parciales
de cada uno de los parámetros de nuestra red
con respecto a la función de coste, para
después optimizar con el descenso del
gradiente.
28. Cada trabajador hará un reporte de cual es la
responsabilidad de dicho resultado
Algoritmo de backpropagation
Se envía a un ente de rendición de cuentas
El ente de rendición de cuentas decide quien
tuvo o no la culpa, lo saca o lo ajusta
Descenso del gradiente
Gradiente con
the chain rule
31. 𝜕𝐶
𝜕𝑤𝑙 =
𝜕𝐶
𝜕𝑎𝑙 ∗
𝜕𝑎𝑙
𝜕𝑧𝑙*
𝜕𝑧𝑙
𝜕𝑤𝑙
𝜕𝐶
𝜕𝑎𝑙
Derivada con respecto a la función de coste
𝜕𝑎𝑙
𝜕𝑧𝑙
Derivada con respecto a la función de activació
𝜕𝑧𝑙
𝜕𝑤𝑙 -
𝜕𝑧𝑙
𝜕𝑏𝑙
𝜕𝑧𝑙
𝜕𝑤𝑙 = 𝑎𝐿−1
(1)
𝜕𝑧𝑙
𝜕𝑏𝑙
= 1 (2)
El valor de entrada de la
neurona que corresponde a
la salida de la capa anterior.
36. 𝛿𝑙 =
𝜕𝐶
𝜕𝑎𝑙
∗
𝜕𝑎𝑙
𝜕𝑧𝑙
Computo del error de la ultima capa
Retropropagamos el error de la capa anterior
𝛿𝑙−1 = 𝛿𝑙 ∗ 𝑤𝑙 ∗
𝜕𝑎𝑙−1
𝜕𝑧𝑙−1
Calculamos las derivadas de la capa usando el error
𝜕𝐶
𝜕𝑤𝑙−1
= 𝛿𝑙−1
𝜕𝐶
𝜕𝑤𝑙−1= 𝛿𝑙−1
∗ 𝑎𝐿−2