Your SlideShare is downloading. ×
0
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

1,487

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,487
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
25
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. TÉCNICAS DE OTIMIZAÇÃO NÃO-LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS DE MÚLTIPLAS CAMADAS IA 353 - Redes Neurais Leandro Nunes de Castro Fernando José Von Zuben
  • 2. Tópicos
    • Introdução (motivação)
    • Redes de múltiplas camadas
    • Algoritmo de retropropagação
    • Treinamento e critérios de parada
    • Superfícies de erro e mínimos locais
    • Abordagem (forma de análise)
    • Aproximação de funções
    • Algoritmos de otimização
    • Detalhes de implementação e variações
    • Taxas de aprendizagem globais
    • Algoritmos
    • Exemplos de aplicação
  • 3. Motivação
    • Estímulo inicial
    • Potencial de aplicação na análise e síntese de problemas não-lineares
    • Aplicação de redes MLP a problemas de mundo real
    • Utilização de técnicas de otimização não-linear irrestrita para o treinamento de redes do tipo MLP
    Garantia de convergência Taxa de convergência Teoria de otimização Aproximação de funções Teoria de análise numérica Áreas de atuação científica a serem abrangidas
  • 4. Redes de múltiplas camadas MLP - Multilayer Perceptron
  • 5. Abordagem matricial para o algoritmo de retro-propagação ( backpropagation )
  • 6. Treinamento e critérios de parada
    • Treinamento:
      • Local ( on-line ): atualização imediatamente após a apresentação de cada amostra.
      • Em lote ( off-line , batch ): atualização após a apresentação de todo o conjunto de dados.
    • Critérios de parada:
      • || || < 
      •  J (  ) < 
      • J (  ) < 
      • Outras funções de custo
  • 7. Superfícies de erro e mínimos locais (I) Critérios de parada Mínimos locais Mínimo local Mínimo global
  • 8. Série de Taylor
  • 9. Aproximação em Taylor - Exemplo Expansão em Taylor para F (x) em torno do ponto x = 0: F 0 (x) F 4 (x) F 2 (x)
  • 10. Mínimos
    • Local:
    • O ponto x * é um mínimo local de F ( x )
    • se existe um escalar  > 0,
    • tal que F ( x *) < F ( x +  x ) para todo
    •  x tal que 0 < ||  x || <  .
    • Global:
    • O ponto x * é um mínimo global único
    • de F ( x ) se F ( x *) < F ( x +  x ) para
    • todo  x  0.
    Mínimo local Mínimo global
  • 11. Derivada direcional
    • Qual a direção cuja derivada é nula?
    • Qual a direção de maior inclinação (maior crescimento da função)?
    Primeira derivada direcional : Segunda derivada direcional :
  • 12. Otimalidade & Hessiana (caso quadrático) Condições de otimalidade :
    • Primeira ordem: ( Ponto estacionário)
    • Segunda ordem: ( Hessiana semi-definida positiva)
    Auto-sistema da Hessiana : Z 1 (  min ) Z 2 (  max )
  • 13. Hessiana - Exemplos
  • 14. Superfícies de erro e mínimos locais (II) Função a ser aproximada Rede para aproximação
  • 15. Superfícies de erro e mínimos locais (III) Superfície do erro quadrático e seu contorno em relação aos pesos v 11 e w 11 Vales Platô
  • 16. Superfícies de erro e mínimos locais (IV) Superfície do erro quadrático e seu contorno em relação aos limiares v 01 e w 01 Mínimo global Mínimo local
  • 17. Abordagem
    • Representar o treinamento sob a forma de aproximação de funções minimização de um funcional de erro ( J )
    • Aproximação quadrática do funcional J (Taylor)
    • Objetivo:
    • Processo iterativo de solução:
    vetor gradiente matriz hessiana
  • 18.
    • Aproximar: g (.): X   m   r
    • Modelo: : X   P   r , onde    P ( P finito)
    • Dados: amostrados da forma
    •  *   P tal que dist( g (.),   )    dist( g (.),   ), para todo    P
    • Nível de aproximação:
    • Otimização:
    • Erros:
      • representação ( bias )
      • generalização ( variância )
      • otimização
    Aproximação de funções
  • 19. Algoritmos de otimização
    • Algoritmo padrão (BP)
    • Método do gradiente (GRAD)
    • Método de Newton (MN)
    • Método de Levenberg-Marquardt (LM)
    • Método do gradiente conjugado (GC)
    • Método de Fletcher & Reeves (FR)
    • Método de Polak-Ribère (PR)
    • Gradiente conjugado escalonado (SCG)
    • Davidon-Fletcher-Powell (DFP)
    • Broyden-Fletcher-Goldfarb-Shanno (BFGS)
    • One-Step Secant (OSS)
    1 a ordem 2 a ordem 2 a ordem (grad. conjugado) 2 a ordem (quase-Newton) 2 a ordem
  • 20. Algoritmos de otimização
  • 21.
    • Algoritmo padrão (BP)
      • passo fixo
    Métodos de 1 a ordem (I)
    • Método do gradiente (GRAD)
      • Busca simples do passo
    momento
  • 22. Métodos de 1 a ordem (II) Exemplo 1: Problema XOR (OU-exclusivo)
    • Rede: [2-10-1]
    • SSE: 0.01
  • 23. Métodos de 1 a ordem (III) Algoritmo padrão com e sem momento Método do gradiente Exemplo 1: Erro
  • 24.
    • Newton modificado (NM)
    • Levenberg-Marquardt (LM)
    Métodos de 2 a ordem (I) Positivando a Hessiana Gauss-Newton
  • 25. Métodos de 2 a ordem (II) Exemplo 1: Levenberg-Marquardt Erro
  • 26.
    • Davidon-Fletcher-Powell (DFP)
    • Broyden-Fletcher-Goldfarb-Shanno (BFGS)
    Métodos de 2 a ordem (III) Quase-Newton Aproximação iterativa da inversa da Hessiana:
  • 27. Métodos de 2 a ordem (IV) Exemplo 1: Quase-Newton DFP BFGS Erro
  • 28.
    • Secantes de um Passo (OSS)
    Métodos de 2 a ordem (V) Exemplo 1: Erro
  • 29.
    • Polak-Ribière (PR)
    • Fletcher & Reeves (FR)
    Métodos de 2 a ordem (VI) Gradiente Conjugado Passo  i
  • 30. Métodos de 2 a ordem (VII) PR FR Exemplo 1: Erro
  • 31.
    • Gradiente conjugado escalonado modificado
      • evita a busca unidimensional através de um escalonamento do passo de ajuste  [M OLLER ,1993]
      • modificado: cálculo exato da informação de segunda ordem [P EARLMUTTER ,1994]
    Métodos de 2 a ordem (VIII) Exemplo 1: Erro
  • 32. Complexidade Computacional P : graus de liberdade do modelo l : número de unidades na N : número de amostras camada intermediária
  • 33. Detalhes de implementação/Variações
    • Os métodos de segunda ordem (QN & GC) foram projetados para problemas quadráticos
    • Momento de segunda ordem:
    • Variação do ganho da função de ativação:
    • Normalização dos dados de entrada:
    Busca unidimensional Reinicialização do algoritmo  tanh(  x )
  • 34.
    • Minimizar:
    • Mínimo: f (2, 1) = 0
    • Ponto inicial: ( x 1 , x 2 ) = (0, 0)
    • Estratégias:
      • método do gradiente (GRAD)
      • método de Newton (MN)
      • método de Davidon-Fletcher-Powell (DFP)
      • método de gradiente conjugado (GC)
    Algoritmos de otimização não-linear irrestrita Exemplo 2: Propriedades de convergência
  • 35. Algoritmos de otimização (139) GRAD (1) MN (9) GC (13) DFP
  • 36.
    • Determinação da taxa
    • Busca inexata
      • simples
    Taxas de Aprendizagem Globais (I)
    • Busca exata
      • método de Fibonacci
      • método da Seção Áurea
      • método da Falsa Posição
  • 37.
    • Garantia de ajustes minimizantes
    • Encontrar um valor ótimo para  i  (0, ]
    • Subproblema: J (  i +  i d i )
    • Busca unidimensional: d   P fixo
    Taxas de Aprendizagem Globais (II)
  • 38. Algoritmos
    • Busca Simples
    • Falsa posição
  • 39. Taxas de Aprendizagem Globais (III) Exemplo 3: Busca simples Alfa
  • 40. Algoritmos - Seção Áurea
  • 41. Taxas de Aprendizagem Globais (IV) Exemplo 4: Redução do intervalo de incertezas
    • Problema: min f ( x i +  i d i ) s.a.   (0, 1]
    • Onde:
    • Mínimo: f (2, 1) = 0
    • Ponto inicial: ( x 1 , x 2 ) = (0, 0) e d = [1, -1]
    • Estratégias:
      • método da Seção Áurea (GOLD)
      • método de Fibonacci (FIB)
      • método da Falsa Posição (FP)
  • 42. Taxas de Aprendizagem Globais (V) Exemplo 4: (20) Fibonacci (20) Seção áurea (6) Falsa posição
  • 43. Exemplo Atualização em lote: 625 amostras do Exercício 3
  • 44. Exemplo - exercício 3 Parâmetros: nh = 10; minerr = 0.64; maxep = 1000; val = 0.5; dn = 0.001; cm = 0.9;
  • 45. Exemplo - exercício 3
  • 46. Exemplo - exercício 3 Comportamento do SSE (soma dos erros quadráticos)
  • 47.
    • XOR - paridade
      • k = 2; N = 4 e m = 1
    • COD/DEC - paridade
      • k = 10; N = 10 e m = 10
    • sen( x )  cos(2 x ) - aproximação de funções
      • k = 1; N = 21 e m = 1
    • ESP - aproximação de funções
      • k = 2; N = 75 e m = 5
    • SOJA - aproximação de funções
      • k = 36; N = 144 e m = 1
    • IRIS - classificação
      • k = 4; N = 150 e m = 1
    • ECOLI - classificação
      • k = 7; N = 336 e m = 1
    • GLASS - classificação
      • k = 10; N = 214 e m = 1
    Problemas Abordados
  • 48.
    • Algoritmo padrão (BP)
    • Método do gradiente (GRAD)
    • Fletcher & Reeves (FR)
    • Pollak-Ribière (PR)
    • Gradiente conjugado escalonado modificado (SCGM)
    • One step secant (OSS)
    • Davidon-Fletcher-Powell (DFP)
    • Broyden-Fletcher-Goldfarb-Shanno (BFGS)
    Algoritmos Implementados
  • 49. Velocidade de Convergência (I) Exemplo 5: Problema XOR (OU-exclusivo)
  • 50. Velocidade de Convergência (II) Exemplo 6: Problema sen( x ).cos(2 x )
  • 51. Velocidade de Convergência (III) Exemplo 7: Problema GLASS
  • 52. Velocidade de Convergência (IV) Estatísticas: Épocas Tempo de processamento Esforço computacional ( flops )
  • 53. Referências (I)
    • Barnard, E. , “Optimization for Training Neural Nets”, IEEE Trans. on Neural Networks , vol. 3, n° 2, 1992.
    • Battiti, R., “First- and Second-Order Methods for Learning: Between Steepest Descent and Newton’s Method”, Neural Computation , vol. 4, pp. 141-166, 1992.
    • Battiti, R., “Learning with First, Second, and no Derivatives: A Case Study in High Energy Physics”, Neurocomputing , NEUCOM 270, vol. 6, pp. 181-206, 1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.
    • Castro, L.N. , “Análise e Síntese de Estratégias de Aprendizagem para redes Neurais Artificiais”, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.
    • Fahlman, S.E., “An Empirical Study of Learning Speed in Back-Propagation Networks”, Technical Report , September 1988, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z
    • Fiesler, E., “Comparing Parameterless Learning Rate Adaptation Methods,” Proceedings of the ICNN’97 , pp. 1082-1087, 1997.
    • Finschi, L. , “An Implementation of the Levenberg-Marquardt Algorithm”, Technical Report , April 1996, URL: http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.
    • Groot, C. de & Würtz, D. , “Plain Backpropagation and Advanced Optimization Algorithms: A Comparative Study”, NEUCOM 291, vol. 6, pp.153-161, 1994.
  • 54.
    • Haygan, M.T. , “Training Feedforward Networks with the Marquardt Algorithm”, IEEE Trans. on Neural Networks , vol. 5, n° 6, pp. 989-993, 1994.
    • Jacobs, R.A. , “Increased Rates of Convergence Through Learning Rate Adaptation”, Neural Networks , vol. 1, pp. 295-307, 1988, URL: http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUM-CS-1987-117
    • Jondarr, C.G.H. , “Back Propagation Family Album”, Technical Report C/TR96-5 , 1996, URL: ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.
    • Joost, M. & Schiffman, W. , “Speeding Up Backpropagation Algorithms by Using Cross-Entropy Combined With Pattern Normalization”, International Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems , 1993, URL: http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz
    • Moller, M.F., “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks , vol. 6, pp. 525-533, 1993.
    • Pearlmutter, B.A., “Fast Exact Calculation by the Hessian”, Neural Computation , vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohio-state.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.
    Referências (II)
  • 55.
    • Shepherd, A.J. , “Second-Order Methods for Neural Networks – Fast and Reliable Methods for Multi-Layer Perceptrons”, Springer, 1997.
    • Shewchuk, J.R ., “An Introduction to the Conjugate Gradient Method Without the Agonizing Pain”, Technical Report, 1994, URL: http://www.cs.cmu.edu/ afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.
    • Schiffman, W., Joost, M., & Werner, R. , “Optimization of the Backpropagation Algorithm for Training Multilayer Perceptrons”, Technical Report , 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff. bp_speedup.ps.Z.
    • Stäger, F., & Agarwal, M. , “Three Methods to Speed up the Training of Feedforward and Feedback Perceptrons”, Neural Networks , vol. 10, n° 8, pp. 1435-1443, 1997.
    • Van Der Smagt, P., P , “Minimization Methods for Training Feedforward Neural networks,” Neural Networks, vol 1, n° 7, 1994, URL: http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz
    • Von Zuben, F.J. , “Modelos Paramétricos e Não-Paramétricos de Redes neurais Artificiais e Aplicações”, Tese de Doutorado , Faculdade de Engenharia Elétrica, Unicamp, 1996.
    Referências (III)

×