Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et exploration de soluti...
Plan de l’exposé <ul><li>Introduction aux algorithmes d’apprentissage et aux réseaux de neurones </li></ul><ul><li>Ineffic...
Algorithmes d’apprentissage <ul><li>Problématique (exemple marketing ciblé) </li></ul><ul><li>Trouver P(c i |x 1 , x 2 ….)...
sortie z  cible t t 1 t k y 1 x i x D y 2 y j y N w jk w ij x 1 Réseaux de neurones et notion de capacité P(c 1 |x 1 ,x 2 ...
Interprétation en terme de plans séparateurs x 1 x 2 1  2  3  4  5  6 6 5 4 3 2 1
Comportement attendu en fonction de la capacité
Contexte <ul><li>Problème complexe  grande capacité </li></ul><ul><li>Limitations: </li></ul><ul><li>Technique d’optimisat...
Inefficacité des réseaux de grande capacité (en nombre d’erreurs)
Inefficacité des réseaux de grande capacité (en temps de calcul)
Constatation: comportement idéalisé du ratio temps temps Ratio temps 1 2N 4N N
Est-ce que l’inefficacité des réseaux de grande capacité est normale? <ul><li>Hypothèse:  </li></ul><ul><li>L’inefficacité...
sortie z  cible t z 1 Z k t 1 t k y 1 x i x D y N w kj w ij x 1 Réseaux de neurones et équations y 2 y j
Le processus d’apprentissage ralentit lorsqu’on apprend les relations non-linéaires
Espace de solutions du réseau de N+K neurones Espace de solutions  du réseau de N neurones Espace de solutions
Solution État initial Exemple 5 itérations  3 itérations s équivalentes
Les problèmes <ul><li>Déplacement de la cible </li></ul><ul><li>L’atténuation et dilution du gradient </li></ul><ul><li>Mé...
sortie z  cible t z 1 Z k t 1 t k y 1 x i x D y N w jk w ij x 1 Réseaux de neurones et équations y 2 y j
Les solutions explorées <ul><li>Réseaux incrémentaux </li></ul><ul><li>*Réseaux avec optimisation d’une partie des paramèt...
Réseaux incrémentaux : 1ère approche (ajouts de plans séparateurs)
Réseaux incrémentaux : 1ère approche (Optimisation pour les poids fixes)
Hypothèses OK Réseaux incrémentaux Symétrie Dilution gradient mécanisme de spécialisation Gradient contradictoire Dépl. ci...
Réseaux incrémentaux (1): résultats
Pourquoi ça ne marche pas?  Hypothèse basée sur les points critiques w 1 w 2 Coût en fonction des poids w 3
Exemple
 
 
Réseaux incrémentaux : 2ème approche (ajouts de couches cachées) z 1 z 2 y 1 x 1 x 2 y 2 y 3 y 4 z 1 z 2 x 1 x 2
Courbure de la fonction de coût J J J w w w
Hypothèses OK Réseaux incrémentaux  Symétrie Dilution gradient Mécanisme de spécialisation Gradient contradictoire Dépl. c...
Réseaux incrémentaux (2): résultats
Architecture découplée
In efficacité des réseaux de grande capacité (en temps de calcul)
Efficacité des réseaux de grande capacité: architecture découplée
Hypothèses ok Élimination Architecture découplée Symétrie Dilution gradient Mécanisme de spécialisation Gradient contradic...
Architecture découplée
Pourquoi prédire les valeurs futures des paramètres? (observations) # Époque Valeurs
Hypothèses * Avantage: possibilité de réduire le nombre d’époques en utilisant l’historique des valeurs des paramètres pou...
Prédiction : extrapolation quadratique sporadique
Contributions <ul><li>Indices du problème d’optimisation des réseaux de grande capacité </li></ul><ul><li>Pour une capacit...
Travaux futurs <ul><li>Est-ce que l’inefficacité de l’apprentissage des réseaux de neurones est généralisable pour tous le...
Conclusion <ul><li>Objectif: comprendre pourquoi l’apprentissage des réseaux de grande capacité est inefficace </li></ul><...
 
Exemple :solution linéaire
Exemple :solution hautement non-linéaire
Sélection des connections influençant le plus le coût
Sélection des connections influençant le plus l’erreur T = 1 S = 0 T = 0 S = 1 T = 0 S = 0.1 T = 0 S = 0.1
Réduction du Problème de déplacement de la cible
Hypothèses Oui Opt. partie Symétrie Dilution gradient Mécanisme de spécialisation Gradient contradictoire Dépl. cible Prob...
Réseaux avec optimisation d’une partie des paramètres: résultats Optimisation   d e tous   les param ètres Optimisation  m...
Prédiction : augmentation sporadique du pas
Modifier l’architecture modifie l’espace de solutions Symétrie Modification OK Modifier l’architecture Espace de solutions...
Upcoming SlideShare
Loading in …5
×

Soutenance 17 Avril 2003

615 views
552 views

Published on

Voici les acétates utilisées lors de la soutenance de ma maitrise en 2003 intitulée:
&quot;Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et exploration de solutions&quot;
Superviseur: Yoshua Bengio

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
615
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Soutenance 17 Avril 2003

  1. 1. Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et exploration de solutions Francis Piéraut 17 avril 2003 Directeur de recherche: Jean-Jules Brault Co-directeur de recherche: Yoshua Bengio
  2. 2. Plan de l’exposé <ul><li>Introduction aux algorithmes d’apprentissage et aux réseaux de neurones </li></ul><ul><li>Inefficacité des réseaux de grande capacité (nombre d’erreurs et temps) </li></ul><ul><li>Est-ce normal? </li></ul><ul><li>Les différents problèmes d’optimisation </li></ul><ul><li>Les différentes solutions / résultats </li></ul><ul><li>Contributions </li></ul><ul><li>Travaux futurs </li></ul><ul><li>Conclusion </li></ul>
  3. 3. Algorithmes d’apprentissage <ul><li>Problématique (exemple marketing ciblé) </li></ul><ul><li>Trouver P(c i |x 1 , x 2 ….) à partir d’exemples </li></ul><ul><li>Une solution = Réseaux de Neurones </li></ul><ul><ul><li>Aucune connaissance a priori sur la distribution </li></ul></ul>
  4. 4. sortie z cible t t 1 t k y 1 x i x D y 2 y j y N w jk w ij x 1 Réseaux de neurones et notion de capacité P(c 1 |x 1 ,x 2 … ) P(c k |x 1 ,x 2 … ) z 1 z k = Neurone = Sigmo ï de = Fonction linéaire = Connexion
  5. 5. Interprétation en terme de plans séparateurs x 1 x 2 1 2 3 4 5 6 6 5 4 3 2 1
  6. 6. Comportement attendu en fonction de la capacité
  7. 7. Contexte <ul><li>Problème complexe grande capacité </li></ul><ul><li>Limitations: </li></ul><ul><li>Technique d’optimisation du 1er ordre (rétro-propagation stochastique) </li></ul><ul><li>Architecture standard </li></ul><ul><li>Un seul pas </li></ul><ul><li>Le surapprentissage de ce type de problème est négligé </li></ul><ul><li>Base de données : </li></ul><ul><li>« Letters » 26 classes /16 caract éristiques /20000 exemples </li></ul>
  8. 8. Inefficacité des réseaux de grande capacité (en nombre d’erreurs)
  9. 9. Inefficacité des réseaux de grande capacité (en temps de calcul)
  10. 10. Constatation: comportement idéalisé du ratio temps temps Ratio temps 1 2N 4N N
  11. 11. Est-ce que l’inefficacité des réseaux de grande capacité est normale? <ul><li>Hypothèse: </li></ul><ul><li>L’inefficacité est causée par l’augmentation des problèmes d’optimisation plus le réseau a de capacité </li></ul><ul><ul><li>Solutions linéaires versus solutions non-linéaires </li></ul></ul><ul><ul><li>Espace de solutions </li></ul></ul><ul><li>Solution à l’inefficacité = réduire ou éliminer les problèmes reliés à la rétro-propagation </li></ul>
  12. 12. sortie z cible t z 1 Z k t 1 t k y 1 x i x D y N w kj w ij x 1 Réseaux de neurones et équations y 2 y j
  13. 13. Le processus d’apprentissage ralentit lorsqu’on apprend les relations non-linéaires
  14. 14. Espace de solutions du réseau de N+K neurones Espace de solutions du réseau de N neurones Espace de solutions
  15. 15. Solution État initial Exemple 5 itérations 3 itérations s équivalentes
  16. 16. Les problèmes <ul><li>Déplacement de la cible </li></ul><ul><li>L’atténuation et dilution du gradient </li></ul><ul><li>Mécanisme de spécialisation </li></ul><ul><li>Les gradients contradictoires (classification) </li></ul><ul><li>Problème de symétrie </li></ul>
  17. 17. sortie z cible t z 1 Z k t 1 t k y 1 x i x D y N w jk w ij x 1 Réseaux de neurones et équations y 2 y j
  18. 18. Les solutions explorées <ul><li>Réseaux incrémentaux </li></ul><ul><li>*Réseaux avec optimisation d’une partie des paramètres </li></ul><ul><li>Prédiction des valeurs des paramètres </li></ul><ul><li>Réseaux avec architecture découplée </li></ul>
  19. 19. Réseaux incrémentaux : 1ère approche (ajouts de plans séparateurs)
  20. 20. Réseaux incrémentaux : 1ère approche (Optimisation pour les poids fixes)
  21. 21. Hypothèses OK Réseaux incrémentaux Symétrie Dilution gradient mécanisme de spécialisation Gradient contradictoire Dépl. cible Problèmes Solutions
  22. 22. Réseaux incrémentaux (1): résultats
  23. 23. Pourquoi ça ne marche pas? Hypothèse basée sur les points critiques w 1 w 2 Coût en fonction des poids w 3
  24. 24. Exemple
  25. 27. Réseaux incrémentaux : 2ème approche (ajouts de couches cachées) z 1 z 2 y 1 x 1 x 2 y 2 y 3 y 4 z 1 z 2 x 1 x 2
  26. 28. Courbure de la fonction de coût J J J w w w
  27. 29. Hypothèses OK Réseaux incrémentaux Symétrie Dilution gradient Mécanisme de spécialisation Gradient contradictoire Dépl. cible Problèmes Solutions
  28. 30. Réseaux incrémentaux (2): résultats
  29. 31. Architecture découplée
  30. 32. In efficacité des réseaux de grande capacité (en temps de calcul)
  31. 33. Efficacité des réseaux de grande capacité: architecture découplée
  32. 34. Hypothèses ok Élimination Architecture découplée Symétrie Dilution gradient Mécanisme de spécialisation Gradient contradictoire Dépl. cible Problèmes Solutions
  33. 35. Architecture découplée
  34. 36. Pourquoi prédire les valeurs futures des paramètres? (observations) # Époque Valeurs
  35. 37. Hypothèses * Avantage: possibilité de réduire le nombre d’époques en utilisant l’historique des valeurs des paramètres pour prédire leurs futures valeurs Prédiction des paramètres Symétrie Dilution gradient Inexistence d’un méc. de spécialisation Gradient contradictoire Dépl. cible Problèmes Solutions
  36. 38. Prédiction : extrapolation quadratique sporadique
  37. 39. Contributions <ul><li>Indices du problème d’optimisation des réseaux de grande capacité </li></ul><ul><li>Pour une capacité finale identique: présentation d’une solution qui permet: </li></ul><ul><ul><li>Accélération de l’apprentissage </li></ul></ul><ul><ul><li>Meilleur taux d’apprentissage </li></ul></ul><ul><li>Présentation d’une solution qui ne dégrade pas la vitesse d’apprentissage plus le réseaux a de la capacité (Architecture découplée/ importance du problème des gradients contradictoires) </li></ul>
  38. 40. Travaux futurs <ul><li>Est-ce que l’inefficacité de l’apprentissage des réseaux de neurones est généralisable pour tous les problèmes? </li></ul><ul><li>En classification, est-ce que l’architecture découplée est un meilleur choix pour des réseaux de grande capacité? </li></ul><ul><li>Est-ce que notre hypothèse reliée aux points critiques est applicable dans le contexte des réseaux de grande capacité? </li></ul><ul><li>Ajout de couches cachées: pourquoi cette technique ne fonctionne pas pour l’ajout de couches successives ? </li></ul><ul><li>Optimiser une partie des paramètres </li></ul><ul><ul><li>Meilleur compréhension des résultats </li></ul></ul><ul><ul><li>Quel serait l’algorithme de sélection de paramètres le plus efficace? </li></ul></ul><ul><li>Existe t-il une technique pour prédire les valeurs des paramètres, en fonction de leur historique, qui serait vraiment efficace ? </li></ul>
  39. 41. Conclusion <ul><li>Objectif: comprendre pourquoi l’apprentissage des réseaux de grande capacité est inefficace </li></ul><ul><li>Indices expérimentaux de l’inefficacité des réseaux de grande capacité (nombre d’erreurs et temps) </li></ul><ul><li>Les différents problèmes d’optimisation </li></ul><ul><li>Solutions explorées : </li></ul><ul><ul><li>Réseaux incrémentaux (plans séparateurs) </li></ul></ul><ul><ul><li>Réseaux incrémentaux (couches cachées) </li></ul></ul><ul><ul><li>Réseaux avec prédiction des paramètres </li></ul></ul><ul><ul><li>Réseaux avec une architecture découplée </li></ul></ul>
  40. 43. Exemple :solution linéaire
  41. 44. Exemple :solution hautement non-linéaire
  42. 45. Sélection des connections influençant le plus le coût
  43. 46. Sélection des connections influençant le plus l’erreur T = 1 S = 0 T = 0 S = 1 T = 0 S = 0.1 T = 0 S = 0.1
  44. 47. Réduction du Problème de déplacement de la cible
  45. 48. Hypothèses Oui Opt. partie Symétrie Dilution gradient Mécanisme de spécialisation Gradient contradictoire Dépl. cible Problèmes Solutions
  46. 49. Réseaux avec optimisation d’une partie des paramètres: résultats Optimisation d e tous les param ètres Optimisation max sensibilité
  47. 50. Prédiction : augmentation sporadique du pas
  48. 51. Modifier l’architecture modifie l’espace de solutions Symétrie Modification OK Modifier l’architecture Espace de solutions Dilution gradient mécanisme de spécialisation Gradient contradictoire Dépl. cible Problèmes Solutions

×