Your SlideShare is downloading. ×
0
Échantillonnage de champs gaussiens de grande                        dimension         Olivier Féron1 & François Orieux2 &...
Sommaire          Introduction : contexte applicatif          Algorithme de Perturbation-Optimisation          Illustratio...
Résolution de problèmes inverses dans un cadre  bayésien          Contexte :                Modèle direct linéaire y = Hx ...
Échantillonnage de champ gaussien          p(x|θ, y) est gaussienne de matrice de covariance                dépendant de θ...
Loi a posteriori conditionnelle          Modèle direct : y = Hx + b          Hypothèses :             H linéaire (dépendan...
Perturbation de critère          Tirage aléatoire indépendant suivant les lois a priori                                   ...
Preuve                                      post      −1     −1                                 x = Rx                    ...
Algorithme de Perturbation - Optimisation          Objectif : tirer un échantillon x ∼ N mpost , Rx                       ...
Applications          Algorithme simple à mettre en œuvre                Échantillonnage de bruits gaussiens              ...
Applications : Tomographie micro-onde          Reconstruction d’image en tomographie micro-onde                           ...
Illustration en super-résolution d’image                             Vraie image   Une image basse résolution          Mod...
Illustration en super-résolution          Loi a posteriori jointe :                         M/2−1 (N−1)/2−1           γb  ...
Illustration en super-résolution          Réconstruction d’image          Vraie image        Une image basse résolution   ...
Illustration en super-résolution          Comportement de la chaîne des hyperparamètres                             γb    ...
Généralisation          Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec                                         ...
Travaux en cours          Rapprochement avec l’algorithme de Langevin          Idée sous-jacente : alléger l’algorithme d’...
Algorithme de Langevin          Processus de Langevin                                           1                         ...
Algorithme de Langevin          Solution : considérer x(t+1) comme candidat dans un          algorithme de Hastings-Metrop...
Algorithme de Langevin          Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 ,          avec                 ...
Algorithme PO (1 étape de descente)          Critère perturbé                              ζ k ∼ N (µk , Rk ),      ∀k = 1...
Algorithme PO (1 étape de descente)          Probabilité d’acceptation             ρ(xp , xc ) = exp     − xt Qxp − xt Qxc...
Convergence de la marche aléatoire          Loi cible                                   x ∼ N (Q−1 B, Q−1 )          Proce...
Convergence de la marche aléatoire          moyenne                             µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B          ...
Marche aléatoire adaptée          Loi cible                                       x ∼ N (Q−1 B, Q−1 )          Processus d...
Marche aléatoire adaptée          moyenne                             µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B          variance  ...
Conclusion et perspectives          Communication :                Journées de statistiques (Marseilles 2010)             ...
Upcoming SlideShare
Loading in...5
×

Olivier Féron's talk at BigMC March 2011

330

Published on

Olivier Féron's talk at BigMC March 2011 (French)

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
330
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Olivier Féron's talk at BigMC March 2011"

  1. 1. Échantillonnage de champs gaussiens de grande dimension Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3 1 EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris, olivier-2.feron@edf.fr. 2 Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC, Plateau de Moulon, 91192 Gif-sur-Yvette Cedex, orieux@lss.supelec.fr. 3 Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image, Université de Bordeaux 1, 33405 Talence, France, Giova@IMS-Bordeaux.fr.Séminaire BigMC, mars 2011 1 / 26
  2. 2. Sommaire Introduction : contexte applicatif Algorithme de Perturbation-Optimisation Illustration en super-résolution d’image Travaux en cours Conclusions et perspectivesSéminaire BigMC, mars 2011 2 / 26
  3. 3. Résolution de problèmes inverses dans un cadre bayésien Contexte : Modèle direct linéaire y = Hx + b H dépend de θ éventuellement inconnu Lois a priori sur b et x gaussiennes conditionnellement θ Inversion : Estimer conjointement x et θ à partir de p(x, θ|y) p(x, θ|y) difficile à manipuler Approche possible : échantillonneur de Gibbs =⇒ problème d’échantillonnage de p(x|θ, y)Séminaire BigMC, mars 2011 3 / 26
  4. 4. Échantillonnage de champ gaussien p(x|θ, y) est gaussienne de matrice de covariance dépendant de θ et H non creuse en général de très grande dimension (le nombre de pixel de x) Méthodes d’échantillonnage existantes : Échantillonnage pixel par pixel Algorithme de Hastings-Metropolis Échantillonnage par FFT (si H est circulant) Contribution Méthode d’échantillonnage par un algorithme de type Perturbation-Optimisation, valable quel que soit H.Séminaire BigMC, mars 2011 4 / 26
  5. 5. Loi a posteriori conditionnelle Modèle direct : y = Hx + b Hypothèses : H linéaire (dépendant de θ) b|θ ∼ N (0, Rb ) x|θ ∼ N (mx , Rx ) Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx ) x post −1 post −1 −1 Rx = H t Rb H + Rx −1 −1 mpost x post = Rx H t Rb y + Rx mx mpost est le minimum d’un critère quadratique : x mpost x = arg min {J(x|y, mx , θ)} x 2 2 J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1Séminaire BigMC, mars 2011 5 / 26
  6. 6. Perturbation de critère Tirage aléatoire indépendant suivant les lois a priori y ∼ N (y, Rb ) mx ∼ N (mx , Rx ) Minimiseur : x ˆ = arg min {J(x|y, mx , θ)} x 2 2 J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1 post −1 −1 x = Rx ˆ H t Rb y + Rx mx Proposition x ∼ N mpost , Rx ˆ x postSéminaire BigMC, mars 2011 6 / 26
  7. 7. Preuve post −1 −1 x = Rx ˆ H t Rb y + Rx mx Moyenne de x : ˆ E [x] = Rx ˆ post H t Rb E[y] + Rx E[mx ] = mpost −1 −1 x Covariance de x : ˆ E[xxt ] = Rx E t post −1 −1 −1 −1 post ˆˆ H t Rb y + Rx mx H t Rb y + Rx mx Rx = Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx post −1 −1 −1 −1 post post −1 −1 −1 −1 post = Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx = E [x] E [x] + Rx tpost −1 −1 post ˆ ˆ H t Rb H + Rx Rx = E [x] E [x] + Rx tpost ˆ ˆ V[x] = Rx ˆ postSéminaire BigMC, mars 2011 7 / 26
  8. 8. Algorithme de Perturbation - Optimisation Objectif : tirer un échantillon x ∼ N mpost , Rx ˆ x post Algorithme proposé Étape P (perturbation) : tirage de y et mx indépendamment suivant y ∼ N (y, Rb ) mx ∼ N (mx , Rx ) Étape O (optimisation) : minimisation du critère x = arg min {J(x|y, mx , θ)} ˆ x Conditions d’utilisation lois a priori facilement échantillonnables lois a priori gaussiennes conditionnellement à θ (lois gaussiennes, modèles à variable cachée,...)Séminaire BigMC, mars 2011 8 / 26
  9. 9. Applications Algorithme simple à mettre en œuvre Échantillonnage de bruits gaussiens Optimisation d’un critère quadratique Double intérêt : un seul algorithme pour atteindre la moyenne et la variance cibles Possibilité de relier les problèmes inverses de reconstruction d’images les méthodes MCMC Possibilité d’accéder à des méthodes d’estimation non-supervisées à la distribution entière des inconnues (pour des écart types, des intervalles de confiance,...)Séminaire BigMC, mars 2011 9 / 26
  10. 10. Applications : Tomographie micro-onde Reconstruction d’image en tomographie micro-onde y = GS w + ε w = XE inc + XGD w + η Modèle non linéaire reliant l’image d’intérêt x aux données observées y Modèle bilinéaire par rapport aux inconnues x et w (courants induits) Loi a priori de mélange de gaussiennes pour x p(x|z) = N (mz , Σz ) Loi a posteriori conditionnellement gaussiennes pour l’image x les courants induits wSéminaire BigMC, mars 2011 10 / 26
  11. 11. Illustration en super-résolution d’image Vraie image Une image basse résolution Modèle direct : y = P Hx + b y ∈ RM : images de basse résolution −→ données H : matrice de convolution P : matrice de sous-échantillonnage x ∈ RN : image originale Hypothèses −1 b ∼ N (0, γb I) −1 x ∼ N (0, γx D t D), avec D opérateur laplacien. a priori de Jeffreys pour γb et γxSéminaire BigMC, mars 2011 11 / 26
  12. 12. Illustration en super-résolution Loi a posteriori jointe : M/2−1 (N−1)/2−1 γb 2 γx 2 p(x, γb , γx |y) ∝ γb γx exp − y − P Hx exp − Dx . 2 2 Échantillonneur de Gibbs pour l’inversion non supervisée 1 Initialisation avec k = 1 et x(0) = x0 (k ) 2 2 Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1) (k ) 2 3 Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1) 4 Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation x post 5 k =k +1 6 Retour en 2 ou arrêt si respect d’un critère d’arrêtSéminaire BigMC, mars 2011 12 / 26
  13. 13. Illustration en super-résolution Réconstruction d’image Vraie image Une image basse résolution Image estiméeSéminaire BigMC, mars 2011 13 / 26
  14. 14. Illustration en super-résolution Comportement de la chaîne des hyperparamètres γb γxSéminaire BigMC, mars 2011 14 / 26
  15. 15. Généralisation Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec K t −1 Q = Mk Rk Mk k =1 K t −1 B = Mk Rk µk k =1 Perturbation-Optimization algorithm 1 Step P (Perturbation) : Générer les variables gaussiennes indépendantes ζ k , k = 1, . . . , K suivant ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K 2 Step O (Optimisation) : Calculer le minimiseur x du critère ˜ K −1 J(x|ζ 1 , . . . , ζ K ) = (ζ k − Mk x)t Rk (ζ k − Mk x) k =1Séminaire BigMC, mars 2011 15 / 26
  16. 16. Travaux en cours Rapprochement avec l’algorithme de Langevin Idée sous-jacente : alléger l’algorithme d’optimisation par une simple descente de gradient. Algorithme de Hastings-Metropolis Processus discret de diffusion ayant pour loi invariante la loi cible Étude de convergence en prenant en compte le critère d’arrêt de l’algorithme d’optimisation.Séminaire BigMC, mars 2011 16 / 26
  17. 17. Algorithme de Langevin Processus de Langevin 1 dXt = − J(Xt )dt + dBt 2 Loi stationnaire du processus : π(x) = C exp {−J(x)} En pratique : discrétisation du processus de diffusion τ2 x(t+1) = x(t) − J x(t) + τ εt 2 Problème : la loi invariante n’est plus π.Séminaire BigMC, mars 2011 17 / 26
  18. 18. Algorithme de Langevin Solution : considérer x(t+1) comme candidat dans un algorithme de Hastings-Metropolis. τ x(t+1) ∼ N x(t) − J x(t) ; τ 2I 2 probabilité d’acceptation exp −J(x(t+1) ) ρ(x(t+1) , x(t) ) = ... exp −J(x(t) ) exp − τ12 x(t) − x(t+1) − τ 2 J(x(t+1) ) 2 ... exp − τ12 x(t+1) − x(t) − τ 2 J(x(t) ) 2Séminaire BigMC, mars 2011 18 / 26
  19. 19. Algorithme de Langevin Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 , avec K K t −1 t −1 Q= Mk Rk Mk , B= Mk Rk µk k =1 k =1 π(x) ∝ exp {−J(x)}, avec K 1 t t−1 t J(x) = µk − Mk x Rk µk − Mk x 2 k =1 J(x) = Qx − B Échantillon candidat τ xp = xc − (Qxc − B) + ε, ε ∼ N (0, τ 2 I) 2Séminaire BigMC, mars 2011 19 / 26
  20. 20. Algorithme PO (1 étape de descente) Critère perturbé ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K K ˜ 1 −1 J(x) = (ζ k − Mk x)t Rk (ζ k − Mk x) 2 k =1 ˜ J(x) = Qx − B + ε = J(x) + ε avec ε ∼ N (0, Q) Échantillon candidat xp = xc − τ (Qxc − B) + ε, ε ∼ N (0, τ 2 Q)Séminaire BigMC, mars 2011 20 / 26
  21. 21. Algorithme PO (1 étape de descente) Probabilité d’acceptation ρ(xp , xc ) = exp − xt Qxp − xt Qxc − 2B t (xp − xc ) ... p c 1 − (xp − xc )t (xp + xc − 2Q−1 B) τ Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible. Dans le cas particulier où la loi cible est N (0, Q−1 ), alors l’algorithme de Hastings Metropolis est utilsable.Séminaire BigMC, mars 2011 21 / 26
  22. 22. Convergence de la marche aléatoire Loi cible x ∼ N (Q−1 B, Q−1 ) Processus de marche aléatoire x(t+1) = x(t) − τ (Qx(t) − B) + εt , εt ∼ N (0, τ 2 Q) Proposition La loi invariante du processus précédent est N (µ, R), avec µ = Q−1 B R = τ (2I − τ Q)−1 Un exemple qui montre que la loi invariante du processus de Langevin discrétisé est différente de celle du processus continu. Ce processus peut donner un estimateur de la moyenne cible.Séminaire BigMC, mars 2011 22 / 26
  23. 23. Convergence de la marche aléatoire moyenne µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B variance R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q Prenons R = τ (2I − τ Q)−1 (I − τ Q)R = (2I − τ Q)R − R = τ I − R ⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q) = τ (I − τ Q) − R(I − τ Q) = τ I − τ 2 Q − R(2I − τ Q) + R = R − τ 2QSéminaire BigMC, mars 2011 23 / 26
  24. 24. Marche aléatoire adaptée Loi cible x ∼ N (Q−1 B, Q−1 ) Processus de marche aléatoire x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) , objectif : trouver la variance de ε(t) telle que la loi invariante de la marche aléatoire soit la loi cible. Proposition Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire définie par x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) admet pour loi invariante la loi N (Q−1 B, Q−1 )Séminaire BigMC, mars 2011 24 / 26
  25. 25. Marche aléatoire adaptée moyenne µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B variance R telle que R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q ⇒ τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0 R = Q−1 est solution.Séminaire BigMC, mars 2011 25 / 26
  26. 26. Conclusion et perspectives Communication : Journées de statistiques (Marseilles 2010) Article court pour IEEE Signal Processing Letter Perspectives Étude de convergence du maximum numérique Poursuite vers un algorithme « allégé » et étude de convergence Communication vers la communauté statistiqueSéminaire BigMC, mars 2011 26 / 26
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×