2. Introduction
Contexte : inf´rence bay´sienne
e e
Donn´es D ; On cherche ` estimer un param`tre θ
e a e
Distribution a posteriori L(θ|D)π(θ)
Beaucoup de m´thodes (par ex. MCMC) se fondent sur un
e
calcul de la vraisemblance L(θ|D) = P(D|θ)
Probl`me : Comment faire lorsque ce calcul est trop difficile
e
ou trop coˆteux ?
u
2/24
4. Plan
Pr´sentation de l’algorithme de base
e
Application : datation de l’ancˆtre des primates
e
Utilisation de statistiques exhaustives ; facteur de Bayes
Application : Repliement de prot´ines
e
ABC-MCMC
4/24
5. Contexte
Vraisemblance L(θ|D) difficile ou impossible ` calculer
a
Mais facile de simuler un nouveau jeu de donn´es d’apr`s le
e e
mod`le : D = f (θ)
e
5/24
7. Algorithme Approximate Bayesian Computation
Donn´es discr`tes D.
e e
Distribution a priori π(θ).
On cherche Θ ∼ π(θ) · P(D|θ)
1 Tirer θ ∼ π
2 Simuler des donn´es D ∼ f (θ)
e
3 Si D = D, accepter θ ; sinon, rejeter θ
4 R´p´ter jusqu’` obtenir un ´chantillon de la taille voulue
e e a e
On obtient un ´chantillon distribu´ selon la densit´
e e e
π(θ) · P(D’ = D|θ).
Exactement la loi a posteriori.
Tr`s lent.
e
7/24
8. Algorithme Approximate Bayesian Computation
Donn´es discr`tes ou continues D
e e
Distribution a priori π(θ)
.
On cherche Θ ∼ π(θ) · P(D|θ)
Seuil
1 Tirer θ ∼ π
2 Simuler des donn´es D ∼ f (θ)
e
3 Si d(D , D) < , accepter θ ; sinon, rejeter θ
4 R´p´ter jusqu’` obtenir un ´chantillon de la taille voulue
e e a e
On obtient un ´chantillon distribu´ approximativement selon la loi
e e
a posteriori.
(Pritchard et al., 1999)
8/24
9. 3 Si d(D , D) < , accepter θ ; sinon, rejeter θ
Probl`mes :
e
Si est petit, faible taux d’acceptation
Si est grand, mauvaise approximation (quand → ∞, on
simule l’a priori)
Comment choisir d ?
9/24
10. Datation de l’ancˆtre commun des primates
e
Plagnol & Tavar´ (2004) et Wilkinson (2008)
e
ˆ
Age de l’ancˆtre commun des primates : Biologie mol´culaire
e e
90 MA ; Fossiles 60 MA
Processus de branchement (param`tre λ) ; ˆge de la racine : τ
e a
Sur les Ni esp`ces existant au temps ti (i = 1 . . . 14), on en
e
observe Di ∼ Bin(Ni , αi )
Param`tres : θ = (τ, λ, α)
e
Intervale HPD 95% : 68-99 MA
10/24
11. Statistique exhaustive
Donn´es discr`tes ou continues D
e e
Distribution a priori π(θ)
.
On cherche Θ ∼ π(θ) · P(D|θ)
Seuil
Statistique S, id´alement exhaustive
e
1 Tirer θ ∼ π
2 Simuler des donn´es D ∼ f (θ)
e
3 Si d(S(D ), S(D)) < , accepter θ ; sinon, rejeter θ
4 R´p´ter jusqu’` obtenir un ´chantillon de la taille voulue
e e a e
On obtient un ´chantillon distribu´ approximativement selon la loi
e e
a posteriori.
11/24
12. Approximations
3 Si d(S(D ), S(D)) < , accepter θ ; sinon, rejeter θ
Deux approximations :
>0
S statistique non exhaustive
12/24
13. Choix de
Quantile ` 1%
a
Attribuer des poids selon d(D , D) : (θi , ωi )
13/24
14. Repliement de prot´ines
e
Structure primaire :
KCNTATCATQRLANFLVHSSNNFGAILSSTNVGSNTY
Structure tertiaire :
(Figure : RCSB)
14/24
15. Choix de mod`le
e
Choix de mod`le (structure 3D de prot´ines), Grelaud et al. (2009)
e e
θ = (m, θm )
Facteur de Bayes :
BFm0 /m1 (D) = P(M=m0 |D)π(M=m0 )
P(M=m1 |D)π(M=m1 )
15/24
16. Repliement de prot´ines
e
1
Vraisemblance : L(θ|D) = Zθ exp(θ i∼i I{xi =xi } )
1
L(θm |D) = Zθm ,m exp(θm m
i ∼i
I{xi =xi } ), m = 0 . . . M − 1,
θm ∈ Θm
Sm = ∼
i mi
I{xi =xi }
S = (S0 (·), . . . , SM−1 (·)) est une statistique exhaustive pour
(m, θ0 , . . . , θM−1 )
16/24
17. ABC pour choix de mod`le
e
1 Tirer m ∼ πM (·)
2 Tirer θm ∼ πm (·)
3 Simuler D ∼ fm (θm )
4 Si d(S(D ), S(D)) < , accepter θ ; sinon, rejeter θ
5 R´p´ter
e e
17/24
18. Ca marche ?
¸
Gauche : = 0 ; Droite : quantile ` 1%
a
18/24
20. ABC-MCMC
1 Partant de θn , proposer θn+1 = θ
→θn
2 Calculer α = min 1, P(D|θ )π[(θ )q(θ→θ ) )
P(D|θ)π(θ)q(θn
3 θn+1 = θ avec probabilit´ α ; sinon, θn+1 = θn
e
20/24
21. ABC-MCMC
1 Partant de θn , proposer θn+1 = θ
2 Simuler D = f (θ )
→θ
3 Calculer α = min Id(D ,D)< , π(θ )q(θn →θ n))
π(θ)q(θ
4 θn+1 = θ avec probabilit´ h ; sinon, θn+1 = θn
e
(Marjoram et al., PNAS, 2003)
21/24
22. Erreur dans le mod`le
e
Supposons qu’il y ait une erreur dans notre mod`le : D = f (θ) + ,
e
∼π
1 Tirer θ ∼ π
2 Simuler D ∼ f (θ)
3 Accepter θ avec probability (proportionnelle `) π (d(D , D))
a
4 R´p´ter
e e
(Wilkinson, 2008)
22/24
23. 1 Partant de (θn , Dn ), proposer θn+1 = θ
2 Simuler D = f (θ )
→θ )π(θ )
3 Calculer α = min 1, π (d(D n,D))q(θn →θ n)π(θn )
π (d(D ,D)q(θ
4 θn+1 = θ avec probabilit´ α ; sinon, θn+1 = θn
e
23/24