SlideShare a Scribd company logo
1 of 20
Download to read offline
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Tema 8: M´etodos de cadenas de Markov Monte
Carlo
Conchi Aus´ın
Departamento de Estad´ıstica
Universidad Carlos III de Madrid
concepcion.ausin@uc3m.es
CESGA, Noviembre 2012
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Introducci´on
• Los m´etodos de cadenas de Markov Monte Carlo (MCMC) son
m´etodos de simulaci´on para generar muestras de las distribuciones a
posteriori y estimar cantidades de inter´es a posteriori.
• En los m´etodos MCMC se simulan valores sucesivamente de una
densidad propuesta, que no tiene que ser necesariamente parecida a
la densidad a posteriori.
• Cada valor generado depende s´olo del anterior valor simulado, de
ah´ı la noci´on de cadena de Markov.
• Los m´etodos MCMC no son exclusivos de la inferencia Bayesiana,
sino que pueden usarse para simular valores de una distribuci´on de la
que no es f´acil generar muestras.
• Sin embargo, estos m´etodos son muy usados en la computaci´on
moderna Bayesiana ya que en la mayor´ıa de los casos la forma
anal´ıtica de π(θ | x) es deconocida y la dimensi´on de θ elevada.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Contenidos
1. Cadenas de Markov
2. Ideas b´asicas sobre los m´etodos MCMC
3. Algoritmo Metropolis Hastings
4. Muestreo de Gibbs
5. Diagnosis de convergencia
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Cadenas de Markov
Una cadena de Markov es una secuencia de variables, Θ0, Θ1, Θ2, . . . tal
que la distribucion de Θt dados los valores previos Θ0, Θ1, Θ2, . . . , Θt−1
s´olo depende de Θt−1,
Pr (Θt ∈ A | Θ0 = θ0, Θ1 = θ1, ..., Θt−1 = θt−1) = Pr (Θt ∈ A | Θt−1 = θt−1)
Una cadena de Markov (homog´enea en el tiempo) viene definida por su
estado inicial, θ0, y el n´ucleo de transici´on:
Pr(Θt+1 = θ2|Θt = θ1).
Bajo ciertas condiciones, una cadena de Markov converge a su
distribuci´on estacionaria:
l´ım
t→∞
Pr(Θt = θ|Θ0 = θ0) = π(θ)
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Ideas b´asicas sobre los m´etodos MCMC
Supongamos que queremos simular valores de una distribuci´on a
posteriori π(θ | x).
La idea de los m´etodos MCMC consiste en simular una cadena de
Markov, θ1, θ2 . . . , cuya distribuci´on estacionaria sea π(θ | x).
Cada valor simulado, θt, depende ´unicamente de su predecesor, θt−1.
Si el algoritmo se implementa correctamente, la convergencia de la
cadena est´a garantizada independentemente de cu´ales sean los valores
iniciales.
Es necesario simular la cadena para un n´umero elevado de iteraciones
para aproximarse a la distribuci´on estacionaria.
Los primeros valores simulados, (iteraciones de burn-in), se eliminan
porque no est´an en el estado estacionario.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Algoritmo Metropolis Hastings
El algoritmo MH simula de una cadena de Markov cuya distribuci´on
estacionaria es π(θ | x). Se comienza con un valor inicial θ0.
1. Dado el valor actual, θt, simular un valor candidato ˜θ, de una
densidad propuesta, q(˜θ | θt).
2. Calcular la probabilidad de aceptar el valor generado:
α = m´ın



1,
π ˜θ | x q θt | ˜θ
π (θt | x) q ˜θ | θt



.
3. Simular u de una distribuci´on uniforme U(0, 1).
4. Si u < α, tomar θt+1 = ˜θ. Si no, rechazar y tomar θt+1 = θt.
5. Volver a 1.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Algoritmo Metropolis Hastings
La probabilidad de aceptar, α, no depende de la constante de integraci´on
de la distribuci´on a posteriori, de modo que,
α = m´ın



1,
π ˜θ f x | ˜θ q θt | ˜θ
π (θt) f (x | θt) q ˜θ | θt



.
• Un caso particular es el algoritmo Metropolis, en el que la densidad
propuesta q(˜θ | θ) es sim´etrica y la probabilidad de aceptaci´on se
reduce a:
α = m´ın



1,
π ˜θ f x | ˜θ
π(θt)f (x | θt)



.
Si adem´as, q ˜θ | θ = q ˜θ − θ , se llama algoritmo metropolis
de paseo aleatorio o algoritmo RWMH.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Algoritmo Metropolis Hastings
El algoritmo MH no es m´as eficiente si α es muy elevada ya que la
autocorrelaci´on entre los valores ser´a muy alta y la cadena se
mover´a lentamente por la distribuci´on a posteriori de θ.
• Por ejemplo, en el algoritmo RWMH, la tasa de valores aceptados,
α, debe rondar el 25 % si el n´umero de par´ametros es elevado. Para
modelos con 1 ´o 2 par´ametros, α debe rondar el 50 %. Una elecci´on
habitual en el caso univariante es usar:
q ˜θ | θt = N(θt, σ2
),
donde el valor de σ se ajusta para obtener un valor aceptable de α.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Algoritmo Metropolis Hastings
• Otro caso particular es el algoritmo MH de independencia en el que
q ˜θ | θt = q ˜θ
independendiente de θt.
• Este algoritmo funciona bien si la densidad de q(θ) es similar a
π(θ | x), aunque con cola m´as pesadas, como en el m´etodo de
rechazo.
• En este caso, la tasa α es mejor cuanto m´as elevada.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Algoritmo Metropolis Hastings
Ejemplo 8.1. Considerar una muestra de tama˜no n de una distribuci´on
Cauchy, X | θ ∼ C(θ, 1). Asumiendo una distribuci´on a priori impropia
π(θ) ∝ 1, obtener una muestra de la distribuci´on a posteriori:
1. Usando un algoritmo RWMH con una densidad propuesta Cauchy,
˜θ | θ ∼ C(θt, σ), ajustando el par´ametro de escala, σ, para obtener
una tasa razonable de valores aceptados.
2. Usando un algoritmo MH de independencia con una densidad
propuesta Cauchy, ˜θ ∼ C(m, τ), ajustando el par´ametro de escala, τ,
para obtener una tasa razonable de valores aceptados.
La funci´on de densidad de una distribuci´on Cauchy, θ ∼ C(m, τ) es:
f (θ | µ, σ) =
1
πσ 1 + θ−µ
σ
2
.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Algoritmo Metropolis Hastings
Cuando la dimensi´on de θ es alta, es dif´ıcil encontrar una densidad
propuesta. En este caso, se puede dividir en bloques, θ = (θ1, . . . , θk ), y
definir un algoritmo MH por bloques.
Supongamos que se divide θ = (θ1, θ2, θ3) y se definen tres densidades
propuestas, q1, q2 y q3. Partiendo de (θ1,0, θ2,0, θ3,0), se repite:
1. Simular ˜θ1 ∼ q1
˜θ1 | θ2,t, θ3,t y se acepta con probabilidad:
α = m´ın



1,
π ˜θ1 | x, θ2,t, θ3,t q1 θ1,t | ˜θ1, θ2,t, θ3,t
π (θ1,t | x, θ2,t, θ3,t) q1
˜θ1 | θ1,t, θ2,t, θ3,t



2. Simular ˜θ2 ∼ q2
˜θ2 | θ1,t+1, θ3,t y aceptar con an´aloga
probabilidad.
3. Simular ˜θ3 ∼ q3
˜θ3 | θ1,t+1, θ2,t+1 y aceptar con an´aloga
probabilidad.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Muestreo de Gibbs
El muestreo de Gibbs es un caso particular del algoritmo MH por bloques
en cual las densidades propuestas coinciden con las distribuciones a
posteriori condicionadas de modo que la probabilidad de aceptar es
siempre uno.
Supongamos que el conjunto de par´ametros es θ = (θ1, . . . , θk ) y que
para todo i = 1, . . . , k, es f´acil simular de la distribuci´on a posteriori
condicional, π (θi | θ1, . . . , θi−1, θi+1, . . . , θk )
Fijar un valor inicial, (θ1,0, . . . , θk,0). Repetir:
1. Simular θ1,t+1 ∼ π (θ1 | θ2,t, . . . , θk,t)
2. Simular θ2,t+1 ∼ π (θ2 | θ1,t+1, θ3,t . . . , θk,t)
3. Simular θ3,t+1 ∼ π (θ3 | θ1,t+1, θ2,t+1, θ4,t, . . . , θk,t)
4.
...
5. Simular θk,t+1 ∼ π (θk | θ1,t+1, . . . , θk−1,t+1)
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Muestreo de Gibbs
Ejemplo 8.2. La distribuci´on normal-gamma a priori para los par´ametros
(µ, τ) de una densidad normal puede no ser una elecci´on a priori
adecuada ya que la distribuci´on de µ depende a priori de φ.
Una alternativa es asumir que µ y τ son independientes a priori tal que:
µ ∼ N m,
1
ψ
, φ ∼ G
a
2
,
b
2
donde m, ψ, a, b son fijos. Entonces, es f´acil obtener que las
distribuciones a posterior condicionales son:
µ | φ, x ∼ N
nφ¯x + ψm
nφ + ψ
,
1
nφ + ψ
φ | µ, x ∼ G
a + n
2
,
b + (n − 1) s2
+ n (µ − ¯x)
2
2
Simular mediante un muestreo de Gibbs valores de π(µ, φ | x) para los
datos de las longitudes del caparaz´on en cangrejos del tema 6.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Muestreo de Gibbs
Dentro de un algoritmo MCMC, se pueden combinar pasos de tipo Gibbs
sampling con pasos MH, dependiendo de si la distribuci´on a posteriori
condicional de los par´ametros es o no f´acil de simular.
Ejemplo 8.3. Considerar una muestra de tama˜no n de una distribuci´on
gamma, X | ν, λ ∼ G(ν, λ) con funci´on de densidad:
f (x | ν, λ) =
λν
Γ(ν)
xν−1
exp(−λx), X > 0.
Asumiendo a priori:
ν ∼ U(0, 100), λ ∼ G(a, b),
construir un algoritmo MCMC para simular de la distribuci´on a posteriori
de los par´ametros.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Muestreo de Gibbs
Comentarios
• Cuando las distribuciones a posteriori condicionales no son f´aciles de
simular, se pueden combinar tambi´en con m´etodos de simulaci´on
Monte Carlo directa del tipo aceptaci´on-rechazo.
• El software Winbugs se basa en construcciones de algoritmos de tipo
Gibbs sampling en la que las distribuciones a posteriori condicionales
se simulan mediante refinamientos del m´etodo de rechazo, conocidos
como algoritmos ARS y ARMS.
• Estos m´etodos proporcionan m´etodos de simulaci´on autom´aticos en
los que no es necesario calibrar la tasa de valores aceptados.
• La desventaja es que a menudo proporcionan m´etodos menos
eficientes que los algoritmos construidos espec´ıficamente para un
problema en concreto.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Diagnosis de convergencia
Cuando se ejecuta un algoritmo MCMC, es importante examinar si los
valores simulados, θt, han convergido aproximadamente a la distribuci´on
estacionaria, π(θ | x).
Para ello es recomendable:
1. Examinar c´omo de bien est´e explorando el algoritmo MCMC el
espacio de estados..
2. Verificar la convergencia de las medias de los valores simulados en el
MCMC, e.g. 1
N
N
t=1 θt → E[θ | x].
3. Analizar si los valores simulados son aproximadamente una muestra
de valores independientes e id´enticamente distribuidos.
Existen adem´as numerosos procedimientos en la literatura para estudiar
la convergencia de la cadena. Una posibilidad es ejecutar el algoritmo
varias veces comenzando en distintos valores iniciales y comprobar si el
comportamiento de la distribuci´on estacionaria es la misma.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Diagnosis de convergencia
Para examinar si la cadena est´a explorando bien el espacio de estados, se
pueden graficar los valroes simulados de θt frente a t y analizar si se
producen desviaciones de la estacionaridad.
Por ejemplo, el siguiente gr´afico muestra la traza de θ en el ejemplo 8.1.
La cadena presenta una buena exploraci´on de estados.
1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
19.4
19.6
19.8
20
20.2
20.4
20.6
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Diagnosis de convergencia
Los siguientes diagramas muestran ejemplos de mal comportamiento en
la exploraci´on de estados de la cadena.
In this case, we can produce graphs of Xt against t to show the mixing of the
chain and any deviations from stationarity. The following diagram from Wiper
(2007) shows examples of badly mixing chains.
0 1000 2000 3000 4000 5000
−2
−1
0
1
2
3
4
5
6
t
X
t
0 1000 2000 3000 4000 5000
−2
−1
0
1
2
3
4
5
6
t
Xt
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Diagnosis de convergencia
Para examinar la convergencia de las medias a posteriori de los
par´ametros estimados, se pueden graficar el valor de la media muestral de
los valores simulados en funci´on de t y verificar si han convergido.
El siguiente gr´afico muestra las estimaciones de E[θ | x] obtenidas para
los dos algoritmos del ejemplo 8.1.
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
0.8
1
1.2
1.4
1.6
1.8
2
2.2
Random walk
Independence sampler
Parece que tras 3000 iteraciones, las medias han convergido, as´ı que una
posibilidad es usar 3000 iteraciones de burnin.
1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
Diagnosis de convergencia
Finalmente, se pueden graficar las funciones de autocorrelaci´on de los
valores generados. En general, como se simulan valores de una cadena de
Markov, los valores de θt est´aran correlados positivamente.
El siguiente gr’afico muestra los gr´aficos de autocorrelaci´on del
par´ametro θ oobtenidos en los dos algoritmos del ejemplo 8.1.
Random walk
lag
0 5 10 15 20 25
-1
-0,6
-0,2
0,2
0,6
1 Independence sampler
lag
0 5 10 15 20 25
-1
-0,6
-0,2
0,2
0,6
1
En el algoritmo RWMH, la autocorrelaci´on desaparece despu´es del
per´ıodo 9 y en el muestreo de independencia sobre el per´ıodo 4. Una
posibilidad es guardar los valores simulados cada 9 y 4 iteraciones,
respectivamente, para tener una muestra de valores aproximadamente
indeppendientes.

More Related Content

What's hot

Funciones asociadas de legendre (final)
Funciones asociadas de legendre (final)Funciones asociadas de legendre (final)
Funciones asociadas de legendre (final)jonnathan_andre
 
Dinamica no lineal - oscilador duffing
Dinamica no lineal - oscilador duffingDinamica no lineal - oscilador duffing
Dinamica no lineal - oscilador duffingJose Leon
 
El Concepto De Diferencial
El Concepto De DiferencialEl Concepto De Diferencial
El Concepto De Diferencialroberto1104_mm
 
Teorema del valor inicial
Teorema del valor inicialTeorema del valor inicial
Teorema del valor inicialUriel Damazo
 
Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...
Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...
Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...dinorkis
 
scilab-manual
scilab-manualscilab-manual
scilab-manualfgu
 
Ecuaciones Diferenciales Por Coeficientes Indeterminados
Ecuaciones Diferenciales Por Coeficientes IndeterminadosEcuaciones Diferenciales Por Coeficientes Indeterminados
Ecuaciones Diferenciales Por Coeficientes Indeterminadosgraciela88
 
Longitud de una curva pdf
Longitud de una curva pdfLongitud de una curva pdf
Longitud de una curva pdfJulio Marrufo
 
Diversas formas de expresar los números complejos
Diversas formas de expresar los números complejosDiversas formas de expresar los números complejos
Diversas formas de expresar los números complejosSabrina Dechima
 
Transformada de laplace (tablas)
Transformada de laplace (tablas)Transformada de laplace (tablas)
Transformada de laplace (tablas)MateoLeonidez
 
G19 funcion de transferencia y diagrama de bode
G19 funcion de transferencia y diagrama de bodeG19 funcion de transferencia y diagrama de bode
G19 funcion de transferencia y diagrama de bodeRoslyn Cruz Castro
 
MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5
MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5
MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5Marco Antonio
 

What's hot (20)

Funciones asociadas de legendre (final)
Funciones asociadas de legendre (final)Funciones asociadas de legendre (final)
Funciones asociadas de legendre (final)
 
Dinamica no lineal - oscilador duffing
Dinamica no lineal - oscilador duffingDinamica no lineal - oscilador duffing
Dinamica no lineal - oscilador duffing
 
El Concepto De Diferencial
El Concepto De DiferencialEl Concepto De Diferencial
El Concepto De Diferencial
 
Teorema del valor inicial
Teorema del valor inicialTeorema del valor inicial
Teorema del valor inicial
 
Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...
Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...
Aplicar derivadas en el cálculo de velocidad y aceleración de un objeto que s...
 
scilab-manual
scilab-manualscilab-manual
scilab-manual
 
Ejercicios Maple
Ejercicios MapleEjercicios Maple
Ejercicios Maple
 
Integrales dobles
Integrales doblesIntegrales dobles
Integrales dobles
 
Ppt integrales triples
Ppt   integrales triplesPpt   integrales triples
Ppt integrales triples
 
Ecuaciones Diferenciales Por Coeficientes Indeterminados
Ecuaciones Diferenciales Por Coeficientes IndeterminadosEcuaciones Diferenciales Por Coeficientes Indeterminados
Ecuaciones Diferenciales Por Coeficientes Indeterminados
 
Longitud de una curva pdf
Longitud de una curva pdfLongitud de una curva pdf
Longitud de una curva pdf
 
Diversas formas de expresar los números complejos
Diversas formas de expresar los números complejosDiversas formas de expresar los números complejos
Diversas formas de expresar los números complejos
 
Arcoseno hiperbolico definición.
Arcoseno hiperbolico definición.Arcoseno hiperbolico definición.
Arcoseno hiperbolico definición.
 
Transformada de laplace (tablas)
Transformada de laplace (tablas)Transformada de laplace (tablas)
Transformada de laplace (tablas)
 
Series de fourier
Series de fourierSeries de fourier
Series de fourier
 
G19 funcion de transferencia y diagrama de bode
G19 funcion de transferencia y diagrama de bodeG19 funcion de transferencia y diagrama de bode
G19 funcion de transferencia y diagrama de bode
 
ejercicios-resueltos-interpolacion-polinomial
ejercicios-resueltos-interpolacion-polinomialejercicios-resueltos-interpolacion-polinomial
ejercicios-resueltos-interpolacion-polinomial
 
Formulario cálculo aplicado aplicaciones de la integral
Formulario cálculo aplicado aplicaciones de la integralFormulario cálculo aplicado aplicaciones de la integral
Formulario cálculo aplicado aplicaciones de la integral
 
Funciones
FuncionesFunciones
Funciones
 
MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5
MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5
MÉTODO DE EULER PARA EDO Y DE ORDEN SUPERIOR USANDO SCILAB 5.5
 

Similar to PDF. Metodo de Monte Carlo

Similar to PDF. Metodo de Monte Carlo (20)

Montecarlo de markov
Montecarlo de markovMontecarlo de markov
Montecarlo de markov
 
Cadenas de Markov
Cadenas de MarkovCadenas de Markov
Cadenas de Markov
 
Metodos de monte carlo en mecánica estadistica
Metodos de monte carlo en mecánica estadisticaMetodos de monte carlo en mecánica estadistica
Metodos de monte carlo en mecánica estadistica
 
Cadenas de markov
Cadenas de markovCadenas de markov
Cadenas de markov
 
Ejercicios jacobi
Ejercicios jacobiEjercicios jacobi
Ejercicios jacobi
 
Oviedo mco nolineales
Oviedo mco nolinealesOviedo mco nolineales
Oviedo mco nolineales
 
Algebra Lineal
Algebra LinealAlgebra Lineal
Algebra Lineal
 
Quadratic Sieve, algoritmos y ejemplos
Quadratic Sieve, algoritmos y ejemplosQuadratic Sieve, algoritmos y ejemplos
Quadratic Sieve, algoritmos y ejemplos
 
Métodos numéricos - Solución de Raíces De Ecuaciones
Métodos numéricos - Solución de Raíces De EcuacionesMétodos numéricos - Solución de Raíces De Ecuaciones
Métodos numéricos - Solución de Raíces De Ecuaciones
 
Animal coat patterns and other practical applications
Animal coat patterns and other practical applicationsAnimal coat patterns and other practical applications
Animal coat patterns and other practical applications
 
SESION4_CADENA_DE_MARKOV.pptx
SESION4_CADENA_DE_MARKOV.pptxSESION4_CADENA_DE_MARKOV.pptx
SESION4_CADENA_DE_MARKOV.pptx
 
Analisis de experimento
Analisis de experimentoAnalisis de experimento
Analisis de experimento
 
Análisis Numerico
Análisis NumericoAnálisis Numerico
Análisis Numerico
 
T7 Alg Mult Matr
T7 Alg Mult MatrT7 Alg Mult Matr
T7 Alg Mult Matr
 
Tema1
Tema1Tema1
Tema1
 
Unidad 6 metodos
Unidad 6 metodosUnidad 6 metodos
Unidad 6 metodos
 
Metodos Neuronales En Sistemas Difusos
Metodos Neuronales En Sistemas DifusosMetodos Neuronales En Sistemas Difusos
Metodos Neuronales En Sistemas Difusos
 
Mapa mental analisis numerico
Mapa mental analisis numericoMapa mental analisis numerico
Mapa mental analisis numerico
 
numerosAleatorios.pptx
numerosAleatorios.pptxnumerosAleatorios.pptx
numerosAleatorios.pptx
 
Analismetodos
AnalismetodosAnalismetodos
Analismetodos
 

PDF. Metodo de Monte Carlo

  • 1. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Tema 8: M´etodos de cadenas de Markov Monte Carlo Conchi Aus´ın Departamento de Estad´ıstica Universidad Carlos III de Madrid concepcion.ausin@uc3m.es CESGA, Noviembre 2012
  • 2. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Introducci´on • Los m´etodos de cadenas de Markov Monte Carlo (MCMC) son m´etodos de simulaci´on para generar muestras de las distribuciones a posteriori y estimar cantidades de inter´es a posteriori. • En los m´etodos MCMC se simulan valores sucesivamente de una densidad propuesta, que no tiene que ser necesariamente parecida a la densidad a posteriori. • Cada valor generado depende s´olo del anterior valor simulado, de ah´ı la noci´on de cadena de Markov. • Los m´etodos MCMC no son exclusivos de la inferencia Bayesiana, sino que pueden usarse para simular valores de una distribuci´on de la que no es f´acil generar muestras. • Sin embargo, estos m´etodos son muy usados en la computaci´on moderna Bayesiana ya que en la mayor´ıa de los casos la forma anal´ıtica de π(θ | x) es deconocida y la dimensi´on de θ elevada.
  • 3. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Contenidos 1. Cadenas de Markov 2. Ideas b´asicas sobre los m´etodos MCMC 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia
  • 4. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Cadenas de Markov Una cadena de Markov es una secuencia de variables, Θ0, Θ1, Θ2, . . . tal que la distribucion de Θt dados los valores previos Θ0, Θ1, Θ2, . . . , Θt−1 s´olo depende de Θt−1, Pr (Θt ∈ A | Θ0 = θ0, Θ1 = θ1, ..., Θt−1 = θt−1) = Pr (Θt ∈ A | Θt−1 = θt−1) Una cadena de Markov (homog´enea en el tiempo) viene definida por su estado inicial, θ0, y el n´ucleo de transici´on: Pr(Θt+1 = θ2|Θt = θ1). Bajo ciertas condiciones, una cadena de Markov converge a su distribuci´on estacionaria: l´ım t→∞ Pr(Θt = θ|Θ0 = θ0) = π(θ)
  • 5. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Ideas b´asicas sobre los m´etodos MCMC Supongamos que queremos simular valores de una distribuci´on a posteriori π(θ | x). La idea de los m´etodos MCMC consiste en simular una cadena de Markov, θ1, θ2 . . . , cuya distribuci´on estacionaria sea π(θ | x). Cada valor simulado, θt, depende ´unicamente de su predecesor, θt−1. Si el algoritmo se implementa correctamente, la convergencia de la cadena est´a garantizada independentemente de cu´ales sean los valores iniciales. Es necesario simular la cadena para un n´umero elevado de iteraciones para aproximarse a la distribuci´on estacionaria. Los primeros valores simulados, (iteraciones de burn-in), se eliminan porque no est´an en el estado estacionario.
  • 6. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Algoritmo Metropolis Hastings El algoritmo MH simula de una cadena de Markov cuya distribuci´on estacionaria es π(θ | x). Se comienza con un valor inicial θ0. 1. Dado el valor actual, θt, simular un valor candidato ˜θ, de una densidad propuesta, q(˜θ | θt). 2. Calcular la probabilidad de aceptar el valor generado: α = m´ın    1, π ˜θ | x q θt | ˜θ π (θt | x) q ˜θ | θt    . 3. Simular u de una distribuci´on uniforme U(0, 1). 4. Si u < α, tomar θt+1 = ˜θ. Si no, rechazar y tomar θt+1 = θt. 5. Volver a 1.
  • 7. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Algoritmo Metropolis Hastings La probabilidad de aceptar, α, no depende de la constante de integraci´on de la distribuci´on a posteriori, de modo que, α = m´ın    1, π ˜θ f x | ˜θ q θt | ˜θ π (θt) f (x | θt) q ˜θ | θt    . • Un caso particular es el algoritmo Metropolis, en el que la densidad propuesta q(˜θ | θ) es sim´etrica y la probabilidad de aceptaci´on se reduce a: α = m´ın    1, π ˜θ f x | ˜θ π(θt)f (x | θt)    . Si adem´as, q ˜θ | θ = q ˜θ − θ , se llama algoritmo metropolis de paseo aleatorio o algoritmo RWMH.
  • 8. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Algoritmo Metropolis Hastings El algoritmo MH no es m´as eficiente si α es muy elevada ya que la autocorrelaci´on entre los valores ser´a muy alta y la cadena se mover´a lentamente por la distribuci´on a posteriori de θ. • Por ejemplo, en el algoritmo RWMH, la tasa de valores aceptados, α, debe rondar el 25 % si el n´umero de par´ametros es elevado. Para modelos con 1 ´o 2 par´ametros, α debe rondar el 50 %. Una elecci´on habitual en el caso univariante es usar: q ˜θ | θt = N(θt, σ2 ), donde el valor de σ se ajusta para obtener un valor aceptable de α.
  • 9. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Algoritmo Metropolis Hastings • Otro caso particular es el algoritmo MH de independencia en el que q ˜θ | θt = q ˜θ independendiente de θt. • Este algoritmo funciona bien si la densidad de q(θ) es similar a π(θ | x), aunque con cola m´as pesadas, como en el m´etodo de rechazo. • En este caso, la tasa α es mejor cuanto m´as elevada.
  • 10. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Algoritmo Metropolis Hastings Ejemplo 8.1. Considerar una muestra de tama˜no n de una distribuci´on Cauchy, X | θ ∼ C(θ, 1). Asumiendo una distribuci´on a priori impropia π(θ) ∝ 1, obtener una muestra de la distribuci´on a posteriori: 1. Usando un algoritmo RWMH con una densidad propuesta Cauchy, ˜θ | θ ∼ C(θt, σ), ajustando el par´ametro de escala, σ, para obtener una tasa razonable de valores aceptados. 2. Usando un algoritmo MH de independencia con una densidad propuesta Cauchy, ˜θ ∼ C(m, τ), ajustando el par´ametro de escala, τ, para obtener una tasa razonable de valores aceptados. La funci´on de densidad de una distribuci´on Cauchy, θ ∼ C(m, τ) es: f (θ | µ, σ) = 1 πσ 1 + θ−µ σ 2 .
  • 11. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Algoritmo Metropolis Hastings Cuando la dimensi´on de θ es alta, es dif´ıcil encontrar una densidad propuesta. En este caso, se puede dividir en bloques, θ = (θ1, . . . , θk ), y definir un algoritmo MH por bloques. Supongamos que se divide θ = (θ1, θ2, θ3) y se definen tres densidades propuestas, q1, q2 y q3. Partiendo de (θ1,0, θ2,0, θ3,0), se repite: 1. Simular ˜θ1 ∼ q1 ˜θ1 | θ2,t, θ3,t y se acepta con probabilidad: α = m´ın    1, π ˜θ1 | x, θ2,t, θ3,t q1 θ1,t | ˜θ1, θ2,t, θ3,t π (θ1,t | x, θ2,t, θ3,t) q1 ˜θ1 | θ1,t, θ2,t, θ3,t    2. Simular ˜θ2 ∼ q2 ˜θ2 | θ1,t+1, θ3,t y aceptar con an´aloga probabilidad. 3. Simular ˜θ3 ∼ q3 ˜θ3 | θ1,t+1, θ2,t+1 y aceptar con an´aloga probabilidad.
  • 12. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Muestreo de Gibbs El muestreo de Gibbs es un caso particular del algoritmo MH por bloques en cual las densidades propuestas coinciden con las distribuciones a posteriori condicionadas de modo que la probabilidad de aceptar es siempre uno. Supongamos que el conjunto de par´ametros es θ = (θ1, . . . , θk ) y que para todo i = 1, . . . , k, es f´acil simular de la distribuci´on a posteriori condicional, π (θi | θ1, . . . , θi−1, θi+1, . . . , θk ) Fijar un valor inicial, (θ1,0, . . . , θk,0). Repetir: 1. Simular θ1,t+1 ∼ π (θ1 | θ2,t, . . . , θk,t) 2. Simular θ2,t+1 ∼ π (θ2 | θ1,t+1, θ3,t . . . , θk,t) 3. Simular θ3,t+1 ∼ π (θ3 | θ1,t+1, θ2,t+1, θ4,t, . . . , θk,t) 4. ... 5. Simular θk,t+1 ∼ π (θk | θ1,t+1, . . . , θk−1,t+1)
  • 13. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Muestreo de Gibbs Ejemplo 8.2. La distribuci´on normal-gamma a priori para los par´ametros (µ, τ) de una densidad normal puede no ser una elecci´on a priori adecuada ya que la distribuci´on de µ depende a priori de φ. Una alternativa es asumir que µ y τ son independientes a priori tal que: µ ∼ N m, 1 ψ , φ ∼ G a 2 , b 2 donde m, ψ, a, b son fijos. Entonces, es f´acil obtener que las distribuciones a posterior condicionales son: µ | φ, x ∼ N nφ¯x + ψm nφ + ψ , 1 nφ + ψ φ | µ, x ∼ G a + n 2 , b + (n − 1) s2 + n (µ − ¯x) 2 2 Simular mediante un muestreo de Gibbs valores de π(µ, φ | x) para los datos de las longitudes del caparaz´on en cangrejos del tema 6.
  • 14. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Muestreo de Gibbs Dentro de un algoritmo MCMC, se pueden combinar pasos de tipo Gibbs sampling con pasos MH, dependiendo de si la distribuci´on a posteriori condicional de los par´ametros es o no f´acil de simular. Ejemplo 8.3. Considerar una muestra de tama˜no n de una distribuci´on gamma, X | ν, λ ∼ G(ν, λ) con funci´on de densidad: f (x | ν, λ) = λν Γ(ν) xν−1 exp(−λx), X > 0. Asumiendo a priori: ν ∼ U(0, 100), λ ∼ G(a, b), construir un algoritmo MCMC para simular de la distribuci´on a posteriori de los par´ametros.
  • 15. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Muestreo de Gibbs Comentarios • Cuando las distribuciones a posteriori condicionales no son f´aciles de simular, se pueden combinar tambi´en con m´etodos de simulaci´on Monte Carlo directa del tipo aceptaci´on-rechazo. • El software Winbugs se basa en construcciones de algoritmos de tipo Gibbs sampling en la que las distribuciones a posteriori condicionales se simulan mediante refinamientos del m´etodo de rechazo, conocidos como algoritmos ARS y ARMS. • Estos m´etodos proporcionan m´etodos de simulaci´on autom´aticos en los que no es necesario calibrar la tasa de valores aceptados. • La desventaja es que a menudo proporcionan m´etodos menos eficientes que los algoritmos construidos espec´ıficamente para un problema en concreto.
  • 16. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Diagnosis de convergencia Cuando se ejecuta un algoritmo MCMC, es importante examinar si los valores simulados, θt, han convergido aproximadamente a la distribuci´on estacionaria, π(θ | x). Para ello es recomendable: 1. Examinar c´omo de bien est´e explorando el algoritmo MCMC el espacio de estados.. 2. Verificar la convergencia de las medias de los valores simulados en el MCMC, e.g. 1 N N t=1 θt → E[θ | x]. 3. Analizar si los valores simulados son aproximadamente una muestra de valores independientes e id´enticamente distribuidos. Existen adem´as numerosos procedimientos en la literatura para estudiar la convergencia de la cadena. Una posibilidad es ejecutar el algoritmo varias veces comenzando en distintos valores iniciales y comprobar si el comportamiento de la distribuci´on estacionaria es la misma.
  • 17. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Diagnosis de convergencia Para examinar si la cadena est´a explorando bien el espacio de estados, se pueden graficar los valroes simulados de θt frente a t y analizar si se producen desviaciones de la estacionaridad. Por ejemplo, el siguiente gr´afico muestra la traza de θ en el ejemplo 8.1. La cadena presenta una buena exploraci´on de estados. 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 19.4 19.6 19.8 20 20.2 20.4 20.6
  • 18. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Diagnosis de convergencia Los siguientes diagramas muestran ejemplos de mal comportamiento en la exploraci´on de estados de la cadena. In this case, we can produce graphs of Xt against t to show the mixing of the chain and any deviations from stationarity. The following diagram from Wiper (2007) shows examples of badly mixing chains. 0 1000 2000 3000 4000 5000 −2 −1 0 1 2 3 4 5 6 t X t 0 1000 2000 3000 4000 5000 −2 −1 0 1 2 3 4 5 6 t Xt
  • 19. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Diagnosis de convergencia Para examinar la convergencia de las medias a posteriori de los par´ametros estimados, se pueden graficar el valor de la media muestral de los valores simulados en funci´on de t y verificar si han convergido. El siguiente gr´afico muestra las estimaciones de E[θ | x] obtenidas para los dos algoritmos del ejemplo 8.1. 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 0.8 1 1.2 1.4 1.6 1.8 2 2.2 Random walk Independence sampler Parece que tras 3000 iteraciones, las medias han convergido, as´ı que una posibilidad es usar 3000 iteraciones de burnin.
  • 20. 1. Cadenas de Markov 2. Ideas b´asicas 3. Algoritmo Metropolis Hastings 4. Muestreo de Gibbs 5. Diagnosis de convergencia Diagnosis de convergencia Finalmente, se pueden graficar las funciones de autocorrelaci´on de los valores generados. En general, como se simulan valores de una cadena de Markov, los valores de θt est´aran correlados positivamente. El siguiente gr’afico muestra los gr´aficos de autocorrelaci´on del par´ametro θ oobtenidos en los dos algoritmos del ejemplo 8.1. Random walk lag 0 5 10 15 20 25 -1 -0,6 -0,2 0,2 0,6 1 Independence sampler lag 0 5 10 15 20 25 -1 -0,6 -0,2 0,2 0,6 1 En el algoritmo RWMH, la autocorrelaci´on desaparece despu´es del per´ıodo 9 y en el muestreo de independencia sobre el per´ıodo 4. Una posibilidad es guardar los valores simulados cada 9 y 4 iteraciones, respectivamente, para tener una muestra de valores aproximadamente indeppendientes.