2. Perfil de temas
• Cómo hacer un modelo estadístico del cultivos
que explique rendimiento con datos climáticos
• Ejemplo con ensayos internacionales de trigo
– Definir etapas
– Escoger variables (selección de modelos)
– Relaciones no lineales e interacciones
– Interpretar resultados
• Derivar curvas de temperatura – rendimiento
• Estimar incertidumbre con el “bootstrap”
• Medir progreso genético con tiempo
• Modelos estadísticos del grupo….
3. Modelos estadísticos/ de proceso
• Generalmente, los modelos estadísticos son más
sencillos que los modelos de proceso, y más
esforzados por los datos
• Pero todos los modelos son una mezcla
– En modelos estadísticos, usamos conocimientos
fisiológicos cuando escogemos variables e
interacciones
– Los modelos de proceso (e.g. DSSAT) están calibrados
usando datos….
• Pero, porqué son más sencillos, es muy fácil crear
un modelo estadístico si tiene un base de datos
adecuado!!!
4. Modelos estadísticos en R
• Comandos básicos:
model = lm(Y ~ X)
summary(model)
model$coef
summary(model)$coef
model$fitted, model$resid
ls(modelb)
ls(summary(model))
5. Usamos la base de datos y el modelo de
esta publicación como ejemplo:
6. Empezamos con 25 años de ensayos
internacionales del trigo de CIMMYT…
Gran variabilidad de rendimientos y condiciones
climáticas en la base de datos
7. Ensayos de 3 viveros con estrategias diferentes:
– Elite Spring Wheat Yield Trial (ESWYT), n=959
– Semi-Arid Wheat Yield Trial (SAWYT), n=259
– High Temperature Wheat Yield Trial (HTWYT), n=135
• Filtramos
ensayos con
plaga o “lodging”
• ESWYT & HTWYT
tienen riego,
pero SAWYT no
8. Reconstrucción de datos climáticos
• Interpolamos a cada punto de ensayo desde la
fecha de siembra hasta 300 días después
(temp max y min)
• Bajamos datos de radiación y humedad
relativa de NASA POWER
(http://power.larc.nasa.gov/cgi-
bin/cgiwrap/solar/agro.cgi?email=agroclim@l
arc.nasa.gov)
9. Interpolación de temperatura
(taller #1)
• Estaciones
climáticas del
Global Historical
Climatology
Network & Global
Surface Summary
of the Day
• En cada punto y día, interpolamos anomalías de la
climatología de WorldClim usando “angular distance
weighting” con estaciones en radio de 100km
10. Definir etapas
• Se pueden tener relaciones diferentes entre
las variables climáticas y el rendimiento en
diferentes etapas fisiológicas
Perfil de temperatura típico del trigo
siembra
inflorescencia
cosechaUsamos 3 etapas:
vegetativa,
reproductiva y
llenado de granos
11. Definir variables potenciales
• No tiene que explicar toda la variabilidad de
rendimiento!!!
– Necesitamos que la variabilidad “inexplicable” no está
correlacionado con las variables en la regresión…
• Nos preocupamos aquí de la precipitación
(debido a que se estudia el efecto de las labores
de riego)
• Usamos:
– Temperatura (y rango de temperatura diaria)
– Radiación y horas de sol
– Deficit de presión de vapor (VPD)
– Longitud de etapa (días)
13. Interacciones entre variables
• De wikipedia: “the interaction between an
explanatory variable and an environmental variable
suggests that the effect of the explanatory variable
has been moderated or modified by the
environmental variable.”
• Por ejemplo, el calor tiene efecto diferente en clima
húmida vs. seca, porque de la tasa de transpiración
𝑦𝑖𝑒𝑙𝑑 = 𝛽0 + 𝛽1 ∗ 𝑡𝑒𝑚𝑝 + 𝛽2 ∗ 𝑉𝑃𝐷 + 𝛽3 ∗ (𝑡𝑒𝑚𝑝 ∗ 𝑉𝑃𝐷)
En R: lm(yield ~ temp*VPD)
14. Escoger variables
• Queremos un modelo que sea
suficientemente complejo para capturar
procesos importantes, pero que no trata de
explicar “ruido” en los datos…
• Podemos usar:
– Conocimientos “expertos”
– Pruebas de “backward selection”, R2
a, AIC, BIC
– (Nota: es dificil probar efectos fijos con estas
pruebas…)
• EJEMPLO EN R…
15. Modelo estadístico “final”
Yield = βW + cj + αn + (αn x year) + ε
W: variables ambientales por las 3 etapas (vegetativa,
reproductiva, llena de granos)
cj : promedios por país
αn : promedios por vivero
αn x year: cambios en tiempo por vivero
ε: errores
(W: tavg, tavg2, vpd, longitud de etapa, srad, daylength, dtr,
interacciones entre tavg, tavg2 & vpd, interacciones entre
tavg & longitud de etapa)
16. Nota en asunción de normalidad
• Las asunciones de la regresión son que los
errores (ε) tienen una distribución normal
– No es necesario que los predictores o variable de
respuesta tienen distribuciones normales
– A veces, se puede hacer un “log” del variable de
responsa, pero este cambia el significado de los
coeficientes….
• Se puede probar la normalidad de los errores
con la prueba de Shapiro-Wilk en R, pero con
muchos datos, es probable que la prueba
rechaza normalidad….
17. Sabiduría del internet
• De
http://stackoverflow.com/questions/7781798/
seeing-if-data-is-normally-distributed-in-r :
– “I have never come across a situation where a
normal test is the right thing to do. When the
sample size is small, even big departures from
normality are not detected, and when your
sample size is large, even the smallest deviation
from normality will lead to a rejected null.”
18. Resultados – efectos fijos
• Se pueden interpretar como promedios de
rendimiento, por país o nursery, que no se
puede explicar por las otras variables.
• Todos los niveles de los efectos fijos en R son
relativos al primer efecto (empezando con A…)
– En nuestro modelo, todos los efectos del país son
relativos a Afghanistan…
• Interpretamos los efectos fijos del país aquí
cómo los efectos de manejo
19. Resultados – relaciones temperatura/
rendimiento
• Cuando una variable está en más de un
término en la regresión, tiene que derivar la
relación entre sí y la variable de respuesta.
– Usar derivadas!!
• EJEMPLO EN LA PIZARRA
21. Intervalos de confidencia?
• Para solo una variable, se puede mirar los
errores estanderes asociados con el
coeficiente.
• Pero cuando se tiene una relacion más
complicada (e.g. con temperatura y
rendimiento en en este modelo), se puede
hacer …
– Bootstrap!
22. Qué es bootstrap?
• Hacer n modelos usando las observaciones
como una distribución y tomando muestreas
diferentes (con reemplazo) de ella
• Usar los coeficientes estimados de los
modelos diferentes como medida de
incertidumbre
• EJEMPLO EN LA PIZARRA
23. Aumento “genético” de rendimiento
Usando el modelo,
podemos cuantificar
el aumento
“verdadero” en
rendimiento desde el
principio del vivero
- corrigiendo el
aumento observado
por la variabilidad de
clima y país en la base
de datos
ESWYT
24. Progreso genético por vivero y temperatura
durante la etapa de llena de granos
Desde 1983
SAWYTESWYT
• El único progreso en ESWYT ha sido en las temperaturas más frías,
cerca de lo óptimo para producción
• En SAWYT, vemos el opuesto, pero no tiene el mismo potencial de
rendimiento como en ESWYT