Your SlideShare is downloading. ×
Modelos para la predicción de la distribución de especies
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Modelos para la predicción de la distribución de especies

1,900
views

Published on

Introducción a los métodos de predicción de distribución potencial de especies. Uso de bases de datos, DivaGIS, MaxEnt, Bioclim, Worldclim. Validación de los modelos por AUC y ROC.

Introducción a los métodos de predicción de distribución potencial de especies. Uso de bases de datos, DivaGIS, MaxEnt, Bioclim, Worldclim. Validación de los modelos por AUC y ROC.

Published in: Education

1 Comment
0 Likes
Statistics
Notes
  • Be the first to like this

No Downloads
Views
Total Views
1,900
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
122
Comments
1
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Modelos para la predicción de la distribución de especies 13 de septiembre de 2013
  • 2. Problemática Se desconoce la distribución real de las especies.
  • 3. Utilidad de conocer la distribución ecológica y geográfica • Conservación del recurso • Predicción en climas pasados y futuros • Entender patrones espaciales de diversidad • Potencial invasivo de especies no-nativas • Comparación entre especies relacionadas
  • 4. ¿Qué es el área de distribución? Es el producto de 3 factores: • B: Bióticos • A: Ambientales • M: Movimiento Es el espacio donde se encuentra una especie.
  • 5. Áreas ocupadas vs Áreas potenciales La modelación de áreas ocupadas (GO), se conoce como Environmental Niche Modelling La modelación de áreas potenciales (GI), se denomina Species Distribution Modelling
  • 6. ¿Qué información necesitamos para hacer modelaje? DATOS
  • 7. TIPOS DE DATOS
  • 8. Datos de ocurrencia • Primarios: Ubican a un individuo de una especie en un lugar y tiempo (observación o ejemplar). • Secundarios: Depende de la interpretación, generalización, promedio de los datos primarios.
  • 9. Datos de ocurrencia • Presencia: Se observó o colectó un individuo en un sitio y tiempo dado. • No-presencia • Ausencias estrictas: La especie no aparece en inventarios exhaustivos. • Pseudoausencias: Se generan usando la distancia de presencia. A mayor distancia->Más puntos de ausencia. GARP los genera al azar. • Trasfondo (background): Datos al azar para caracterizar el ambiente en general. Puede coincidir con puntos de presencia. Adecuados para Maxent.
  • 10. Datos de ocurrencia • Suelen ser escasos y obtenidos sin planeación (museos y herbarios). • Considerar nomenclatura de la especie, georeferenciación y resolución. • Usar datos disponibles públicamente (repetible). • Mínimo ideal 40 puntos. Sin evaluar bastan 20 puntos. No usar menos de 10. Más de 200 puede producir “sobreajuste”.
  • 11. Datos de ocurrencia (fuentes) • CONABIO (REMIB) • UNAM (UNIBIO) • Global Biodiversity Information Facility (GBIF) • Vertebrados (VertNet ) • SpeciesLink • Southwest Environmental Information Network (SEINet) • National Biodiversity Institute (INBIO) • Ocean Biogeographic Information System (OBIS) • Australia’s Virtual Herbarium (AVH)
  • 12. Datos ambientales  Son capas predictoras obtenidas de interpolaciones o transformaciones de datos primarios climáticos o percepción remota.  Se deben seleccionar variables que incidan en la ecología de la especie.  Se debe conocer la precisión, la resolución y la fuente de estos datos.  Eliminar variables correlacionadas (redundantes), usar no más de 10 en total.  Usar interacciones entre variables para ajustar superficies (sólo si hay más de 20 ocurrencias).
  • 13. Datos ambientales: Vector vs. Raster RASTER = La información está contenida en celdas, organizada por filas y columnas (v.g. fotografía digital). VECTOR =La información está expresada en vectores, manteniendo las características geométricas de las figuras.
  • 14. Datos en Vector Ventajas • Estructura de datos compacta. Poca memoria. • Codificación eficiente de topología. • Buena salida gráfica (mapas). • Re-escalado y re-proyección fáciles de hacer. Desventajas • Estructura de datos compleja. • Superposición de capas complicada. • Poco eficaz con alta variación de datos. • Difícil de mantener actualizado.
  • 15. Datos en Raster Ventajas • Estructura de datos simple • Superposición sencilla • Optimo para registrar variaciones altas Desventajas • Mucha memoria • Mapas poco vistosos (granulados) por baja resolución.
  • 16. Variables ambientales Climáticas • Temperaturas – Promedio – Mínima – Máxima • Precipitación • Altitud Bioclimáticas BIO1 = Annual Mean Temperature BIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp)) BIO3 = Isothermality (BIO2/BIO7) (* 100) BIO4 = Temperature Seasonality (standard deviation *100) BIO5 = Max Temperature of Warmest Month BIO6 = Min Temperature of Coldest Month BIO7 = Temperature Annual Range (BIO5-BIO6) BIO8 = Mean Temperature of Wettest Quarter BIO9 = Mean Temperature of Driest Quarter BIO10 = Mean Temperature of Warmest Quarter BIO11 = Mean Temperature of Coldest Quarter BIO12 = Annual Precipitation BIO13 = Precipitation of Wettest Month BIO14 = Precipitation of Driest Month BIO15 = Precipitation Seasonality (Coefficient of Variation) BIO16 = Precipitation of Wettest Quarter BIO17 = Precipitation of Driest Quarter BIO18 = Precipitation of Warmest Quarter BIO19 = Precipitation of Coldest Quarter
  • 17. Filtros Ambientales Se pueden determinar las variables limitantes en el área de distribución: Most limiting factors. Son variables que limitan el establecimiento de una especie (usualmente los máximos y mínimos en temperatura y precipitación).
  • 18. Datos ambientales (fuentes) • CONABIO: Topografía y clima • WorldClim: 19 variables bioclimáticas. • CRU: Coberturas globales. Relacionado con IPCC. • EROS: Imágenes aéreas y satelitales, elevación e hidrología.
  • 19. Ejercicio 1 1. Descargar coordenadas para 1 especie presente en México. 2. Transformarlas a decimales. 3. Proyectarlas en Google Maps. – Transformar a formato KMZ en: http://www.earthpoint.us/ExcelToKml.aspx 4. Proyectarlas en Diva-Gis. – Cargar también un mapa de la República Mexicana
  • 20. TIPOS DE MÉTODOS
  • 21. Modelos predictivos • Hacen predicciones detalladas de la distribución, asociando la presencia de la especie a factores ambientales. • Son una herramienta en estudios de ecología, evolución y conservación. • Se construyen con métodos muy variados
  • 22. De acuerdo a su amplitud: • Métodos de una especie: Predicen la distribución usando datos para una sola especie. • Métodos de comunidad: Definen un modelo usando todos los sitios disponibles para todas las especies del grupo biológico de interés.
  • 23. De acuerdo a su resultado: • Mapa Binario: No da información sobre la relación de la especie con las variables ambientales ni de las variables ambientales entre sí (útil para determinar la distribución potencial, el riesgo de invasión biológica, y encontrar nuevos lugares). • Mapa Probabilístico: Informa sobre la relación de la especie con las variables ambientales y entre ellas (útil para encontrar las variables determinantes).
  • 24. BIOCLIM • Es el más simple y fácil de entender. • Requiere datos de presencia. • Algoritmo de Envoltura Bioclimática. • Produce mapas binarios. • No considera las relaciones entre las variables. • No asigna probabilidades. Falso-Verdadero Factor más limitante
  • 25. BIOCLIM El usuario puede definir los valores mínimos y máximos para cada variable ambiental donde la especie está presente, creando una envoltura ambiental rectangular. Es recomendable explorar los datos para evitar sesgo en la distribución de las observaciones.
  • 26. DOMAIN • Requiere datos de presencia. • Algoritmo de distancia. • Usa un índice de similitud para comparar el sitio donde está presente la especie contra un nuevo sitio. La similitud de las variables ambientales entre los dos sitios es evaluada y se genera un valor que muestra la similitud y confianza del cálculo. También genera mapas de: Verdadero-Falso y Factor Más Limitante.
  • 27. GARP (Genetic Algorithm for Rule-set Production) • Requiere datos de presencia (genera sus propios datos de ausencia). • Algoritmo Genético que compara distintos algoritmos: – Atómica – Regresión logística, – Envoltura bioclimática – Envoltura bioclimática inversa • Se deben hacer de 100 a 1000 simulaciones por grupo de datos. • Produce mapas binarios. • No produce probabilidades, sino un índice de lo adecuado que es el ambiente para la especie.
  • 28. GARP • GARP analiza estos algoritmos para encontrar correlaciones no-aleatorias entre los datos de presencia y pseudo ausencia. • El modelo se corre varias veces y los mapas de predicción se combinan para crear un mapa final que muestre la frecuencia con que cada localidad apareció en los mapas de predicción (selección natural). Mapa 1 Mapa 2 Mapa n Mapa combinado
  • 29. MaxEnt • Algoritmo de Distribución de Máxima Entropía • Requiere datos de presencia (genera sus propios datos de ausencia). • Produce: – Mapas probabilísticos – Variables explicativas – Curvas ROC • Tiende a sobreajustar el modelo (no descarta datos).
  • 30. MaxEnt • Esta técnica usa el máximo valor de entropía para estimar la distribución más uniforme de los datos de ocurrencia en el área de estudio. • Esta distribución uniforme está restringida por los valores ambientales o la proporción de ocurrencia de puntos en una categoría. • La distribución predicha resultante es regularizada para evitar el sobreajuste. Los valores de salida se representan como porcentajes donde 100% es el más adecuado y 0% el menos adecuado.
  • 31. Software SIG ArcView y ArcGIS: desarrollados por ESRI Environmental Systems Research Institute http://www.esri.com/ DIVA-GIS: gratuito, incluye DOMAIN y BIOCLIM http://www.diva-gis.org/ GRASS: gratuito http://grass.osgeo.org/
  • 32. Ejercicio 2 • Modelar los datos de ocurrencia de 1 especie en. – BIOCLIM – DOMAIN – Desktop GARP – MaxEnt
  • 33. EVALUACIÓN DE MODELOS
  • 34. Validar un modelo consiste en contrastar sus predicciones respecto a datos considerados independientes para obtener una medida de: I. Su significancia en relación con una hipótesis nula. II. Su desempeño (capacidad de clasificar correctamente nuevos datos).
  • 35. Errores que pueden ocurrir • De omisión: El modelo no tomó en cuenta una ocurrencia (subpredicción). • De comisión: El modelo predijo una ocurrencia donde no existe (sobrepredicción). Matriz de Confusión
  • 36. Errores duros y Errores blandos Un error de omisión es considerado un error duro puede ocurrir por : a) Mala identificación de la especie. b) Mala georreferenciación. c) Especies en tránsito, fuera de su nicho. Un error de comisión es considerado un error blando y ocurre porque: a) Faltó esfuerzo de muestreo, pero el área es adecuada. b) El área es adecuada pero la especie no está ahí por algún evento histórico. c) El área no es adecuada = verdadero error de comisión
  • 37. Métodos de Evaluación • Curvas ROC y AUC (Área Bajo la Curva) • Curvas de omisión (Omission curves) • Jackknife Model Testing
  • 38. Receiver Operating Characteristic (ROC) • Es una curva que describe la tasa de identificación correcta de presencias (sensitivity) contra la tasa de falsas alarmas (specificity). • La línea recta no tiene valor predictivo (es aleatoria).
  • 39. Area Under the Curve (AUC) • Es el área total bajo la curva. • Un clasificador aleatorio tiene un área de 0.5; un muy buen clasificador tiene un área muy cercana a 1. • Un ROC ≥ 0.9 es bueno.
  • 40. Problemas de la AUC • Requeriría de datos de ausencias verdaderas. • Asigna igual ponderación a los errores de omisión y comisión. • Presupone que el clasificador (algoritmo de modelación) genera todos los valores del rango, lo cual no siempre es cierto. Ausencias verdade ras Omisión y Comisión Rango ROC parcial AUC parcial
  • 41. INTERPRETACIÓN DEL MODELO
  • 42. 1. Mundo Clásico • Las ausencias se deben a razones radicalmente diferentes dependiendo de la zona. • Las presencias están determinadas por una combinación de factores de tal forma que se pueden cometer errores por dos causas distintas. • G0 y A son distintas y los métodos basados en presencias solas tienden a estimar un área intermedia entre G0 y A.
  • 43. 2. Mundo de Hutchinson • Todas las ausencias tienen una sola causa (medio ambiente inadecuado). • Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual existen datos (variables ambientales). • En este escenario G0=A y los métodos basados en presencias solas harán un buen o mal trabajo de estimar ambas zonas por igual.
  • 44. 3. Mundo de Wallace • Todas las ausencias tienen una sola causa (incapacidad de dispersarse). • Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual no existe información (la dispersión). • En este escenario A contiene a G0 y los métodos basados en presencia solas, en el mejor de los casos, proveerán una estimación más o menos completa de A.
  • 45. Ejercicio 3 • Validar por ROC un modelo de Bioclim usando Diva-Gis.