Successfully reported this slideshow.

Modelos para la predicción de la distribución de especies

6,177 views

Published on

Introducción a los métodos de predicción de distribución potencial de especies. Uso de bases de datos, DivaGIS, MaxEnt, Bioclim, Worldclim. Validación de los modelos por AUC y ROC.

Published in: Education

Modelos para la predicción de la distribución de especies

  1. 1. Modelos para la predicción de la distribución de especies 13 de septiembre de 2013
  2. 2. Problemática Se desconoce la distribución real de las especies.
  3. 3. Utilidad de conocer la distribución ecológica y geográfica • Conservación del recurso • Predicción en climas pasados y futuros • Entender patrones espaciales de diversidad • Potencial invasivo de especies no-nativas • Comparación entre especies relacionadas
  4. 4. ¿Qué es el área de distribución? Es el producto de 3 factores: • B: Bióticos • A: Ambientales • M: Movimiento Es el espacio donde se encuentra una especie.
  5. 5. Áreas ocupadas vs Áreas potenciales La modelación de áreas ocupadas (GO), se conoce como Environmental Niche Modelling La modelación de áreas potenciales (GI), se denomina Species Distribution Modelling
  6. 6. ¿Qué información necesitamos para hacer modelaje? DATOS
  7. 7. TIPOS DE DATOS
  8. 8. Datos de ocurrencia • Primarios: Ubican a un individuo de una especie en un lugar y tiempo (observación o ejemplar). • Secundarios: Depende de la interpretación, generalización, promedio de los datos primarios.
  9. 9. Datos de ocurrencia • Presencia: Se observó o colectó un individuo en un sitio y tiempo dado. • No-presencia • Ausencias estrictas: La especie no aparece en inventarios exhaustivos. • Pseudoausencias: Se generan usando la distancia de presencia. A mayor distancia->Más puntos de ausencia. GARP los genera al azar. • Trasfondo (background): Datos al azar para caracterizar el ambiente en general. Puede coincidir con puntos de presencia. Adecuados para Maxent.
  10. 10. Datos de ocurrencia • Suelen ser escasos y obtenidos sin planeación (museos y herbarios). • Considerar nomenclatura de la especie, georeferenciación y resolución. • Usar datos disponibles públicamente (repetible). • Mínimo ideal 40 puntos. Sin evaluar bastan 20 puntos. No usar menos de 10. Más de 200 puede producir “sobreajuste”.
  11. 11. Datos de ocurrencia (fuentes) • CONABIO (REMIB) • UNAM (UNIBIO) • Global Biodiversity Information Facility (GBIF) • Vertebrados (VertNet ) • SpeciesLink • Southwest Environmental Information Network (SEINet) • National Biodiversity Institute (INBIO) • Ocean Biogeographic Information System (OBIS) • Australia’s Virtual Herbarium (AVH)
  12. 12. Datos ambientales  Son capas predictoras obtenidas de interpolaciones o transformaciones de datos primarios climáticos o percepción remota.  Se deben seleccionar variables que incidan en la ecología de la especie.  Se debe conocer la precisión, la resolución y la fuente de estos datos.  Eliminar variables correlacionadas (redundantes), usar no más de 10 en total.  Usar interacciones entre variables para ajustar superficies (sólo si hay más de 20 ocurrencias).
  13. 13. Datos ambientales: Vector vs. Raster RASTER = La información está contenida en celdas, organizada por filas y columnas (v.g. fotografía digital). VECTOR =La información está expresada en vectores, manteniendo las características geométricas de las figuras.
  14. 14. Datos en Vector Ventajas • Estructura de datos compacta. Poca memoria. • Codificación eficiente de topología. • Buena salida gráfica (mapas). • Re-escalado y re-proyección fáciles de hacer. Desventajas • Estructura de datos compleja. • Superposición de capas complicada. • Poco eficaz con alta variación de datos. • Difícil de mantener actualizado.
  15. 15. Datos en Raster Ventajas • Estructura de datos simple • Superposición sencilla • Optimo para registrar variaciones altas Desventajas • Mucha memoria • Mapas poco vistosos (granulados) por baja resolución.
  16. 16. Variables ambientales Climáticas • Temperaturas – Promedio – Mínima – Máxima • Precipitación • Altitud Bioclimáticas BIO1 = Annual Mean Temperature BIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp)) BIO3 = Isothermality (BIO2/BIO7) (* 100) BIO4 = Temperature Seasonality (standard deviation *100) BIO5 = Max Temperature of Warmest Month BIO6 = Min Temperature of Coldest Month BIO7 = Temperature Annual Range (BIO5-BIO6) BIO8 = Mean Temperature of Wettest Quarter BIO9 = Mean Temperature of Driest Quarter BIO10 = Mean Temperature of Warmest Quarter BIO11 = Mean Temperature of Coldest Quarter BIO12 = Annual Precipitation BIO13 = Precipitation of Wettest Month BIO14 = Precipitation of Driest Month BIO15 = Precipitation Seasonality (Coefficient of Variation) BIO16 = Precipitation of Wettest Quarter BIO17 = Precipitation of Driest Quarter BIO18 = Precipitation of Warmest Quarter BIO19 = Precipitation of Coldest Quarter
  17. 17. Filtros Ambientales Se pueden determinar las variables limitantes en el área de distribución: Most limiting factors. Son variables que limitan el establecimiento de una especie (usualmente los máximos y mínimos en temperatura y precipitación).
  18. 18. Datos ambientales (fuentes) • CONABIO: Topografía y clima • WorldClim: 19 variables bioclimáticas. • CRU: Coberturas globales. Relacionado con IPCC. • EROS: Imágenes aéreas y satelitales, elevación e hidrología.
  19. 19. Ejercicio 1 1. Descargar coordenadas para 1 especie presente en México. 2. Transformarlas a decimales. 3. Proyectarlas en Google Maps. – Transformar a formato KMZ en: http://www.earthpoint.us/ExcelToKml.aspx 4. Proyectarlas en Diva-Gis. – Cargar también un mapa de la República Mexicana
  20. 20. TIPOS DE MÉTODOS
  21. 21. Modelos predictivos • Hacen predicciones detalladas de la distribución, asociando la presencia de la especie a factores ambientales. • Son una herramienta en estudios de ecología, evolución y conservación. • Se construyen con métodos muy variados
  22. 22. De acuerdo a su amplitud: • Métodos de una especie: Predicen la distribución usando datos para una sola especie. • Métodos de comunidad: Definen un modelo usando todos los sitios disponibles para todas las especies del grupo biológico de interés.
  23. 23. De acuerdo a su resultado: • Mapa Binario: No da información sobre la relación de la especie con las variables ambientales ni de las variables ambientales entre sí (útil para determinar la distribución potencial, el riesgo de invasión biológica, y encontrar nuevos lugares). • Mapa Probabilístico: Informa sobre la relación de la especie con las variables ambientales y entre ellas (útil para encontrar las variables determinantes).
  24. 24. BIOCLIM • Es el más simple y fácil de entender. • Requiere datos de presencia. • Algoritmo de Envoltura Bioclimática. • Produce mapas binarios. • No considera las relaciones entre las variables. • No asigna probabilidades. Falso-Verdadero Factor más limitante
  25. 25. BIOCLIM El usuario puede definir los valores mínimos y máximos para cada variable ambiental donde la especie está presente, creando una envoltura ambiental rectangular. Es recomendable explorar los datos para evitar sesgo en la distribución de las observaciones.
  26. 26. DOMAIN • Requiere datos de presencia. • Algoritmo de distancia. • Usa un índice de similitud para comparar el sitio donde está presente la especie contra un nuevo sitio. La similitud de las variables ambientales entre los dos sitios es evaluada y se genera un valor que muestra la similitud y confianza del cálculo. También genera mapas de: Verdadero-Falso y Factor Más Limitante.
  27. 27. GARP (Genetic Algorithm for Rule-set Production) • Requiere datos de presencia (genera sus propios datos de ausencia). • Algoritmo Genético que compara distintos algoritmos: – Atómica – Regresión logística, – Envoltura bioclimática – Envoltura bioclimática inversa • Se deben hacer de 100 a 1000 simulaciones por grupo de datos. • Produce mapas binarios. • No produce probabilidades, sino un índice de lo adecuado que es el ambiente para la especie.
  28. 28. GARP • GARP analiza estos algoritmos para encontrar correlaciones no-aleatorias entre los datos de presencia y pseudo ausencia. • El modelo se corre varias veces y los mapas de predicción se combinan para crear un mapa final que muestre la frecuencia con que cada localidad apareció en los mapas de predicción (selección natural). Mapa 1 Mapa 2 Mapa n Mapa combinado
  29. 29. MaxEnt • Algoritmo de Distribución de Máxima Entropía • Requiere datos de presencia (genera sus propios datos de ausencia). • Produce: – Mapas probabilísticos – Variables explicativas – Curvas ROC • Tiende a sobreajustar el modelo (no descarta datos).
  30. 30. MaxEnt • Esta técnica usa el máximo valor de entropía para estimar la distribución más uniforme de los datos de ocurrencia en el área de estudio. • Esta distribución uniforme está restringida por los valores ambientales o la proporción de ocurrencia de puntos en una categoría. • La distribución predicha resultante es regularizada para evitar el sobreajuste. Los valores de salida se representan como porcentajes donde 100% es el más adecuado y 0% el menos adecuado.
  31. 31. Software SIG ArcView y ArcGIS: desarrollados por ESRI Environmental Systems Research Institute http://www.esri.com/ DIVA-GIS: gratuito, incluye DOMAIN y BIOCLIM http://www.diva-gis.org/ GRASS: gratuito http://grass.osgeo.org/
  32. 32. Ejercicio 2 • Modelar los datos de ocurrencia de 1 especie en. – BIOCLIM – DOMAIN – Desktop GARP – MaxEnt
  33. 33. EVALUACIÓN DE MODELOS
  34. 34. Validar un modelo consiste en contrastar sus predicciones respecto a datos considerados independientes para obtener una medida de: I. Su significancia en relación con una hipótesis nula. II. Su desempeño (capacidad de clasificar correctamente nuevos datos).
  35. 35. Errores que pueden ocurrir • De omisión: El modelo no tomó en cuenta una ocurrencia (subpredicción). • De comisión: El modelo predijo una ocurrencia donde no existe (sobrepredicción). Matriz de Confusión
  36. 36. Errores duros y Errores blandos Un error de omisión es considerado un error duro puede ocurrir por : a) Mala identificación de la especie. b) Mala georreferenciación. c) Especies en tránsito, fuera de su nicho. Un error de comisión es considerado un error blando y ocurre porque: a) Faltó esfuerzo de muestreo, pero el área es adecuada. b) El área es adecuada pero la especie no está ahí por algún evento histórico. c) El área no es adecuada = verdadero error de comisión
  37. 37. Métodos de Evaluación • Curvas ROC y AUC (Área Bajo la Curva) • Curvas de omisión (Omission curves) • Jackknife Model Testing
  38. 38. Receiver Operating Characteristic (ROC) • Es una curva que describe la tasa de identificación correcta de presencias (sensitivity) contra la tasa de falsas alarmas (specificity). • La línea recta no tiene valor predictivo (es aleatoria).
  39. 39. Area Under the Curve (AUC) • Es el área total bajo la curva. • Un clasificador aleatorio tiene un área de 0.5; un muy buen clasificador tiene un área muy cercana a 1. • Un ROC ≥ 0.9 es bueno.
  40. 40. Problemas de la AUC • Requeriría de datos de ausencias verdaderas. • Asigna igual ponderación a los errores de omisión y comisión. • Presupone que el clasificador (algoritmo de modelación) genera todos los valores del rango, lo cual no siempre es cierto. Ausencias verdade ras Omisión y Comisión Rango ROC parcial AUC parcial
  41. 41. INTERPRETACIÓN DEL MODELO
  42. 42. 1. Mundo Clásico • Las ausencias se deben a razones radicalmente diferentes dependiendo de la zona. • Las presencias están determinadas por una combinación de factores de tal forma que se pueden cometer errores por dos causas distintas. • G0 y A son distintas y los métodos basados en presencias solas tienden a estimar un área intermedia entre G0 y A.
  43. 43. 2. Mundo de Hutchinson • Todas las ausencias tienen una sola causa (medio ambiente inadecuado). • Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual existen datos (variables ambientales). • En este escenario G0=A y los métodos basados en presencias solas harán un buen o mal trabajo de estimar ambas zonas por igual.
  44. 44. 3. Mundo de Wallace • Todas las ausencias tienen una sola causa (incapacidad de dispersarse). • Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual no existe información (la dispersión). • En este escenario A contiene a G0 y los métodos basados en presencia solas, en el mejor de los casos, proveerán una estimación más o menos completa de A.
  45. 45. Ejercicio 3 • Validar por ROC un modelo de Bioclim usando Diva-Gis.

×