• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados
 

Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados

on

  • 3,522 views

IDE’s y la conservación de la biodiversidad. Presentacion realizada en las jornadas sobre IDE y la iniciativa INSPIRE en el CSIC de Madrid

IDE’s y la conservación de la biodiversidad. Presentacion realizada en las jornadas sobre IDE y la iniciativa INSPIRE en el CSIC de Madrid

Statistics

Views

Total Views
3,522
Views on SlideShare
3,502
Embed Views
20

Actions

Likes
1
Downloads
50
Comments
0

4 Embeds 20

http://www.slideshare.net 11
http://www.techgig.com 5
http://georreferenciaciondeespecies.blogspot.com 2
http://www.linkedin.com 2

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados Presentation Transcript

    • 8 de Junio de 2006 Javier de la Torre Jorge M. Lobo Ingeniero Técnico Dr. en Biología. Agrícola. Científico titular CSIC jatorre@mncn.csic.es mcnj117@mncn.csic.es IDE’s y la conservación de la biodiversidad Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados 1 Buenas tardes. Mi nombre es Javier de la Torre y trabajo en el Museo Nacional de Ciencias Naturales. Esta presentación la he realizado conjuntamente con Jorge Lobo, quien anda por ahí entre el público. Antes de nada me gustararía agradecer a Isabel del Bosque el habernos invitado a esta sesión, la cuál creo que es una gran idea. Voy a empezar haciendo un poco de publicidad del Museo para aquellos que no lo conozcan.
    • Foto de la entrada del museo El Museo se encuentra aquí cerca, detrás de la Residencia de Estudiantes. Hasta Septiembre se puede visitar la exposición temporal “Especies”, en la cual se tratan algunos de los temas de los que voy a hablar hoy.
    • Por otro lado en la exposición permanente verán la cantidad de animales que tenemos metidos en vitrinas. So muy bonitas. Lo que no sabe tanta gente es que en realidad el museo tiene muchos más especímenes guardados en grandes habitaciones cerradas al público,calculamos que entorno a los 8 millones.
    • Son las llamas Colecciones Biologicas. En grandes armarios, en frascos, en bidones, etc, se encuentran millones de animales conservados para su estudio. Aparte de ser curiosas, estas colecciones guardan una información muy valiosa recopilada a lo largo de siglos. Y por qué son valiosas? Bueno, por diversos motivos, yo hoy quisiera explicarles algunos de ellos. Pero miremos con más detalle uno de estos especímenes que tenemos guardados en el museo.
    • P.N.Ordesa 7-7-79 Estos dos escarabajos que aquí ven fueron identificados con el nombre de Osmoderna eremita. Según la etiqueta fueron recolectados en el Parque Nacional de Ordesa el 7 de Julio de 1979.
    • 7 de Julio de 1979 Es decir, en el mundo del 7 de Julio de 1979
    • 7 de Julio de 1979 3 de Enero de 1979 En los Pirineos...
    • foto de ordesa En el Parque Nacional de Ordesa y Monte Perdido...
    • 3 de Enero de 1979 Alguien estuvo alli recolectando...
    • Osmoderma eremita y encontró este escarabajo. Lo metió en un bote y se lo trajo al Museo.
    • Presencia de 1 P.N.Ordesa 7-7-79 especie en tiempo y lugar determinados Es decir, los especímenes guardados en las colecciones biológicas nos indican la presencia de CIERTA ESPECIE EN UN LUGAR Y TIEMPO DETERMINADOS. Esta información nos va a resultar muy útil como veremos más adelante. Claro que la información que tenemos es el nombre de una localidad y la georeferenciación usando nombres de localidades, aparte de no ser muy fiable ni estable, no nos permite el procesamiento automático. Si queremos representarlo en 1 mapa tendremos que asignarle unas coordenadas. Para ello tengo varias posibilidades, en cualquier caso muy incómodas todas.
    • Mapa de papel con la localidad y su centroide Puedo irme a un mapa corriente, buscar la localidad y obtener unas coordenadas...
    • Me puedo ir a un gazetero en internet y buscar la localidad...
    • biogeomancer Puedo utilizar un sistema de georeferenciacion automatica avanzado...
    • mapa de localidades de Espana en cualquier caso voy a necesitar de un servicio que disponga de informacion sobre localidades de forma libre para poder utilizar los datos.
    • mapa de europa con el punto del bicho Bien, ya tenemos entonces nuestro especimen localizado perfectamente. Claro que la información de dónde se encuentra un SOLO especimen de una determinada especie pues tampoco es de gran utilidad....
    • Este es el mismo mapa con muchos mas puntos de donde se encuentra ese bicho en Europa Lo interesante es cuando tienes muchas localidades donde esa especie ha sido encontrada....
    • Este es el mismo mapa con muchos mas puntos de donde se Area de distribucion real de los puntos en europa encuentra ese bicho en Europa Con esto puedes obtener lo que llamamos “mapa de distribucion de esa especie”.
    • Pero si ademas tengo las distribuciones de muchas especies pues puedo medir la biodiversidad de ese grupo de especies. Por ejemplo en este mapa ya hemos solapado las distintas distribuciones de los anfibios en la peninsula iberica, y hemos obtenido la riqueza de anfibios. Las zonas en rojo representan las zonas donde mayor cantidad de especies se pueden encontrar, en verde la zonas dónde menos especies se han contabilizado.
    • Este tipo de estudios sirven por ejemplo en conservacion, para la seleccion de lugares para proteger. En este mapa todavia no publicado Jorge Lobo y otros estudian la distribucion de las especies en la peninsula iberica y proponen localizaciones donde se acumulan la mayor parte de las especies. En Rojo son las zonas muy importantes y en amarillo las importantes. Por otro lado en verde aparecen los parques naturales. Como se puede ver la seleccion de la localizacion de las reservas no siempre se basa en la proteccion de la biodiversidad. Como se puede ver el estudio de las distribuciones es muy importante para la protección de la biodiversidad, pero tiene un condicionante, depende completamente de la disponibilidad de datos de presencia o ausencia de especies.
    • Necesitamos datos Sin datos no podemos trabajar. Las colecciones biológicas que hay por todo el mundo contiene una gran cantidad de datos, el museo como ya he dicho tiene 8 millones de especímenes guardados, pero.... Esta información no es facilmente accesible. Sólo una pequeña parte de los especímenes está insertado en una base de datos y estas no están disponibles através de servicios en Internet que permitan su uso por programas informáticos. La movilización de los datos de las colecciones biológicas ha sido identificado como un PASO OBLIGATORIO para poder analizar la biodiversidad de nuestro planeta. Es por eso que desde hace ya 10 años se ha estado trabajando en estándares y redes que permitan acceso a los mismos.
    • La iniciativa más importante a nivel mundial es el Global Biodiversity Informatics Facility. Actualmente ya tiene más de 180 millones de registros disponibles provenientes de más de 500 colecciones bilógicas por todo el mundo.
    • En esto nos parecemos a INSPIRE, los datos se manejan en el nivel mas conveniente.
    • Sustainable development Conser- User com- Comunidades vation Regu- Industry General Edu- Public munities de usuarios lation cation Research Portales y Portals & ….. servicios Services Protocolo Common común protocol Wrapper BBDD Primary colecciones ….. Data biológicas Los datos de estas colecciones biológicas son obtenidos utilizado un sistema distribuido. Las instituciones participantes conectan las bases de datos de sus colecciones a internet haciendolas disponibles como Servicios Web. Los datos son accedidos normalmente por Portales que hacen consultas a estos proveedores de datos y se los muestran al usuario que realiza la consulta. (Entre el público se encuentra Carmen Quesada, responsable del nodo español de GBIF por si alguien está más interesado en esta iniciativa).
    • Mapa de todos los datos de GBIF Aún así, si vemos la distribución de los datos de GBIF (de todas las especies), veremos que son bastante incompletas. -Hay zonas donde practicamente no se ha recolectado nada y por tanto no sabemos qué organismos se encuentran alli. -En otro sitios los datos son tan pobres que no permiten realizar ningún estudio con ellos.
    • De hecho, precisamente las zonas, dónde se supone que mayor diversidad existe y de mayor importancia, los llamados hotspots, parecen haber quedado fuera de los muestreos de los Biólogos.
    • Como se puede apreciar la mayoria de los hotspots está muy mal cubiertos Menos del 10% de los datos entra dentro de algun hotspot, y esto sabiendo que en ellos se encuentra al menos el 60 % de las especies del planeta. Con los datos actuales, y los que vamos a tener durante mucho tiempo, no es suficiente para analizar la biodiversidad del planeta.
    • Necesitamos una solución No tenemos datos completos sobre dónde se encuentran las especies... Cómo vamos a proteger la biodiversidad si no sabemos dónde se encuentran las especies? ... tenemos un problema... y necesitamos una solución... Les quiero mostrar una posible solución a corto plazo...
    • Distribución potencial Se trata de MODELIZAR la distribución potencial de las especies. Utilizando los datos incompletos de las especies y relacionandolos con datos ambientales podemos intentar inferir su distribución más probable. Las técnicas de modelización no son exactas, pero abren una puerta al problema de la falta de datos en la investigación sobre biodiversidad.
    • Este es el mismo mapa con muchos mas puntos de donde se encuentra ese bicho en Europa Por ejemplo, utilizando los datos que conociamos de presencia, o ausencia, del escarabajo del principio...
    • Precipitacion de de condiciones ambientales invierno Plano verano Precipitacion en Temperatura max. verano Altitud media Y con datos ambientales de ese territorio...
    • Plano de distribución potencial de la especie Podemos obtener un mapa de la llamada DISTRIBUCIÓN POTENCIAL DE ESA ESPECIE. Este mapa de probabilidades de presencia de la especie muestra las zonas de muy baja probabilidad de encontrar esa especie en verde, y en blanco las de muy alta probabilidad.
    • Plano de distribución potencial de la especie Si definimos un umbral a partir del cuál aceptamos la presencia de la especie obtenemos el mapa de la distribución potencial binomial de la especie.
    • si lo comparamos con el mapa original de la distribución de la especie que sólo utilizaba los datos que se habían recolectado...
    • Plano de distribución potencial de la especie podemos ver que el rango de distribución de la especie, potencialmente, es más grande. Como no hay información disponible de la distribución REAL de todas las especies, y como no podemos ir a todos lados a comprobar si una especie existe o no existe... esta técnica nos permite INFERIR LAS DITRIBUCIONES partiendo de datos incompletos.
    • Serie de mariposas modelizadas con GARP para el presente y escenario 2050 A1F d_animated.gif Otra aplicación que tienen los modelos de distribuciones potenciales es la proyección del modelo sobre otras condiciones ambientales que no sean las mismas que tenemos ahora. Por ejemplo para el estudio de cambio climático. Proyectando nuestro modelo podemos ver como cambiará la distribución de la especie en diferentes escenarios. En la imagen que aquí se muestra se puede ver cómo la distribución de una serie de mariposas se va a ir desplazando hacia el norte a medida que las temperaturas vayan subiendo.
    • Serie de mariposas modelizadas con GARP para el presente y escenario 2050 A1F d_animated.gif Otra aplicación que tienen los modelos de distribuciones potenciales es la proyección del modelo sobre otras condiciones ambientales que no sean las mismas que tenemos ahora. Por ejemplo para el estudio de cambio climático. Proyectando nuestro modelo podemos ver como cambiará la distribución de la especie en diferentes escenarios. En la imagen que aquí se muestra se puede ver cómo la distribución de una serie de mariposas se va a ir desplazando hacia el norte a medida que las temperaturas vayan subiendo.
    • Crotalaria pallida (FABACEAE) Rafael Luís Fonseca También los podemos utilizar para estudiar como se va a distribuir una especie invasora, que ha sido introducida artificialmente por el hombre en otro continente. En este caso podemos ver cómo se distribuirá una planta originaria de Africa por Sudamérica una vez que ha sido introducida por el hombre.
    • Datos de presencia- ausencia de la especie + Datos geográficos ambientales = Modelo de distribución Resumiendo: Los modelos de distribución potencial nos proporcionan una herramienta muy interesante para el estudio de la biodiversidad. Y para poder realizarlos necesitamos de: 1) Datos de presencia-ausencia de la especie 2) Datos geográficos ambientales... !
    • Modelizar es lento y complicado Pero modelizar no es actualmente una tarea sencilla. Aún teniendo todos los datos disponibles, realizar un modelo de distribución de una especie es algo lento y complicado.
    • Datos de especies Datos espaciales XML - ABCD Vectoriales ......... XML - DwC CSV Raster ......... BBDD GIS - Puntos, Polígonos Hay que prepar los datos que probablemente vendran en formatos diferentes. 1) Para los datos de especies nos podemos encontrar los datos en formatos más modernos, como XML, en sencillos ficheros de texto, en bases de datos de muchos tipos y esquemas, o en formato GIS con geometría de puntos o polígonos. 2) Los formatos de datos espaciales son demasiados para enumerarlos, más o menos cada GIS tiene su formato propio, algunos abiertos, otros cerrados. En los dos casos es probable que necesite realizar transformaciones con ellos, prepararlos, limpiarlos, cambiarles la escala, etc. Roberto Vallejo ya hablo de ello...
    • DIVA-GIS FloraMap DesktopGARP El siguiente paso que tendré que realizar es la selección de un tipo de Modelo, de 1 algoritmo de modelización. Existen muchos tipos de modelos que pueden ser llevados a cabo, algunos especialmente diseñados para modelización de distribuciones de especies. Normalmente se utilizan paquetes matemáticos como R o aplicaciones específicas para cada uno de estos modelos. Por supuesto cada programa requiere los datos en un formato diferente.
    • Tiempo 200 150 100 50 Especies 0 Otro inconveniente es que ciertas técnicas pueden requerir gran capacidad de proceso y memoria. Algunos de los modelos pueden estar semanas corriendo en un ordenador normal. Es necesario implementar estas aplicaciones en clusters que puedan correr mas rapido. Queremos acceder a supercomputadores para procesar nuestros modelos.
    • Modelizar es lento y complicado En fin, modelizar es un trabajo laborioso que requiere de experiencia tanto en GIS como en programacion, ademas de tener contactos para conseguir buenos datos ambientales. Por tanto no todos los biologos tienen la posibilidad de modelizar las distribuciones de las especies que estan estudiando, y cuando lo hacen muchas veces los trabajos son de muy baja calidad.
    • BioCASE, Synthesys, EDIT Hacia un laboratorio virtual en biodiversidad Pero estamos trabajando en ello! Desde hace varios años la investigación en Biodiversity Informatics ha tratado de solucionar algunos de estos problemas. En Europa destacan BioCASE (el cual ya ha terminado), Synthesys (el proyecto en el que estamos trabajando ahora mismo) y EDIT (el proyecto en el que trabajaremos a partir de Julio). En el Museo trabajamos para hacer la modelización un proceso más sencillo, rápido y fiable. Y como estamos llevando a cabo esto?
    • Usando estandares! Como son los de OGC para la informacion geografica, y los de TDWG para informacion biológica. Creo que no hace falta que explique lo que es OGC. De hecho lo utilizare para definir lo que es TDWG. Lo que OGC hace para la información y tecnologías espaciales... es lo que TDWG hace para las bases de datos de colecciones biologicas y taxonomía. Si buscas información sobre especies o especímenes es muy probable que termines usando alguno de los estándares de TDWG. Por supuesto, GBIF también los usa.
    • http://openmodeller.sourceforge.net/ Aparte de los estándares internacionales estamos colaborando en el desarollo de una librería Open Source llamada OpenModeller. En esta librería se están implementando diversos algoritmos de modelización que luego son accesibles através de una serie de APIs. Es como una especie de ODBC para los diferentes Modelos de Distribución Potencial. Igual que con ODBC los clientes de openModeller no tienen por qué conocer los detalles de cada uno de los modelos, así se puede programar software genérico que funcione para todos ellos. Para el usuario esto significa que una sóla herramienta le permitirá llevar a cabo muchos modelos diferentes con los mismos datos.
    • Escenarios Más fácil es explicarlo con una serie de escenarios donde OpenModeller y el resto de elementos implicados en la modelización se vean reflejados.
    • Escenario 1: Aplicación Desktop Usuario Client Datos de especies Colecciones GBIF Agencias Datos propios Datos ambientales IDE’s Otros recursos El primer escenario muestra como un usuario que ha instalado un cliente de OpenModeller en su ordenador podrá realizar una modelización de forma sencilla. El software cliente permite diseñar un experimento de modelización indicando el algoritmo a utilizar y otros parámetros. Los datos de especies y los datos ambientales que quiera utilizar podrán estar en su disco duro o podrán ser accedidos remotamente. -En el caso de los datos de especies el protocolo de comunicación es Web Feature Service utilizando un GML app schema que ha creado TDWG. También es capaz de comunicarse con otros protocolo específicos de TDWG ya que WFS tiene algunos problemas (pero eso es otra historia). -Para el caso de los datos espaciales el protocolo a utilizar será Web Coverage Service cuando sea posible. Si no, acceso directo a ficheros rasters también está contemplado.
    • Escenario 2: Uso de un supercomputador Usuario Client Datos de especies Colecciones GBIF Agencias Datos propios Datos ambientales IDE’s Otros recursos Supercomputador En el segundo escenario, el usuario también tendrá un cliente OpenModeller instalado en su ordenador. Allí es donde diseñará su experimento de modelización, y cuando esté listo, lo enviará a un centro de cálculo, un cluster o un supercomputador, dónde será procesado. Para la comunicación entre el cliente OpenModeller y el ordenador donde se está procesando el modelo existe un protocolo, basado en SOAP. Así el ordenador donde se procesan los modelos pone a disposición de los usuarios un servicio de procesamiento. Recientemente OGC ha empezado a trabajar en 1 nuevo servicio llamado Web Processing Service. Si fuera posible nos gustaría substituir el protocolo propio de OpenModeller por este futuro estandar.
    • Escenario 3: Aplicación Quantum GIS Usuario Datos de especies Colecciones GBIF Agencias Datos propios qgis7.png Datos ambientales IDE’s Otros recursos Antes de empezar a modelizar hay que realizar una serie de tareas de limpieza con los datos y hay que comprobar su fiabilidad para el muestreo. En la mayoría de los casos esto se lleva a cabo en una aplicación GIS. Gracias a la modularidad del software Open Source QuantumGIS (Qgis) podemos integrar OpenModeller y otras herramientas útiles a la hora de modelizar como plugins dentro del programa. La primera versión de OpenModeller ya está disponible como plugin para Qgis, que por cierto es multiplataforma. A partir de Septiembre, con la incorporación de uno de los desarrolladores de GRASS al departamento en el museo empezaremos a incluir más utilidades a Qgis para la realización de buenos modelos. El unirnos a un proyecto Open source nos permite disponer de la base para proporcionar una herramienta más completa a los investigadores.
    • Escenario 3: Aplicación Quantum GIS Usuario Datos de especies Colecciones GBIF Agencias Datos propios Datos ambientales IDE’s Otros recursos Supercomputador Por supuesto el usuario también dispondrá de la posibidad de usar un servicio externo para el procesamiento del modelo. En el caso de que podamos implementar la API de OpenModeller como un WPS de hecho cualquier software GIS que implemente WPS podrá utilizar los servicios de modelización de openModeller.
    • Escenario 4: Aplicación Web Usuario Datos de especies Colecciones GBIF Agencias Datos propios Datos ambientales IDE’s Otros recursos SWIG wrapper Ya por último, otra posibilidad que planteamos en el proyecto es la realización de una aplicación Web dentro del proyecto EDIT para poder realizar los modelos desde el navegador web.
    • Pero cómo encontrar los datos? Datos de especies Datos ambientales Colecciones GBIF IDE’s Otros recursos Agencias Datos propios BiogeoSDI? Pero en toda esta infraestructura todavía queda una parte por resolver. Cómo pueden encontrar los usuarios los datos, tanto ambientales como de especies? Bueno, para el caso de los datos ambientales la solución parece estar en los catalog services que los IDEs puedan ir implentando. El usuario en cualquier caso necesitará de catálogos a nivel nacional, europeo y global. Por otro lado para los datos de especies, en el caso de GBIF ya existe un registro UDDI, donde se pueden consultar los recursos existentes, o utilizar algo de los servicios web que están poniendo disponibles. Por lo que parece el usuario va a tener que utilizar varios registros o catálogos para encontrar la información que le interesa para modelizar. En este momento estamos evaluando la posibilidad de crear un Catalog Service específico para utilizar en biogeografía, podría llamarse BiogeoSDI, donde registrar todos estos recursos y hacer más fácil el descubrimiento de los recursos a los usuarios. Nos gustaría discutir esta posibilidad con gente que esté implementando Catalog Services para infraestructuras de datos espaciales.
    • QuantumGIS, Desktop OWS: WFS, WMS, WCS, WPS, WCAS Spatial Database Modelling Library Web visualization Database Wrapper: TAPIR,WFS, BioMOBY Open Source Quizá pueda resultar interesante remarcar las tecnologías que estamos utilizando, o que pensamos que podemos utilizar. Como principio intentamos siempre utilizar herramientas Open Source. Destacar quizá 2 cosas: -Utilizamos tanto Geoserver como deegree como servidores espaciales de servicios OGC. -Para un proyecto de visualización que tenemos estamos utilizando Google Maps con WMS y WFS.
    • ¿ ? http://publicgeodata.org/ Ya para terminar me gustaría realizar una reflexión respecto a INSPIRE. Como se ha podido ver a lo largo de la presentación, nuestra comunidad tiene una gran necesidad de datos espaciales. Necesitamos acceso a datos de calidad, con la mayor resolucion posible y de forma libre. Hasta ahora el acceso a los gazeteros para la georeferenciación, y a los datos ambientales para la modelización se han realizado utilizando recursos libres y convenios específicos. Dehecho es chocante que la mayoría de los datos utilizados para modelizar en Europa provengan de EEUU. Un acceso de calidad, libre y gratuito a estos datos nos permitirá la realización de mejores modelos. Si por el contrario el acceso a los datos tiene un precio, corremos el peligro de que sólo ciertas agencias u organismos puedan llevar a cabo los mismos. Nosotros creemos en el libre acceso a los datos espaciales que han sido financiados por organismos públicos y de hecho firmamos hace tiempo la declaración de publicgeodata. Aunque parece que INSPIRE estipula que ! no debería haber barreras economicas entre diferentes sectores públicos, la información deberia estar disponible para cualquiera...
    • ¡Gracias! Javier de la Torre Alonso Jorge M. Lobo jatorre@mncn.csic.es mcnj117@mncn.csic.es Mucha gracias por su atención.
    • ¡Gracias! Javier de la Torre Alonso Jorge M. Lobo jatorre@mncn.csic.es mcnj117@mncn.csic.es Mucha gracias por su atención.