El horizonte de la investigación en el siglo xxi

1,921 views

Published on

Visión de la investigación en el Siglo XXI

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,921
On SlideShare
0
From Embeds
0
Number of Embeds
41
Actions
Shares
0
Downloads
24
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

El horizonte de la investigación en el siglo xxi

  1. 1. El Horizonte de laInvestigación en el Siglo XXI Dr. Hugo A Banda Gamboa 15 Junio 2011
  2. 2. Contenido La Sociedad del Conocimiento y el Tsunami de datos El 4to. Paradigma eScience y La Ciencia Computacional Laboratory Information Management Systems Herramientas computacionales Proyectos de Microsoft Research Conclusión Referencias Dr. Hugo Banda - Junio 2011 2
  3. 3. La Sociedad del Conocimiento• El conocimiento está considerado como la principal fuerza motriz del crecimiento económico y del mejoramiento de la calidad de vida de las sociedades actuales.• A medida que la generación e intercambio de conocimiento se van constituyendo en preocupaciones clave, no resulta sorprendente que la inversión en la creación de nuevas herramientas de análisis y visualización de datos, generación de información y gestión del conocimiento, sea considerada de suma importancia en los países de mayor avance científico-tecnológico. Dr. Hugo Banda - Junio 2011 3
  4. 4. El Tsunami de Datos …• Cuando el desarrollo de la teoría genera tantos datos, los científicos encuentran a menudo que nuevas ideas no pueden ser probadas por falta de tecnología o herramientas.• Investigadores en Genómica, Astronomía y muchas otras áreas activas de la ciencia enfrentan un reto fundamental: la recopilación de datos es tan fácil y rápida que supera la capacidad para validar, analizar, visualizar, almacenar y administrar la información. Dr. Hugo Banda - Junio 2011 4
  5. 5. El Tsunami de Datos• Cada vez más, los adelantos científicos se alimentan por funciones informáticas avanzadas que ayudan a los investigadores a manipular y explorar grandes conjuntos de datos.• La velocidad a la que cualquier disciplina científica avance dependerá de qué tan bien sus investigadores colaboren entre sí y puedan contar con el apoyo de tecnólogos, en áreas de eScience tales como bases de datos, administración de flujo de trabajo, visualización y tecnologías de cloud computing. Dr. Hugo Banda - Junio 2011 5
  6. 6. Gordon Bell: Microsoft Research• En las investigaciones científicas, estamos en una etapa de desarrollo que es similar a cuando se inventó la imprenta. La impresión tomó mil años en desarrollarse y evolucionar hacia las formas que se tienen hoy. Usando computadores para obtener comprensión de datos creados y guardados en nuestros almacenes de datos electrónicos probablemente tomará décadas — o menos. Dr. Hugo Banda - Junio 2011 6
  7. 7. El 4to Paradigma• A pesar que diversos métodos de simulación empíricos y analíticos han proporcionado respuestas a muchas preguntas, está surgiendo una nueva metodología científica impulsada por problemas intensivos en datos: el Cuarto Paradigma.• El cuarto paradigma aborda este desafío y la oportunidad que se presenta. Dr. Hugo Banda - Junio 2011 7
  8. 8. Los 4 Paradigmas Científicos1. Hace miles de años: la ciencia fue empírica (descripción de fenómenos naturales)2. Los últimos cien años: ramificación teórica (uso de modelos y generalizaciones)3. Las últimas décadas: ramificación computacional (simulación de fenómenos complejos)4. Hoy: exploración de datos (eScience) unificación de la teoría, experimentación y simulación:  Datos capturados por instrumentos o generados por simulador  Procesado por software  Información/conocimiento almacenado en el equipo  Científicos analizan la base de datos / archivos utilizando la administración de datos y la estadística Dr. Hugo Banda - Junio 2011 8
  9. 9. eScience• Es la ciencia intensiva en cálculo, que se lleva a cabo en entornos de red altamente distribuidos, o es la ciencia que utiliza enormes conjuntos de datos que requieren computación en grilla.• El término a veces incluye tecnologías que permiten colaboración distribuida, a través de acceso en grilla.• El término fue creado en 1999 por John Taylor, Director General de la Oficina de Ciencia y Tecnología del Reino Unido. Dr. Hugo Banda - Junio 2011 9
  10. 10. Características de eScience• Debido a la complejidad del software y de los requerimientos de infraestructura de almacenamiento de datos, los proyectos de eScience usualmente involucran a grandes equipos, gestionados y desarrollados en centros de investigación, grandes universidades y el gobierno.• Actualmente existen varios programas enfocados en eScience en el Reino Unido, Europa y Estados Unidos, en donde el término cyberinfrastructure es típicamente usado para definir proyectos de eScience. Dr. Hugo Banda - Junio 2011 10
  11. 11. La Exploración de Datos• Actualmente los astrónomos realmente no miran el cosmos a través de telescopios.• En su lugar, exploran el espacio a través de instrumentos complejos y de gran escala, que envían datos a centros de almacenamiento, y sólo entonces buscan la información y la visualizan en sus computadores. Dr. Hugo Banda - Junio 2011 11
  12. 12. La Ciencia Computacional• Las técnicas y tecnologías conocidas para la denominada ciencia basada en datos son tan diferentes de las que actualmente se demandan, que vale la pena hacer una clara distinción con lo que se ha dado en llamar la ciencia computacional, que constituye el cuarto paradigma para la exploración científica. Dr. Hugo Banda - Junio 2011 12
  13. 13. X-Info• La evolución de X-Info y Comp-X para cada disciplina X• Cómo codificar y representar el conocimiento Dr. Hugo Banda - Junio 2011 13
  14. 14. Los Problemas Genéricos• Adquisición de datos • Construcción y• Gestión de Petabytes ejecución de modelos (1015 bytes) • Integración de datos y• Esquemas comunes literatura• Cómo organizar y • Documentación de reorganizar experimentos• Cómo compartir con • Conservación y otros preservación a largo• Herramientas para plazo consulta y visualización Dr. Hugo Banda - Junio 2011 14
  15. 15. Información con Semántica Codificada• Las metas de muchos científicos es codificar su información de tal manera que la puedan intercambiar con otros científicos.• ¿Por qué es necesaria la codificación?  Porque para que la información almacenada en un computador pueda ser comprensible, los programas deben ser capaces de comprender la información.• Esto implica que la información sea representada en forma algorítmica. Para esto, es necesario desarrollar una representación (semántica) estandarizada de lo que significa un gen, una galaxia o una medición de alguna variable física. Dr. Hugo Banda - Junio 2011 15
  16. 16. Laboratory Information Management Systems• Este tipo de sistema de información proporciona una cadena de procesamiento desde los instrumentos o los simuladores que generan datos, hasta la bodega de datos.• La cadena de procesamiento se encarga de adquirir los datos, calibrarlos, acondicionarlos, reconfigurarlos, codificarlos y descargarlos en el lugar de almacenamiento, en un formato tal que al estar publicado en el Internet, pueda ser accesible y comprensible para una amplia variedad de investigadores o usuarios. Dr. Hugo Banda - Junio 2011 16
  17. 17. Formatos para Grandes y Complejas Bases de Datos• La comunidad científica ha inventado un conjunto de formatos para enormes y complejas colecciones de datos:  HDF6 (Hierarchical Data Format) http://www.hdfgroup.org/  NetCDF7 (Network Common Data Form http://www.unidata.ucar.edu/software/netcdf/• Estos formatos son utilizados para intercambio de datos y portan el esquema adonde quiera que se los mueva.• Sin embargo las diversas disciplinas científicas requieren mejores herramientas que HDF y NetCDF para lograr que los datos puedan autodefinirse. Dr. Hugo Banda - Junio 2011 17
  18. 18. Acceso a Grandes y Complejas Bases de Datos• Otro problema clave es que a medida que las colecciones de datos se hacen grandes, se dificulta su transferencia. Un Petabyte de datos ya no es posible mover con FTP.• Para realizar el análisis de datos se manejan dos opciones: mover los datos hacia quien requiere analizarlos; o mover las consultas hacia donde están los datos.• En este caso resulta evidente que es necesario desarrollar mejores herramientas para aplicar las consultas a donde están las colecciones de datos. Dr. Hugo Banda - Junio 2011 18
  19. 19. Visualización y Análisis• Las herramientas de visualización y análisis forman parte de un tercer problema clave.• Algunas comunidades científicas actualmente utilizan MATLAB, EXCEL y LabView.• At present, we have hardly any data visualization and analysis tools. Some research communities use MATLAB, for example, but the funding agencies in the U.S. and elsewhere need to do a lot more to foster the building of tools to make scientists more productive. Dr. Hugo Banda - Junio 2011 19
  20. 20. Herramientas Computacionales (HW/SW)• La complejidad de las tareas analíticas y de visualización, requieren de infraestructura computacional paralela y distribuida. Para estos fines, se han desarrollado algunos proyectos:  Cluster Beowulf - http://www.beowulf.org/  Proyecto Condor - http://www.cs.wisc.edu/condor/  Programa BOINC - http://boinc.berkeley.edu/ Dr. Hugo Banda - Junio 2011 20
  21. 21. Cluster Beowulf• Un Beowulf es una clase de computador masivamente paralelo de altas prestaciones principalmente construido a base de un cluster de componentes hardware estándard.• Un Beowulf ejecuta un sistema operativo de libre distribución como Linux o FreeBSD, y se interconecta mediante una red privada de gran velocidad.• Generalmente se compone de un grupo de PCs o estaciones de trabajo dedicados a ejecutar tareas que precisan una alta capacidad de cálculo.• Los nodos en el cluster de computadoras no se hallan en los puestos de trabajo de los usuarios, sino que están totalmente dedicados a las tareas asignadas al cluster.• Generalmente, el cluster se conecta al mundo exterior por un solo nodo. Dr. Hugo Banda - Junio 2011 21
  22. 22. Cluster Beowulf Construido por la NASA con 64 PC´s Ordinarios Dr. Hugo Banda - Junio 2011 22
  23. 23. Proyecto Condor• Condor es un sistema de gestión de carga de trabajos que requieren computación intensiva.• Condor provee de un mecanismo de colas de trabajo, políticas de calendarización, esquemas de prioridad, monitoreo y gestión de recursos.• Los usuarios simplemente envían sus trabajos seriales o paralelos y Condor los sitúa en la cola, decide cuándo y dónde ejecutarlos, de acuerdo con las políticas establecidas, monitoreo cuidadosamente su progreso y finalmente informa al usuario que ha concluido su procesamiento. Dr. Hugo Banda - Junio 2011 23
  24. 24. Programa BOINC• Programas de código abierto para computación voluntaria y computación en grilla (grid).• Usa el tiempo de inactividad de los computadores (Windows, Mac, o Linux) para desarrollar proyectos complejos:  Científicos: BOINC permite crear un proyecto de computación voluntaria obteniendo la potencia de procesamiento de miles de CPUs.  Universitarios: BOINC ayuda a crear un Campus Virtual de Supercomputación  Empresariales: BOINC facilita la computación en grilla con ordenadores personales Dr. Hugo Banda - Junio 2011 24
  25. 25. Proyectos de Microsoft Research …• Microsoft Biology Foundation v2.0: Library & Tools• MirageBlocks• High Quality Automatic Translations• World Wide Telescope• F# Programming Language• Web N-gram Services (Semantic Computing)• Digital Humanities & eHeritage Tolls for Academics• Zentity 2.0 and Active Text Dr. Hugo Banda - Junio 2011 25
  26. 26. Proyectos de Microsoft Research• .NET Gadgeteer-A plataform for rapid prototyping• eSience in the Cloud at fluxdata.org• WikiBhaha-A multilingual content creation tool for Wikipedia• Rich Interactive Narratives• Window HPC y Windows Azure• Scientific Computing using Windows Azure• Kinect Development Kit• RiSE4Fun-Research Tools for Serious Developers Fuente: http://research.microsoft.com/en-us/research/default.aspx Dr. Hugo Banda - Junio 2011 26
  27. 27. ConclusiónCon la ciencia avanzando a ser computacionaly basada en grandes colecciones de datos, losdesafíos tecnológicos clave incluyen lanecesidad de mejor captura, análisis,modelación y visualización de la informacióncientífica. El objetivo es ayudar a loscientíficos, investigadores, políticos y elpúblico en general en la toma de decisionesbien informadas. Dan Fay - Microsoft Research Dr. Hugo Banda - Junio 2011 27
  28. 28. Referencias• G. Bell, T. Hey, and A. Szalay, “Beyond the Data Deluge,” Science, vol. 323, no. 5919, pp. 1297–1298, 2009.• J. Wing, “Computational Thinking,” Comm. ACM, vol. 49, no. 3, Mar. 2006.• NSF Regional Scale Nodes, http://rsn.apl.washington.edu.• G. Bell, J. Gray, and A. Szalay, “Petascale Computational Systems,” IEEE Computer, pp. 110–112, vol. 39, 2006.• T Hey, S Tansley, and K Tolle (Eds). “The Fourth Paradigm: Data-Intensive Scientific Discovery.” Microsoft Research, Redmond, Washington, USA, 2009. Dr. Hugo Banda - Junio 2011 28
  29. 29. GRACIAS Dr. Hugo A. Banda Gamboa Presidente CORDICYT hugo.banda@cordicyt.orgQuito, Marzo 2006 (C) Dr. Hugo A. Banda Gamboa 29/46

×