Introduciéndose en el sector del Big Data

232
-1

Published on

El artículo introduce conceptos introductorios para comprender el fenómeno del Big Data

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
232
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Introduciéndose en el sector del Big Data

  1. 1. Artículo: Introduciendo el Big Data. 15/3/2013 walterfarah@yahoo.com El “Big Data” Walter Farah CalderónLas primeras décadas del siglo XXI muestran que una de sus características dominantes es lageneración, procesamiento y disponibilidad de grandes volúmenes de datos y, en consecuencia,de las Supercomputadoras que, a diferencia de una red que incluye servidores dispersos endistintos lugares, los concentra en un solo lugar. Watson, una de las más reconocidas, agrupa nomenos de 90 de ellos.Pero además, supercomputadoras, porque por sus características físicas y lógicas superan enmucho las tecnologías actuales, “anticuadas y arraigadas en los sistemas informáticos ytecnologías desarrolladas en la década de 1970”, como la caracteriza Sam Madden, profesor deThe Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT.Para representar fácil y rápidamente el rendimiento de una supercomputadora los expertosrecurren a su particular notación científica, los FLOPS (“floating point operations per second”), esdecir, la cantidad de operaciones que procesa por segundo, por lo que hablamos de teras y petas,es decir, respectivamente, de al menos un billón y mil billones de operaciones por segundo. Elsiguiente paso, el grail santo de la supercomputación actual, al decir de Clay Dillow, sería unamáquina con capacidad exaflop, es decir, que pueda ejecutar un trillón de operaciones porsegundo, 100 veces más que la mayor velocidad actual. INTEL anunció que llegará a esa meta en el2018, con el desarrollo de su familia de chips, IXeon Phi.En función de la capacidad de procesamiento, se genera el TOP500, una lista que incluye a las 500supercomputadoras más veloces, actualizada dos veces al año. A noviembre de 2012, últimadisponible, 5 de los 10 primeros puestos de la lista son ocupados por supercomputadoras deEstados Unidos, Alemania con 2 y una cada uno, Japón, China e Italia. Domina IBM con 6 de las 10primeras, con presencia en tres países diferentes: Estados Unidos, Alemania e Italia.Sin embargo, a pesar del énfasis en la capacidad de procesamiento, hoy día lassupercomputadoras empiezan a ser valoradas con mayor complejidad y el término empieza a sersustituido por el de “Computación de Alto Rendimiento” (HPC); “Cluster de Computadoras de AltoRendimiento” (HPCC); “Computación Acelerada” como la llama Cray Inc. o el “Big Data”, como legusta utilizar a la mayoría, conceptos mucho más comprensivos que la identificación tradicional dela supercomputación con la súper velocidad de procesamiento.La National Science Foundation caracteriza el Big Data como “large, diverse, complex, longitudinal,and/or distributed data sets”. El IBM Institute for Business Value y la Saïd Business School deUniversity of Oxford, introducen el concepto de las “4 V del BD”: volumen, velocidad, variedad, yveracidad. Variedad, es decir, la complejidad de integrar la gestión de diferentes fuentes y tipos dedatos, incluyendo estructurados, semiestructurados y no estructurados, para su disposición enmúltiples formatos. Veracidad, que refiere al nivel de fiabilidad asociado con los datos y ladisminución de la incertidumbre. 1
  2. 2. Artículo: Introduciendo el Big Data. 15/3/2013 walterfarah@yahoo.comOtros empiezan a fijarse en el costo energético asociado a su uso y por ello, frente al TOP500, seconsolida la lista Green500, que reordena los datos de aquella, de acuerdo a cuántos cálculosobtiene por vatio de electricidad.Para noviembre de 2012, los tres primeros en el TOP500 lo son Titán, de Cray Inc.; Sequoia BlueGeen de IBM y la K Computer de la japonesa Fujitsu. Para igualar lo que procesan los 16.3 petas deSequoia, en un día se necesitarían 120 billones de personas con 120 billones de calculadoras,durante 50 años. Titán, del U.S. Department of Energy’s (DOE), en manos del Oak Ridge NationalLaboratory (ORNL), el supercomputador de mayor rendimiento, inaugurado en octubre de 2012,llega a 17.89 petas. En el Green500, por el contrario, figuran Beacon de Appro, SANAM de ADtechy Titán de Cray Inc., quien no solo es primera en procesamiento sino tercera en eficienciaenergética.Una mayor cantidad de fuentes de datos y el desarrollo de fuentes digitales que permiten surecolección en tiempo real, como instrumentos, sensores, transacciones de internet, entre otrasmuchas, impulsan al sector del Big Data. De acuerdo a cifras de IBM, el 90% de los datos en elmundo se ha creado en los últimos dos años y hoy, todos los días, se crean 2.5 quintillones debytes de datos.Más de 900 millones de usuarios de Facebook registrados generan más de 1500 actualizaciones deestado cada segundo de sus intereses y su paradero. En 2011, la plataforma de comercioelectrónico eBay, recolectó datos sobre más de 100 millones de usuarios activos, incluyendo los 6millones de nuevos bienes que se ofrecen todos los días. Cuando el 14 de febrero del 2013, cerrósus puertas tras tres años de operación para una etapa de mantenimiento y renovación deequipos, el Large Hadron Collider (LHC), que hizo posible el descubrimiento de la Partícula deHiggs, entre la frontera de Suiza y Francia, había logrado acumular 100 petaflops de datos, dosveces una biblioteca colectiva que incluiría cada palabra escrita de todas las lenguas, más o menosel equivalente a 700 años de películas HD de plena calidad o mil veces todo el texto disponible enla Biblioteca del Congreso de los Estados Unidos. El “Correlator”, la supercomputadora del RadioTelescopio ALMA que en pleno funcionamiento capturará señales del radioespectro espacial,actuará como un único receptor diseñado para correlacionar las señales débiles de múltiplesfuentes (de ahí el nombre con que es conocida), capaz de realizar 17 petas de operaciones porsegundo.Pero su generación no es exclusiva de internet o la investigación científica; baste pensar enempresas de exploración geológica, aeroportuarias, transacciones financieras o detelecomunicaciones, entre otras. Y su crecimiento no se detiene, porque las posibilidades soninfinitas, impulsadas por dispositivos móviles como teléfonos y autos. En 2011, había 780 millonesteléfonos inteligentes en todo el mundo capaces de recoger y transmitir datos de geo-localización,lo que generó más de 600 petas de datos cada mes. Se estima que el tráfico global de datosgenerados por las comunicaciones móviles se duplicará cada año hasta llegar a 11 exabytes pormes en 2016.Y con ello una Nube que se expande, una Computación Cuántica que sigue madurando y,esperando, lo que llaman, Google entre otros, el “Deep Learning”, el “Aprendizaje Profundo”. 2

×