Big Data y la Innovación Global en Servicios Actual y Futura

4,934 views

Published on

Publicación que trata el tema del Big Data y la influencia disruptiva que está generando a nivel mundial en el área de Servicios actualmente y en el futuro. La publicación contiene imágenes interactivas (videos y link a páginas web) para lo cual, se deben pinchar las imágenes indicadas, o bien, utilizar un lector de códigos QR para Smartphones para poder acceder al material.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,934
On SlideShare
0
From Embeds
0
Number of Embeds
2,419
Actions
Shares
0
Downloads
25
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Big Data y la Innovación Global en Servicios Actual y Futura

  1. 1. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. 22-08-2013 HUGO CÉSPEDES A. Big Data y la Innovación Global en Servicios Actual y Futura La Innovación Tecnológica siempre nos sorprende con su rapidez y beneficios, así como la influencia que ejerce en nuestro diario vivir actual y futuro. Pero específicamente ¿qué es Big Data? ¿por qué tanta relevancia hoy en día con esta revolución tecnológica? ¿en qué podemos observar sus aplicaciones y beneficios inmediatos? ¿cómo nos beneficia actualmente? ¿Qué nos depara el futuro del Big Data? Estos y otros puntos, son abordados en el presente artículo. Technology
  2. 2. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. INDICE TEMÁTICO Introducción y Evolución Histórica del Concepto. Definición del BIG DATA. - El Mundo Académico y el Big Data. - Tipo de Información que trata el Big Data (Internet y Social Media, M2M, Grandes Transacciones, Generado por Humanos, entre otros. Arquitectura del Big Data. - Haddop (Hoddop Distributed File System, Hadoop MapReduce, Haddop Common). - Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Lucense, Oozie, Pig, Zookepper). Big Data y la Innovación Global de Servicios (Actual y Futura). - Aplicaciones del Big Data Actualmente. - Ciencias Sociales Computacionales. - Gobierno. - Sector Privado. - Desarrollo Internacional. - Caso Big Data y el Comportamiento de las Personas. - La Utilidad del Big Data en e-Commerce (El Big Data transforma Negocios, La Cara del Big Data, Big Data en tesoros Históricos, Sistemas de Evaluación de Riesgo, Desarrollo de Programación Externa y Co-Diseño con Clientes). - Caso del Big Data en el Sector Salud (Desbloqueo del Valor oculto de los Datos). - Caso Big Data en la Industria de Entretención de Juegos (Telemetría Enriquecida). - Caso Big Data y sus Aplicaciones en el Deporte. - Caso Big Data en la Educación. - Big Data y el Caso “Prism y Boundless Informant” para Espionaje por parte de Estados Unidos y otras Naciones. - Caso Big Data y las Smart Cities. - 5 Proyectos Big Data que pueden impactar tu vida. - Cómo se Comportan los Clientes: Utilizando Datos para Conducir la Innovación, Desarrollo & Estrategia Digital. - Big Data y el Futuro. - Conclusiones y Palabras al Cierre.
  3. 3. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Big Data y la Innovación Global en Servicios Actual y Futura La Innovación Tecnológica siempre nos sorprende con su rapidez y beneficios, así como la influencia que ejerce en nuestro diario vivir, actual y futuro. Pero específicamente ¿Qué se entiende por Big Data? ¿Por qué tanta relevancia hoy en día con esta revolución tecnológica? ¿En qué áreas podemos observar sus aplicaciones y beneficios inmediatos? ¿Cómo nos beneficia actualmente? ¿Qué nos depara el futuro del Big Data? Esto y otros aspectos son los que nos aprontamos a abordar a continuación. INTRODUCCIÓN Y EVOLUCIÓN HISTÓRICA DEL CONCEPTO.- Hablar de los orígenes del “Big Data” es complicado y relativo, dependiendo del punto de vista desde el cual se borden. Sin embargo, si lo vemos desde un punto de vista macro e histórico, es más fácil su dilucidación sus efectos en los Servicios a nivel global, tema del cual habíamos hablado anteriormente 1 . Los orígenes del Big Data comienza muchos años antes del “rumor mismo del Big Data”. Ya hace setenta años, tal como lo sostiene Gil Press 2 , nos encontramos con los primeros intentos de cuantificar la tasa de crecimiento del volumen de datos o lo que se conoce como “la explosión de la información” (término utilizado por primera vez en 1941, Diccionario Oxford, en inglés). A continuación, presentamos los principales hitos en la historia del dimensionamiento de los grandes volúmenes de datos, así como las primeras ideas sobre el Big Data y las observaciones relativas a los datos o explosión de la información. 1944, Fremont Rider, bibliotecario de al Universidad de Wesleyan, publica “The Scholar and the Future on the Research Library”, donde estima que las bibliotecas universitarias americanas duplicarán su tamaño cada 16 años. Dada esta tasa de crecimiento, especula que la biblioteca de Yale en 2040 tendrá aproximadamente 200 millones de volúmenes, que ocuparán más de 6.000 kilómetros de estanterías, lo cual requerirá personal de catalogación de estanterías del orden de 6.000 personas. 1961, Derek Price publica “Science Since Babylon”, en donde traza el crecimiento de los conocimientos científicos al ver el crecimiento en el número de publicaciones y trabajos científicos. Llega a la conclusión de que “el número de nuevas revistas ha crecido de manera exponencial y no lineal, duplicándose cada 15 años, multiplicándose su crecimiento por un factor de 10 cada medio siglo”. Price denomina a esto “Ley de crecimiento Exponencial”, explicando que “cada avance genera nuevos avances a una tasa de crecimiento 1 HCGlobal Group, Hugo Céspedes A., “Service Design y la Nueva Economía Global de Servicios”, http://www.hcglobalgroup.com/HCGlobal%20Group/service_design_y_la_nueva_econom.htm 2 Forbes, Gil Press, “A Very Short History of Big Data”, 09/05/2013, http://www.forbes.com/sites/gilpress/2013/05/09/a- very-short-history-of-big-data/
  4. 4. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. constante razonable, por lo que el número de generación de nuevo conocimiento es estrictamente proporcional al tamaño d la población de los descubrimientos en cualquier momento dado”. 1967, B.A. Marron y P.A.D. de Maine publican “Automatic Data Compression”, en The Communication of the ACM, afirmando que “la explosión de la información de los últimos años hace que sea esencial que los requerimientos de almacenamiento de toda la información se reduzca al mínimo”. El documento describe “un compresor de tres partes totalmente automático y rápido para reducir en gran medida los requisitos de almacenamientos externos lentos, y poder aumentar la tasa de transmisión de información a través de un ordenador. 1971, Arthur Miller escribió “The Assault on Privacy”, donde habla sobre el tema de que existen demasiadas manipulaciones sobre la información en el afán de medir a un hombre por el número de bits de capacidad de almacenamiento que su expediente ocuparía. 1975, El Ministerio de Correos y Telecomunicaciones de Japón comienza la realización del Censo de Flujo de Información, que busca llevar a cabo el seguimiento del volumen de información que circula por Japón (idea sugerida por primera vez en un documento en 1969). El Censo presenta “las cantidades de palabras” como unidad de medida para la unificación en todos los medios. El Censo de 1975 ya considera que la oferta de información está aumentando mucho más rápido que el consumo de información, y en 1978 se informa que “la demanda de información proporcionada por los medios de comunicación se ha estancado, y la demanda de información proporcionada por el personal de medios de telecomunicación (caracterizada por comunicaciones de dos vías) se ha incrementado drásticamente… Nuestra sociedad se está moviendo hacia una nueva etapa en el que se coloca más prioridad en la Información Segmentada, más detallada para satisfacer las necesidades individuales, en lugar de Información Convencional Masificada. 1980, A. Tjomsland dicta una charla titulada “¿Hacia dónde vamos desde aquí?” en el Fourth IEEE Symposium on Mass Storage Systems, donde sostiene que “aquellos que están asociados con dispositivos de almacenamiento, ya hace tiempo se han dado cuenta de que la primera Ley de Parkinson puede ser parafraseada para describir a la industria. Los datos se expanden para llenar el espacio disponible.. Creo que se retienen grandes cantidades de datos, ya que los usuarios no tienen forma de identificación de datos obsoletos, por lo que las sanciones al almacenamiento de datos obsoletos son menos datos potencialmente útiles”. 1981, La Oficina Central de Estadísticas de Hungría inicia un proyecto de investigación para dar cuenta de la información de las industria por país, incluida la medición del volumen de información en bits. La investigación continúa hasta nuestros días. En 1993, Istán Dienes, científico jefe de la Oficina Central de Estadística de Hungría, compila un manual para un Sistema Estándar de las Cuentas Nacionales de Información.
  5. 5. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. 1983, Ithiel de Sola Pool, publica “Tracking the Flow of Information”, en Science. En base e las tendencias de crecimiento en 17 importantes medios de comunicación desde 1960 a 1977, concluye que “las palabras a disposición de los estadounidenses (mayores de 10 años) a través de los medios de comunicación, crecieron a un ritmo de 8,9 por ciento al año, es decir, en efecto se generan a partir de los medios de comunicación en apenas 2,9% por año. En el período de observación, gran parte del crecimiento en el flujo de información se debió al crecimiento en la radiodifusión. Pero hacia el final de ese período (1977), la situación cambió: los medios de comunicación e punto a punto estaban creciendo más rápido que la radiodifusión”. Pool ,Inose, Takasaki y Hurwitz siguen en 1984 con “Communications Flows: A Cencus in the United States”, un libro donde comparan los volúmenes de información que se producen en Estados Unidos y Japón. 1986, Hal B. Becker publica “Can Users Really Absobr Data at Today´s Rates and Tomorrow´s Rates? In Data Communications”. Becker estima que “la densidad de recodificación lograda por Gutenberg fue aproximadamente de 500 símbolos (caracteres) por pulgada cúbica. 500 veces la densidad de las tablillas de arcilla (4.000 A.C. en Sumeria). Para el año 2000, la memoria de acceso aleatorio de los semiconductores debería albergar 1,25 x 10^11 bytes por centímetro cúbico”. 1996, el Almacenamiento Digital se vuelve más rentable para el Almacenamiento de Datos en Papel, de acuerdo a R.J.T. Morris y B.J. Trukowski, en “The Evolution of Storage Systems”, IBM Systems Journal, Julio 1, 2003. 1997, Michael Cox and David Ellsworth publican “Application controlled demand paging for out of core visualization” en las Actas de la 8º Conferencia IEEE sobre Visualización. Comienzan el artículo con el hecho de que la Visualización ofrece un interesante desafío para los sistemas informáticos: los conjuntos de datos son generalmente bastante grandes, gravado en la capacidad de memoria principal, discos locales y discos remotos. Llamaron a esto el “Problem of Big Data”. Cuando los conjuntos de datos no caben en la memoria principal (en el núcleo), o cuando no caben incluso en un disco local, la solución más común es adquirir más recursos. Es el primer artículo de la biblioteca digital de ACM en utilizar el término “Big Data”. 1997, Michael Lesk publica “How much information is there in the world?”. Lesk concluye que “puede haber unos pocos miles de petabytes de información contenidos; y la producción de cintas y discos enriquecerán este nivel para el año 2000”. Así que en sólo unos pocos años: a) Seremos capaces de guardar todo (sin dejar fuera información alguna, b) la típica pieza de información no podrá ser bloqueada por el ser humano nunca. 1998, John R. Masey, Jefe Científico de SGI, presenta en una reunión USENIX un artículo titulado “Big Data and the Next Wave of Infrastress”. 1998, K.G. Coffman y Andrew Odlysko publican “The Size and Growth Rate of the Internet”. Llegan a la conclusión de que la tasa de crecimiento del tráfico en la Internet Pública , mientras más baja es a menudo citada, sigue siendo alrededor de 100% por año, muy superior al tráfico en otras redes. Por lo tanto, si las
  6. 6. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. tendencias de crecimiento actuales continúan, el tráfico de datos en los Estados Unidos superará el tráfico de voz hacia el año 2002 y será dominado por la Internet. “Odlyzko luego establece los estudios de tráfico de Internet de Minnesota (MINTS), haciendo un seguimiento del crecimiento del tráfico en Internet desde 2002 a 2009. 1999, Steve Bryson, David Kenwright, Michael Cox, David Ellsworth y Robert Haimes publican “Visually Exploring Gigabytes data sets in real times”, en Communications of the ACM. Es el primer artículo de la CACM en utilizar el término “Big Data”. El artículo comienza con la siguiente declaración: “ordenadores muy potentes son una bendición para muchos campos de la investigación. También son una maldición, cálculos rápidos arrojan grandes cantidades de datos. Cuando los conjuntos de datos en megabytes alguna vez fueron considerados grandes, ahora nos encontramos con conjuntos de datos de simulaciones individuales en el rango de 300 Gigabytes. Pero la compresión de datos resultantes de los cálculos de alta gama debe ser considerada u esfuerzo significativo. Como más de un científico ha dicho, es simplemente difícil ver todos los números. Como Richard W. Hamming (matemático y pionero informático) señaló: “El propósito de la computación es una visión, no números”. 1999, Bryson, Kenwright y Haimes junto a David Banks, Robert van Liere y Sam Uselton discuten en un panel titulado Automation or Interaction: What´s best for Big Data?”, en la conferencia IEEE de 1999 sobre Visualización. 2000, Peter Lyman y Hal R. Varian en la UC Berkeley publican “How much information?” Es el primer estudio exhaustivo para cuantificar, en términos de almacenamiento informático, el importe total de la nueva Información original (sin contar copias) creado en el mundo anualmente y almacenado en soportes físicos (papel, película, ópticos –CD o DVD- y de manera magnética). El estudio revela que en 1999, el mundo produjo alrededor de 1,5 exabytes de información única, o alrededor de 250 megabytes por cada hombre, mujer y niño en la Tierra. También considera que “se crea una gran cantidad de información única y almacenada por los individuos (denominado Democratización del a Información), y que no sólo es la producción de información digital más grande en su totalidad, es también el más rápido crecimiento acontecido (a lo cual denominan “Dominio de la tecnología Digital”). Lyman y Varian sostienen que “aún hoy en día, la mayoría de la información textual nace de los digital, y dentro de unos años esto será cierto para las imágenes también. Un estudio similar realizado en 2003 por los mismos investigadores, encontraron que en el mundo se produjo alrededor de 5 exabytes de información nueva en el 2002 y que el 92% de la nueva información se almacenó en medios magnéticos, sobre todo en discos duros. 2000, Francis X. Diebold presenta en el VIII Congreso Mundial de la Sociedad Econométrica, un artículo titulado “Modelos de Big Data Dynamic Factor Model for Macroeconomic Measurement and Forecasting”, en el que señala que recientemente , en la ciencia, tanto físicos, biólogos o sociólogos, se han visto obligados a afrontar el Big Data (beneficiándose de él). Grandes volúmenes de datos se refieren a la explosión en la cantidad (y a veces calidad) de los datos disponibles y potencialmente pertinentes, en gran
  7. 7. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. parte de los resultados de avances recientes (y sin precedentes) en el registro de datos y la tecnología de almacenamiento”. 2001, Doug Laney, analista de Meta Group, publica una nota de investigación titulada “3D Data Management: Controlling Data Volume, Velocity and Cariety”. Una década más tarde, el “3Vs” se han convertido en las tres dimensiones generalmente aceptadas que definen al Big Data, aunque la palabra no aparece en la nota de Laney. 2005, Tim O´Reilly publica “What is Web 2.0”, en la que afirma que “los datos son el siguiente remake de Intel en su interior. Como Hal Varian comentó en una conversación personal: “SQL es el nuevo HTML. La gestión de base de datos es una competencia básica de las compañías web 2.0, ya que hemos hecho referencia a estas aplicaciones como limitaciones de infoware en lugar de limitarse al software. 2007, John F. Gantz, David Reinsel y otros investigadores del IDC, lanzan un libro blanco titulado “The Expanding Digital Universe: A Forecast of Worldwide Information Growth trough 2010”. Es el primer estudio para estimar y pronosticar la cantidad de datos digitales creados y replicados cada año. El IDC estima que en 2006, el mundo creo 161 exabytes de datos y las previsión entre 2006 y 2010 para la información añadida anualmente al universo digital se incrementará más de 6 veces a 988 exabytes, o se duplicará cada 18 meses. De acuerdo con las deliberaciones del mismo estudio de 2010 y 2012, la cantidad de información digital creada anualmente superó esta previsión, alcanzando 1.227 exabytes en 2010, y cada vez mayor a 2.837 exabytes en 2012. 2008, Bret Swanson y George Gilder publican Estimating the Exaflood”, en la que proyectan que el tráfico IP de Estados Unidos podría alcanzar un zetabyte el año 2015, y que la Internet en Estados Unidos será de por lo menos 50 veces mayor que en 2006. 2008, Cisco lanza “Cisco Visual Networking Index –Forecast and Methodology 2007 – 2012”. Esta iniciativa en curso puede seguir y predecir el impacto de las aplicaciones de redes visuales, donde parte del informe predice que “el tráfico IP casi se duplicará cada 2 años hasta 2012”, y que llegará a la mitad de un zetabyte en 2012. El pronóstico llevado a cabo, así como el último informe de Cisco (30 de mayo de 2012), estima que el tráfico IP en 2012 llegará a poco más de medio zetabytes, y señala que se ha multiplicado por 8 en los últimos 5 años. 2008, Un número especial de Nature of Big Data examina lo que los conjuntos de Big Data significan para la ciencia contemporánea. 2008, Randal E. Bryant, Randy H. Katz y Edward D. Lazowska publican “Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society”. Ellos describen que “al igual que los motores de búsqueda, han transformado la forma de acceso a al información. Otras formas de computación de Big Data pueden y van a transformar las actividades de las empresas, investigaciones científicas, médicas,
  8. 8. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. y la defensa de la nación, así como las operaciones de inteligencia. La Computación de Big Data es tal vez la mayor Innovación en informática de las últimas décadas. Sólo hemos comenzado a ver su potencial para reunir, organizar y procesar datos en todos los ámbitos de la vida. Una modesta inversión por parte del gobierno federal podría acelerar en gran medida su desarrollo e implementación”. 2009, Roger E. Bohn y James E. Short publican “How much information? 2009 Report on American Consumers”. El estudio revela que “en 2008 los estadounidenses consumieron la información de 13.000.000.000.000 de horas, un promedio de caso 12 horas al día. El consumo fue de 3,6 zettabytes y 10.845 billones de palabras, que corresponden a 100.500 palabras y 34 gigabytes para una persona promedio en un día promedio. Bohn, Short y Chattanya Baru posteriormente en Enero de 2011 siguieron con la publicación “How Much Information? 2010 Report on Enterprise Server Information”. Estiman que en 2008 los servidores del mundo procesaron 9,57 zettabytes de información, casi 10 a la 22 (es decir 10 millones de millones de gigabytes). Esto fue 12 gigabytes de información diarias para el trabajador promedio, o alrededor de 3 terabytes de información por trabajador al año. La empresas del mundo procesan en promedio 63 terabytes de información anuales. 2010, Kenneth Cukier publica en “The Economist” un informe especial titulado “Data, Data Everywhere” . El mundo contiene una inimaginable vasta cantidad de información digital que se está volviendo cada vez más vasto con mayor rapidez. El efecto se hace sentir en todas partes, desde los negocios hasta la ciencia, desde los gobiernos hasta las artes. Los científicos y los ingenieros informáticos han acuñado un nuevo término para el fenómeno: “Big Data”. 2011, Martin Hilbert y Priscilla Lopez publican “The World´s Technological Capacity to Store, Communicate and Compute Information”. Se estima que la capacidad de almacenamiento de la información del mundo creció a una tasa compuesto de crecimiento anual del 25% anual entre 1986 y 2007. También estiman que, en 1986, 99,2% de toda la capacidad de almacenamiento era análoga, pero en 2007 el 94% de la capacidad de almacenamiento era digital, una revisión completa de las funciones (en 2002, el almacenamiento de información digital superó a la no digital por primera vez). 2011, James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh y Angela Hung Byers, del Instituto Global McKensey publican “Big Data: The Next frontier for Innovation, Competition, and Productivity”. Ellos estiman que “para el año 2009, casi todos los sectores de la economía de Estados Unidos tuvieron por lo menos un promedio de 200 terabytes de datos almacenados (dos veces el tamaño de almacenamiento de datos del minorista de Estados Unidos Walmart en 1999) por empresa, con más de 1.000 empleados”, y los valores de inversión en servicios liderará en cuanto a los datos almacenados por las empresas. En total, el estudio estima que 7,4 exabytes de nuevos datos fueron almacenados por las empresas, y los 6,8 exabytes por los consumidores en 2010. 2012, La Revista International Communication publica una sección especial titulada “Info Capacity” sobre las metodologías y los resultados de varios estudios que miden el volumen de información. En “Tracking the
  9. 9. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. flow of information into the home”, Newman, Park y Panek estiman que la oferta total de los medios de comunicación a los hogares estadounidenses ha aumentado alrededor de 50.000 minutos por día desde 1960 a cerca 900.000 en 2005. Mirando la relación entre oferta y demanda en el año 2005, se estima que las personas en los Estados Unidos se están acercando a mil minutos de contenido mediada disponibles para cada minuto disponible para el consumo. En “International Production and Dissemination of Information”, Bounie y Gille estiman que el mundo produjo 14,7 exabytes de nueva información en el año 2003. 2012, Dana Boyd y Kate Crawford publican “Critcal Question for Big Data”. Ellos definen al Big Data como “un fenómeno cultural, tecnológico, y académico que se basa en la interacción de tecnología (potencia de cálculo maximizador y precisión algorítmica para reunir, enlazar y comparar conjuntos de datos grandes); así como también de Análisis (dibujo de grandes conjuntos de datos para identificar patrones para las necesidades de reclamaciones económicas, sociales, técnicas y legales); y por último mitológicas (la creencia generalizada de que los conjuntos de datos de gran tamaño ofrecen una forma más elevada de la inteligencia y el conocimiento que pueden generar ideas que antes eran imposibles, con el aura de la verdad, la objetividad y la precisión)”. DEFINICIÓN DE BIG DATA.- Luego de verificar los orígenes históricos del Big Data, ¿podemos responder la pregunta acerca de Qué es Big Data?. Big Data (Grandes Datos) hace referencia a los Sistemas que manipulan grandes y complejos conjuntos de datos (data sets), que se hace difícil procesarlos con herramientas de gestión de base de datos o aplicaciones tradicionales de procesos de datos. Los desafíos del Big Data incluyen la “captura, almacenamiento, búsqueda, poder compartir, análisis y visualización de datos”, en donde la tendencia es a manipular ingentes cantidades de datos, se debe a la derivable información adicional a partir del análisis de un solo gran conjunto de datos relacionados, en comparación con la separación de conjuntos más pequeños con la misma cantidad total de datos, permitiendo que las correlaciones que se pueden encontrar para “detectar tendencias de negocios”, determine la calidad de la investigación, la prevención de enfermedades, combatir el delito y determinar las condiciones del tráfico de carretera en tiempo real 3 . A partir de 2012, los límites al tamaño de 3 The Economist, Data, data everywhere”, http://www.economist.com/node/15557443
  10. 10. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. los conjuntos de datos que sean factibles para procesar en un período razonable de tiempo, eran del orden de “exabytes” 4 de datos (lo cual me hace relacionar la “Ley de Moore y la Potencia de micro Procesamiento”, La “Ley de Almacenamiento Digital Masivo” y La “Ley de Metcalfe y la “Economía de Redes” como los impulsores Tecnológicos de la Infraestructura de Tecnologías de la Información y Comunicaciones) 5 . Los científicos se encuentran con regularidad con limitaciones debido a los grandes conjuntos de datos en muchas áreas, incluyendo la “meteorología, la genómica, conectómica, simulaciones físicas y complejas, así como la investigación biológica y ambiental”. De igual forma, las limitaciones también afectan la búsqueda de Internet, finanzas y negocios de la informática. Los conjuntos de datos crecen en tamaño, en parte debido a que cada vez más se reúnen datos en dispositivos móviles omnipresentes de detección de información, tecnologías de áreas sensoriales (teledetección), registros de software, cámaras, micrófonos, lectores de identificación por radiofrecuencia y redes de sensores inalámbricos. Se calcula que la capacidad per cápita tecnológica del mundo para almacenar la información “se ha duplicado cada 40 meses desde la década de 1980” 6 . A partir de 2012, todos los días 2,5 trillones de bytes de datos fueron creados. El reto para las grandes empresas es “determinar quién debe poseer las grandes iniciativas de datos que se sitúan en toda la organización”. A continuación un video donde se explica el concepto del Big Data y sus orígenes: 4 A tener presente la siguiente tabla de conversión (en términos de bytes y expresado en sistema internacional decimal): 1 Kilobytes (KB): 1.000 bytes; 2^3. 1 Megabytes (MB): 1.000.000 bytes; 2^6. 1 Gigabyte (GB): 1.000.000.000 bytes; 2^9. 1 Terabyte (TB): 1.000.000.000.000 bytes; 2^12. 1 Petabytes (PB): 1.000.000.000.000.000 bytes; 2^15. 1 Exabytes (EB): 1.000.000.000.000.000.000 bytes; 2^18. 1 Zettabytes (ZB): 1.000.000.000.000.000.000.000 bytes; 2^21. 1 yottabytes (YB): 1.000.000.000.000.000.000.000.000 bytes; 2^24 5 Ley de Moore y la Potencia de Microprocesamiento: Desde la aparición del primer chip de microprocesador en 1959, se había duplicado cada año la cantidad de componentes en un chip con los costos de manufactura más bajos por componentes”. De acá surgen derivaciones de la Ley de More al respecto (“La potencia de los microprocesadores se duplica cada 18 meses” –Gates, 1997-; “La potencia de cómputo se duplica cada 18 meses”; “El Precio de la computación se reduce a la mitad cada 18 meses). Ley de Almacenamiento Digital Masivo: “La cantidad de información digital se duplica más o menos cada año (Lyman y Varian, 2003)”. En el mundo se producen alrededor de 5 exabytes de información exclusiva cada año (un exabytes equivale a mil millones de gigabytes). Ley de Metcalfe y la Economía de Redes: “El Valor o potencia de una Red, crece exponencialmente como una función de la cantidad de miembros de una red”. A medida que aumentan linealmente, el valor total del sistema aumenta exponencialmente y continúa creciendo siempre conforme se incrementan los miembros (Efecto Economía de Redes y el Crecimiento de Internet). Kenneth C. Laudon & Jane P. Laudon, “Sistemas de Información Gerencial: Administración de la Empresa Digital”, (Impulsores de la Evolución de la Infraestructura), Pearson Pretince Hall, Décima Edición. 6 Science 332 (6065)Hilbert, Martin; López, Priscilla (2011), “The World´s Technological Capacity to Store, Communicate, and Compute Information”, http://martinhilbert.net/WorldInfoCapacity.html
  11. 11. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. El Big Data es difícil de trabajar con uso de software y aplicaciones de gestión de base de datos relacionales, y la mayoría de las estadísticas de escritorio y paquetes de aplicaciones de visualización, lo que implica requerir de “procesamiento paralelo masivo que se ejecute en decenas, cientos o incluso miles de servidores” en su lugar. ¿A qué se considera Big Data? Varía dependiendo de la capacidad de la organización de gestión conjunta, así como de las capacidades de aplicaciones que se utilizan tradicionalmente para procesar y analizar los datos que configuran su dominio de acción. Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez, puede desencadenar la necesidad de reconsiderar las opciones de gestión de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que los datos se conviertan en una consideración importante. El concepto de Big Data por lo general incluye “los conjuntos de datos con tamaños mas allá de la capacidad de las herramientas de software utilizadas para Capturar, Co-adjuntar, Gestionar y Procesar los datos dentro de un tiempo transcurrido tolerable. El Big Data tiene un objetivo en constante movimiento, que a partir de 2012 van desde unas pocas decenas de terabytes a muchos petabytes de datos de un solo conjunto de datos. Por tal motivo, no es de extrañar que muchos usuarios comunes y corrientes, hoy en día se nos presente la necesidad de tener que trabajar con equipos computacionales (fijos o móviles), incluso unidades de almacenamiento externas con capacidades por sobre 1 terabytes, ¡que no es nada! (o en su defecto, con capacidades similares de almacenamiento en el Cloud -modelo de computación en la Nube-, tal como me pasó días atrás. El objetivo se mueve debido a la constante mejora en la tecnología de DBMS (Sistema de Gestión de Base de Datos) tradicional, así como consecuencia de las nuevas bases de datos como NoSQL y su capacidad para manejar grandes cantidades de datos. Con esta dificultad, se están desarrollando nuevas plataformas de Big Data, como herramientas para manejar varios aspectos de grandes cantidades de datos.
  12. 12. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. En un informe de investigación de 2001 y conferencias relacionadas a Meta Group, el analista Doug Laney define los “retos y oportunidades del crecimiento de datos en: La Velocidad en tres dimensiones, la cual se refiere al aumento del volumen de datos (cantidad de datos, velocidad de datos interna y externa, y la variedad o gama de tipo de datos y fuentes)”. Tanto Gartner como gran parte de la industria, siguen utilizando este modelo “3Vs” para describir los grandes volúmenes de datos 7 . El 2012, Gartner actualizó su definición sobre Big Data, sosteniendo que el “Big Data es de gran volumen y velocidad y/o de alta diversidad en los activos de información que requieren las nuevas formas de procesamiento, para permitir la toma de decisiones mejorada, visión, descubrimiento y optimización de procesos” 8 . Actualmente se sigue utilizando la definición de Gartner (las 3Vs), con la adición de nuevas “Vs” añadidas por los departamentos de Marketing de las organizaciones. La creciente madurez del concepto fomenta una mayor diferencia de sonido entre el Big Data y la Inteligencia de Negocios (Business Intelligence) con respecto a los datos y su uso 9 :  Business Intelligence utiliza estadística descriptiva con datos de alta densidad e información para medir sucesos, detectar tendencias, entre otros.  Big Data utiliza estadísticas inductivas con datos con baja densidad de información, cuyo gran volumen permite inferir leyes (regresiones, entre otros) y dando así con los límites del razonamiento de inferencia para algunas capacidades predictivas del Big Data.. El mundo Académico y el Big Data. Dentro del mundo de generación de conocimiento académico, podemos citar a lo que acontece en, por ejemplo el Massachusetts Institute Technology, MIT, quienes el 31 de Mayo de 2012 anunciaron que habían sido seleccionados entre 55 instituciones que presentaron 157 propuestas para albergar un nuevo “Centro de Investigación de Intel” que se centraría en el “Big Data”. El Centro de Investigación de Intel es la piedra angular de una nueva iniciativa de CSAIL, conocido como “Big Data @ CSAIL”, dirigido por el profesor adjunto Sam Madden y el Profesor Adjunto Michael Stonebreaker, ambos del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT. Además de Intel, los patrocinadores de la iniciativa incluyen a AIG, EMC, SAP y Thompson Reuters, Microsoft, Samsung. El MIT patrocina varios programas, incluyendo un programa de becas, un programa de prácticas y un proyecto para investigar “cómo las tecnologías de Big Data pueden mejorar al gobierno”. Como parte de centro de Ciencias y Tecnología en el CSAIL, Intel contrata a un puñado de investigadores que se encuentran en Cambridge y trabajan en estrecha colaboración con 7 Gartner, “Gartner says Solving Big Data Challenge involves more than just managing volumes of Data”, Beyer, Mark, 27 de Junio de 2011, Gartner, http://www.gartner.com/newsroom/id/1731916 . 8 Douglas, Laney, “The Importance of Big Data: A Definition”, Gartner, 21 de Junio de 2012, http://www.gartner.com/DisplayDocument?id=2057415&ref=clientFriendlyUrl 9 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
  13. 13. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. profesores del MIT en tecnologías relacionadas con grandes volúmenes de datos. Investigadores de las Universidades de California en Santa bárbara, Universidad Estatal de Portland, Universidad Brown, Universidad de Washington y la Universidad de Stanford también están afiliados a la Central. Intel, en una primera etapa comprometió US$ 2,5 millones al año para el centro, al menos durante los próximos 3 años, con un compromiso de dos años adicionales, de ser posible, si el centro pasa una revisión cada 3 años. Al respecto, el día de la inauguración del centro, se sostuvo que “estamos siendo testigos de un período de crecimiento sin precedentes en el formato digital de Datos No Estructurados en la Web, así como en la Nube. Esto sólo se acelerará aún más a través del rápido crecimiento de los dispositivos móviles como smartphones y automóviles conectados”. Justin Rattner, (CTO de Intel) dijo que “si bien esta cantidad de datos ya es asombrosa, el futuro lo harán palidecer en comparación con la cantidad de datos que se generarán en tiempo real con la “Internet de las Cosas (Internet of Things)”, que es una red prevista para conectar dispositivos informáticos incorporados en artículos para el hogar común”. Si pensamos que esto es una gran cantidad de datos, debemos prepararnos, ya que aún no hemos visto nada. “El Big Data se ha convertido en una de las nuevas frases sexys”, añadió Susan Hockfield (Presidente del MIT) 10 . El objetivo del BigData@CSAIL es “identificar y desarrollar las tecnologías necesarias para resolver los desafíos de datos de próxima generación que requieren la capacidad de escalar más allá de lo que las plataformas informáticas de hoy en día poseen, los algoritmos y los métodos que pueden proporcionar. Buscan que las personas puedan aprovechar realmente el Big Data mediante el desarrollo de plataformas que sean reutilizables, escalables y fáciles de implementar a través de varios dominios de aplicación”. El enfoque del BigData@CSAIL incluye dos aspectos fundamentales:  Colaborar estrechamente con la industria para proporcionar las aplicaciones del mundo real y el impacto que puedan conducir.  El problema del Big Data es considerado como un problema fundamentalmente multidisciplinario. El equipo al respecto, está conformado por profesores e investigadores en muchas áreas relacionaras con la tecnología, incluyendo algoritmos, arquitectura, gestión de gatos, aprendizaje automático, la privacidad y seguridad de datos, interfaces de usuario y visualización, así como expertos en el campo de las finanzas, la medicina, la infraestructura inteligente, la educación y la ciencia 11 . 10 MIT News, MIT, Intel univeil new initiatives addressing Big Data”, May 31, 2012, http://web.mit.edu/newsoffice/2012/big-data-csail-intel-center-0531.html 11 BigData@CSAIL, http://bigdata.csail.mit.edu/
  14. 14. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Tipo de Información que trata el Big Data. Muchas organizaciones se enfrentan a la pregunta sobre ¿Qué información es la que se debe analizar? Sin embargo, la pregunta que debemos hacernos es ¿Cuál es el problema que se está tratando de resolver?. Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico. Internet y Social Media: Incluye contenido Web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, Blogs, entre otros. Máquina a Máquina (M2M): Se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas, etc.), los cuales se transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa. Grandes Datos de Transacciones: Incluye registros de facturación, registros de telecomunicaciones detallados de las llamadas (CDR), grabaciones, etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Biometría: Información biométrica en la que se incluye huellas digitales, escaneo retinal, reconocimiento facial, genética, etc. En el área e seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
  15. 15. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Generado por Humanos: Las personas generamos diversas cantidades de datos, como la información que guarda un Call Center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, imagen, etc. 12 De esta forma en el retail, por ejemplo: Back-Office: Los repositorios de datos, muy extendidos en las organizaciones, que normalmente se concentran en sistemas ERP, Datos Transaccionales y Operativos, así como DataWarehouse con información analítica e histórica, necesariamente deberán evolucionar y combinarse con el Big Data (tanto en materia de información estructurada como no estructurada). Front-Office: Los Sistemas de Relación con los Clientes o Usuarios, con toda probabilidad también deberán evolucionar en paralelo o en conjunto con el Big Data, tanto en materia de tratamiento de información para Segmentación, Fidelización, Operatividad en Intranet Corporativas, Sistemas basados en Web, lenguaje y servicios, conviviendo también con datos estructurados como no estructurados en sus repositorios de back- Office que nutrirán los indicadores de sus Data Warehouse. Ventas: Esto va más allá de las transacciones generadas por caja (ya integradas en el back-office). Una de las grandes revoluciones se refiere a la “Internet de las Cosas” (Internet of Things), donde todos los dispositivos, sensores o controladores transmiten datos, los cuales recogidos, procesados y refinados pueden entregar mucha información. Por ejemplo, la información generada por los Códigos QR, RFID, Realidad Aumentada, Dispositivos de Neuromarketing, Gafas o Relojes Inteligentes, etc., constituirán todo un nuevo universo por explorar y explotar. Sin embargo, además estos dispositivos podrán “relacionarse” con otros dispositivos, interactuar, ser activados o desactivados por otros, entre otras actividades e interacciones, para lo cual utilizarán canales ya desarrollados como Internet, Cloud y/o Movilidad. Por tanto, entramos a un territorio mucho más complejo e inexplorado ¿cómo responder a la gran cantidad de dispositivos que existen y que existirán? ¿cuáles serán más importantes? ¿cómo afectarán a las métricas tradicionales? ¿deberemos utilizar nuevas métricas? ¿cómo mediremos la rentabilidad? ¿cómo afectará esto a nuestros actuales y futuros modelos de negocios?, entre otros. La conectividad llevará a cabo cambios fundamentales y determinantes en los siguientes años (ultra conectividad) con variedad de dispositivos móviles y explosión de las redes sociales, en conjunto con la llegada del Cloud Computing (Datos en la Nube), afectando los Sistemas Back y Front Office en cuanto a almacenamiento de datos, formas de trabajo, relacionamiento, modelos de negocios, tipos de relaciones con los clientes/usuarios y las organizaciones, donde también evolucionarán con respecto a la información estructurada y no estructurada que se genera. 12 IBM, Ricardo barranco Fragoso, ¿Qué es Big Data?, DevelopWorks, 18/06/2012, http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter
  16. 16. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. La complejidad, velocidad y volatilidad de estos tipo de datos y cantidades de información, son los actuales y futuros retos fundamentales a los que debe(rá) responder los Sistemas Big Data, donde la Selección, Filtro, Volúmenes de Datos (diferentes y complejos), así como las tecnologías y negocios, serán las dos caras de una misma pero diferente moneda que actualmente conocemos 13 . ARQUITECTURA DEL BIG DATA.- Como hemos visto, el Big Data es un concepto que se aplica a toda aquella información que no puede ser procesada o analizada usando procesos o herramientas convencionales debido al enorme volumen de datos sobre el cual hay que trabajar. En 2004, Google publicó un documento sobre un Proceso llamado “MapReduce”, que utiliza dicha arquitectura. El marco MapReduce ofrece un “modelo de programación paralela y la aplicación asociada para procesar gran cantidad de datos”. Con MapReduce, las consultas se dividen y se distribuyen a través de los nodos paralelos y procesan en paralelo (el paso Mapa). Los resultados luego se reúnen y se entregan (el paso Reducir). Esto implica que MapReduce se ejecuta en dos procesos por separado (Map y Reduce, considerando paralelismo, escalabilidad, tolerancia a fallos y curva de aprendizaje elevada. El resultado fue un éxito increíble, lo cual condujo a que otros repitieran el algoritmo. Por lo tanto, una implementación de MapReduce fue adoptado por un proyecto de Código Abierto llamado Hadoop. Las características generales de Hadoop involucran: Open Source, desarrollado inicialmente por Yahoo, administrado por Apache Software Foundation, Diseñado para trabajar con volúmenes de datos en petabytes, ofrece alta disponibilidad, así como escalamiento horizontal. Hadoop ha tenido muy buena aceptación en el mercado, tras lo cual muchas tecnologías de desarrollo se han basado en Hadoop. Además, ofrece una Curva de Aprendizaje elevada, no se constituye como una base de datos y no es en tiempo real. En general, las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas de información han generado un costo potencial al no descubrir el gran valor asociado al Big Data. Desde luego, el ángulo correcto que actualmente tiene el liderazgo, en términos de popularidad para analizar cantidades de información, la tiene la plataforma de Código Abierto Hadoop. Hadoop 14 está inspirado en el proyecto de Google, Google File System (GFS), y en el paradigma de programación MapReduce, el cual como ya se adelantó anteriormente, consiste en “dividir en dos tareas (Mapper – Reducer) la manipulación de datos distribuidos a nodos de un clúster, logrando un alto 13 A partir de XAMQ, Francesc Máñez, “Big Data: Origen de los Datos”, 01/04/2013, http://www.qmaxsl.com/bqmax/big-data-origen-de-los-datos/ 14 IBM, Ricardo Barranco Fragoso, ¿Qué es Big Data?, DeveloperWorks, 18/06/2012, http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter
  17. 17. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. paralelismo en el procesamiento. Hadoop está compuesto de tres piezas fundamentales: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common. Hadoop Distributed File System (HDFS): Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas “bloques” y distribuidas a través del clúster. De esta forma, las funciones “Map” y “Reduce” pueden ser ejecutadas en pequeños subconjuntos, lo cual permite proveer de la “Escalabilidad” necesaria para el procesamiento de grandes volúmenes. En la figura adjunta, se ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que cada bloque es almacenado tres veces, y al menos un bloque se almacena en un diferente rack par lograr redundancia. Hadoop MapReduce: MapReduce es el núcleo de Hadoop. El término en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso, “Map” toma un conjunto de datos y los convierte en otro conjunto donde los elementos individuales son separados en “tuplas” (pares de llave/valor). El proceso “Reduce” obtiene la salida de Map como datos de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia, denominada “shuffle” obtiene las tuplas del proceso Map , y determina qué nodo procesará estos datos, dirigiendo la salida a una tarea Reduce en específico. La figura adjunta, ejemplifica un flujo de datos en un proceso sencillo de MapReduce. Hadoop Common: Se constituye como un conjunto de librerías que soportan varios subproyectos de Hadoop. Además de estos tres componentes principales de Hadoop, existen otros proyectos relacionados, los cuales son definidos a continuación.
  18. 18. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Avro: Es un proyecto de Apache, el cual provee servicios de serialización. Cuando se guardan datos de un archivo, el esquema que define ese archivo es guardado dentro del mismo. De este modo es más sencillo para cualquier aplicación leerlo posteriormente, puesto que el esquema está definido dentro del archivo. Cassandra: Es una base de datos no relacional distribuida (y basada en un modelo de almacenamiento de “llave-valor”) desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma. Chukwa: Diseñado para la colección y análisis a gran escala de “logs”. Incluye un toolkit para desplegar los resultados del análisis y monitoreo. Flume: Tal como su nombre lo indica, su tarea principal es “dirigir los datos de una fuente hacia alguna otra localidad”, en este caso, hacia el ambiente Hadoop. Existen tres entidades principales: Source, Decorators y Sinks. Un Source, es básicamente cualquier fuente de datos. Sink se refiere al destino de una operación en específico. Decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismo. HBase: Es una base de datos columnar (colum-oriented database) que se ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados, llamándolos Familias de Columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo conjunto. Esto es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de una fila son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde noviembre de 2010. Hive: Es una infraestructura de Data Warehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente Distribuido. Hive tiene definido un lenguaje similar a SQL llamado Hive Query language (HQL). Estas sentencias HQL son separadas por un servicio de Hive, y son enviadas a procesos MapReduce ejecutados en el clúster de Hadoop. Jaql: Fue donado por IBM a la comunidad de software libre. Query language for Javascript Objet Notation (JSON) es el lenguaje funcional y declarativo que permite la explotación de datos en formato JSON diseñado para procesar grandes volúmenes de información. Para explotar el paralelismo, Jaql rescribe los queries de alto nivel (cuando es necesario) en queries de bajo nivel para distribuirlos como procesos MapReduce. Lucene: Es un proyecto de Apache, bastante popular para realizar búsquedas sobre textos. Lucene provee de librerías para indexación y búsqueda de texto. Ha sido principalmente utilizado en la implementación de motores de búsqueda (aunque hay que considerar que no tiene funciones de “crawing” ni análisis de documentos HTML ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple: básicamente los documentos (documents) son divididos en campos de texto (field) y se genera un índice sobre estos
  19. 19. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. campos de texto. La indexación es el componente clave de Lucene, lo que le permite realizar búsquedas rápidas e independientes del formato del archivo (ya sean PDFs, documentos HTML, etc.). Oozie: Como pudieron haber notado, existen varios procesos que son ejecutados en distintos momentos, los cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo análisis de información. Oozie es un proyecto de Código Abierto que simplifica los flujos de trabajo, y la coordinación entre cada uno de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre dichas acciones. Un flujo de trabajo de Oozie es definido mediante un grafo a cíclico llamado Directed Acyclical Graph (DAG), y es a cíclico puesto que no permite ciclos en el grafo, es decir, solo hay un punto de entrada y de salida, y de todas las tareas y dependencias, parten del punto inicial al punto final sin puntos de retorno. Un ejemplo de un flujo de trabajo en Oozie se representa en la figura adjunta. Pig: Inicialmente desarrollado por Yahoo! para permitir a los usuarios de Hadoop enfocarse más en analizar todos los conjuntos de datos, y dedicar menos tiempo en conseguir los programas MapReduce. Tal como su nombre lo indica, al igual que cualquier “cerdo” que come cualquier cosa, el lenguaje Piglatin fue diseñado para manejar cualquier tipo de dato, donde Pig es el ambiente de ejecución donde estos programas son ejecutados, de manera muy similar a la relación entre la máquina virtual de Java (JVM) y una aplicación Java. ZooKeeper: Es otro proyecto de Código Abierto de Apache, el cual provee de una infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los procesos a través de un clúster sean serializados o sincronizados. Internamente en ZooKeeper una aplicación puede crear un archivo que se persiste en memoria en los servidores ZooKeeper llamado Znode. Este archivo Znode puede ser actualizado por cualquier nodo en el clúster, y cualquier nodo puede registrar que sean informado de los cambios ocurridos en ese Znode, es decir, un servidor puede ser configurado para “vigilar” un Znode en particular. De este modo, las aplicaciones pueden sincronizar sus procesos a través de un clúster
  20. 20. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. distribuido actualizando su estatus en cada Znode, el cual informará al resto del clúster sobre el estatus correspondiente de algún nodo en específico. Como podrán observar, más allá de Hadoop, una plataforma de Big Data consiste en todo un ecosistema de proyectos que en su conjunto permiten simplificar, administrar, coordinar y analizar grandes volúmenes de información. Dentro de los usuarios de Hadoop, tenemos a: AOL, IBM, Yahoo, LinkedIn eBay, The New York Times, Twitter, entre otros. 15 16 A continuación, un video que explica el concepto de Big Data, sus dimensiones: Respecto a las Tecnologías que trabajan en el Big Data, éste requiere tecnologías excepcionales para procesar eficientemente grandes cantidades de datos dentro de los tiempos transcurridos de manera tolerable (además de los proyectos anteriormente citados). En 2011, un informe de McKinsey sugiere que las tecnologías adecuadas para el Big Data deben incluir: las Pruebas A/B, las de regla de asociación de aprendizaje, clasificación de conglomerados crowdsourcing, fusión de datos y la integración y aprendizaje conjunto, algoritmos genéticos, aprendizaje automático, procesamientos del lenguaje natural, redes neuronales, reconocimiento de patrones, detección de anomalías, modelos predictivos, modelos de regresión, análisis de los sentimientos, procesamiento de señales, supervisión y no supervisión de l aprendizaje, simulación, análisis de series temporales y la visualización. Los Grandes volúmenes de Datos multidimensionales también pueden ser representados como tensores, tales como el aprendizaje sub- espacio multilineal. Las tecnologías adicionales que se aplican a grandes volúmenes de datos incluyen bases 15 Google Inc, Jeffrey Dean, Sanjay Ghemawat, “MapReduce: Simplified Processing on Large Clusters”, http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce- osdi04.pdf 16 Globant, ,”MapReduce: Arquitectura BigData”, bigdata.globant.com/wp-content/uploads/2012/07/Apache-Pig-1.ppt
  21. 21. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. de datos masivas de procesamiento paralelo (MPP), búsqueda de aplicaciones de búsqueda, minería de datos, redes de sistemas de archivos distribuidos, bases de datos distribuidas, la infraestructura basada en el Cloud (aplicaciones, almacenamiento y recursos informáticos) e Internet. Si queremos saber cómo actúa el Big Data, y verlo en acción, es fácil imaginarlo. Por ejemplo, veamos el caso del Big Data aplicado a la industria del Mercado de Capitales (Fondos de Cobertura y Gestión de Activos y Riqueza). Según Rachel West, 17 , por ejemplo, hoy en día, las empresas financieras (que vienen saliendo de una de las peores crisis de crédito en la historia reciente), han aprendido las lecciones de las limitaciones de los datos e incompletos de modelos fragmentarios, para la gestión de sus carteras y toma de decisiones (hacerlas más sensibles a sus necesidades en tiempo real). La información impulsa a estas empresas a querer aprovechar la información de Inteligencia (INTEL) que juega un papel fundamental en la Optimización del Uso del Capital y la Gestión de sus Riesgos. Hoy en día existe la necesidad de “una Estrategia Práctica y la Aplicación Especifica para Análisis de Big Data”. Todos los problemas y programas complejos implican una Curva de Aprendizaje, y en el caso de hacer frente a grandes volúmenes de datos no es la excepción. Algunas firmas financieras deben volverse a pensar sobre los modelos existentes y el análisis de gestión de riesgos alimentados por tecnologías Big Data de código abierto disponibles. Deben tener cuidado de los retos ocultos que plantea la estrategia de “hágalo usted mismo” (o “hecho en casa”) en temas de Análisis de Big Data, donde se toma un enfoque de “ensayo y error”. Para ayudar a sus clientes a moverse más allá de exploraciones aleatorias, deben moverse a realidades empresariales con Big Data, comenzando con un sólido Análisis de Grandes Volúmenes de Datos para uso comercial y procesos de inversión, tanto para el lado de la compra, como para el de las empresas. Se debe aprovechar el Big Data para Analizar la Exposición de Portfolios. La primera pregunta que deben plantearse es ¿Cuál es la exposición? La exposición se refiere a la cantidad de fondos que se invierten en un determinado tipo de sector, que por lo general se expresan como un porcentaje del total de las explotaciones de cartera. Por lo tanto, la exposición viene siendo la “cantidad de fondos que un inversor tiene sumado al riesgo de pérdida que enfrenta (es la exposición de una cartera a valores particulares). Los Mercados y sectores deben ser considerados al determinar la asignación de los activos. Son las respuestas a las preguntas fundamentales que pueden ayudar a la rentabilidad del capital, y si se lleva a cabo correctamente, también minimiza las pérdidas. EJ: ¿Cuál es la exposición al riesgo total de la cartera por sector? Al leer acerca de las noticias financieras en Europa, ¿tiene a su alcance la información necesaria para comprender sus efectos en su cartera y ajustar sus decisiones en consecuencia? ¿Cuáles son sus posiciones largas y cortas de cartera en moneda euro? ¿cómo lo ha combinado en los últimos 2 a 3 años? Esas preguntas son tan relevantes para los Gestores de Cartera y Operadores, así como para los Gestores de Riqueza, Auditores Internos, Asesores Financieros, quienes deben supervisar cuidadosamente las 17 Forbes, Rachel West, Big Data in Action –Let´s Get Starterd”, 24/06/2013, http://www.forbes.com/sites/emc/2013/06/24/big-data-in-action-lets-get-started/
  22. 22. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. inversiones y el cumplimiento de los requisitos reglamentos de la empresa. Sin embargo, el Análisis de Exposición de la Cartera hoy es una suerte de malabares con bolas (de diferentes formas, tamaños y pesos). Dentro de los Desafíos ¿cuáles son los puntos “dolorosos” en el Análisis de Exposición? Dificultad en el recoger la información de todos los datos disponibles/relevantes de diferentes mercados, comentarios de analistas, noticias y eventos en tiempo real. No se pueden predecir los mercados o predecir el futuro. Carecen de la capacidad de crear escenarios de modelado interactivo para posibles eventos. Es difícil de “tamizar” a través de la gran cantidad de transacciones en tiempo real para detectar posiciones de riesgo. Además no se pueden acceder rápidamente a grandes cantidades de Datos históricos para una rápida y compleja modelización de comercio. Los análisis y presentación de informes cuentan con múltiples pasos y “silos” elaborados por diferentes grupos con diferentes aplicaciones tecnológicas. La falta de “capacidades de consultas ad-hoc y presentación de informes sobre la exposición agregada a través de las carteras de múltiples activos y cuentas de clientes”, son un problema. Dentro de las Oportunidades, ¿Cuáles son los Beneficios del Análisis de Big Data? La verdad es que son bastantes, muy rentables, altamente Escalable, de Alto Rendimiento y grandes herramientas de Análisis de Datos de Baja Latencia, se disponen en los últimos años para ayudar en la recolección y carga de datos de todas las fuentes de datos, desde los Almacenes de Datos Existentes para alimentación interna y externa, así como archivos de terceras partes. Con la próxima generación de Plataformas de Análisis, los profesionales de Gestión de Inversiones no tendrán que luchar durante horas o días para crear escenarios ricos y realistas de información para analizar el impacto de un determinado mercado, la seguridad o la exposición al sector de sus inversiones cuando un evento se desarrolla. Ellos pueden convertirse rápidamente en un solo lugar, en un instante, con la información precisa sobre su cartera y el seguimiento con múltiples dimensiones de datos sobre exposición para su mejor curso de acción. La nueva solución de análisis de exposición permite a los usuarios:  Integrar Datos del Mercado, Noticias y Eventos (anuncios de resultados trimestrales, el PIB, tasa de desempleo, tasa de interés, inflación, etc.) en el Análisis de Exposición.  Analizar diferentes niveles de exposición (transacción, posición, cuenta, contraparte para diversos valores, clases de activos, el sector, así como el mercado, en la marcha o casi en tiempo real para el desarrollo más eficaz para las estrategias de mitigación de riesgo y el comercio.  Previsión de casos en el futuro a través de diferentes escenarios modelados a partir de informes de prensa y el sentir de los medios. Si bien, el seguimiento de las exposiciones de los distintos fondos es esencial, aún más importante es saber sobre la Gestión Total de la Cartera en todo momento. Al obtener una Visión completa de la información geográfica, sectores, estrategia, la capitalización de mercado o exposiciones de valores, los administradores de inversión pueden decidir reasignar o re-equilibrar sus carteras.
  23. 23. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Los Administradores de Cartera también pueden comparar información de la exposición con los pesos de las carteras, la liquidez y la atribución a través del tiempo. De esta manera, se pueden detectar las tendencias más importantes de la gran cantidad de puntos de datos históricos a través de los panales de control, que proporcionan la visualización de datos gráfica de manera intuitiva, por lo que las excepciones se destacan con alertas sobre anomalías de exposición. La “Convergencia de Business Intelligence (Inteligencia de Mercado) y Análisis de Big Data” es fundamental. En este caso requiere de uso de análisis minuciosos y trabajar con grandes volúmenes de datos (de fuentes externas e internas) para desarrollar modelos predictivos precisos, cada empresa tiene que pasar por esto para tener capacidad de análisis de Big Data más tangibles para sus usuarios.
  24. 24. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. BIG DATA Y LA INNOVACIÓN GLOBAL DE SERVICIOS (ACTUAL Y FUTURA).- Como podemos darnos cuenta ahora, el tema del Big Data no es nuevo en cuanto a sus orígenes. Sin embargo, la consecuencias de esta Innovación Tecnológica está tomando ribetes insospechados actualmente, tanto en temas de oportunidades de negocios, así como oportunidades de Innovación y evolución en todo ámbito de temas, áreas e industrias (incluso en nuestros hábitos diarios como consumidores y ciudadanos comunes y corrientes). Aplicaciones del Big Data Actualmente. Según Luis Martin 18 , la primera gran necesidad del Big Data, es el propio almacenamiento de los datos. Cuando se llega a esta magnitud, es difícil diseñar una estructura monolítica que pueda albergar toda la información. Se imponen “soluciones distribuidas”, pero que permitan el acceso a las fuentes de información de forma unificada. En muchas aplicaciones para Internet, es necesario además que estos datos se almacenen y procesen rápidamente para ofrecer “análisis en tiempo real”. Es necesario también considerar la naturaleza y estructura de los datos, que en estos casos suele ser bastante heterogénea. Las soluciones basadas en “bases de datos no relacionales (NoSQL)” ofrecen una mejor adaptación a este escenario que otras tradicionales en la mayor parte de los casos. Una vez que se ha conseguido dar con una “solución para el almacenamiento” y acceso de grandes cantidades de datos, un gran número de aplicaciones emergen de la posibilidad de realizar análisis sobre los mismos. Las tecnologías de análisis distribuido de los datos, tales como “Hadoop y MapReduce” ofrecen esta funcionalidad, abriendo un gran número de posibilidades de aplicación como las que se listan a continuación:  Sistemas de recomendación: Utilizan la información de comportamiento de cada usuario para predecir sus intenciones e intereses, y ofrecerles así contenidos adecuados. Son muy utilizados en Comercio Electrónico.  Análisis de Sentimientos: Basándose en conversaciones públicas (EJ: Twitter, foros) y otros elementos 2.0, se intentan predecir los gustos y el comportamiento de cada usuario con finalidad de diferente tipo.  Predicción de Catástrofes: Las grandes cantidades de datos disponibles se utilizan en la detección de eventos como incendios o terremotos, de tal manera que se pueda predecir su impacto y generar una reacción temprana.  Juegos: Ajedrez (Deep Blue) o Preguntas (Watson) son ejemplos de programas que analizan grandes cantidades de datos de partidas para derrotar a contrincantes humanos.  Categorización y Reconocimiento: De lugares, caras o personas, mediante el análisis del gran volumen de datos de este tipo disponible online. 18 BrainsSINS, Luis Martin, “Big Data: Necesidades y Aplicaciones”, http://www.brainsins.com/es/blog/big-data- necesidades-y-aplicaciones/103589
  25. 25. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.  Medicina: La medicina genómica personalizada (aún en el campo de la investigación) analiza e integra datos genómicos y clínicos para el diagnóstico precoz y una mejor aplicación de las terapias.  Comportamiento Inteligente de Servicios Públicos: Utilizando la información proveniente de datos recopilados por sensores inteligentes puede mejorarse la distribución y consumo de recursos fundamentales como el agua o la energía eléctrica.  Modelado de Riesgos: Algunas entidades bancarias y firmas de inversión punteras, utilizan tecnologías de análisis de grandes cantidades de datos para determinar el riesgo de operaciones, evaluando un gran número de escenarios financieros hipotéticos.  Detección de Fraudes: Utilizando técnicas para combinar bases de datos de comportamiento de usuarios, y datos transaccionales puede detectarse actividad fraudulenta, como por ejemplo: el uso de una tarjeta de crédito robada.  Monitoreo de Redes: Las redes de servidores producen una gran cantidad de datos que pueden ser analizados para identificar cuellos de botella o ataques. Este tipo de análisis puede aplicarse también a otros tipos de redes, tales como redes de transporte, con el fin, por ejemplo, de optimizar el consumo de combustible.  Investigación y Desarrollo: Algunas empresas con fuerte componente investigadora, como las farmacéuticas, realizan análisis de grandes volúmenes de documentación (EJ: artículos científicos) y otro tipo de datos históricos para mejorar el desarrollo de sus productos.  Big Science y el Gran Colisionador de Hadrones: Los experimentos representan unos 150 millones de sensores para la entrega de datos de aproximadamente 40 millones de veces por segundo, resultando en la investigación del Colisionador de hadrones, cerca de 600 millones de colisiones por segundo. Luego de filtrar y abstenerse de registrar más del 99,999% de estos flujos, hay 100 colisiones de interés por segundo 19 20 21 22 : - Como resultado, sólo trabajar con menos de 0,001% de los datos de la corriente de sensores, el flujo de datos desde todos los cuatro experimentos del LHC representa 25 petabytes de tasa anual de información antes de la replicación (a partir de 2012). Esto se convierte en cerca de 200 petabyte de información después de la replicación. - Si todos los datos de los sensores debían registrarse en LHC, el flujo de datos sería muy difícil de trabajar. El flujo de datos superaría los 150 millones de petabytes de tasa anual, o cerca de 500 exabytes por día, 19 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 20 CERN Brochure 2010, “A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which starter up in 2008. Its role, characteristics, technologies, etc., are explained for the general public, http://cds.cern.ch/record/1278169?ln=en 21 CERN Brochure 2008, “LHC Guide: A collection of facts and figure about the Large Hadron Collider (LHC) in the form of questions and answers”, http://cds.cern.ch/record/1092437?ln=en 22 Brumfield, Geoff 2009, “High Energy Physics: Down the Petabyte Highway”, Nature (International Weekly Journal of Science), http://www.nature.com/news/2011/110119/full/469282a.html
  26. 26. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. antes de la replicación. Para poner el número en perspectiva, esto equivale a 500 trillones de bytes por día, casi 200 veces mayor que todas las otras fuentes combinadas en el mundo.  La Astronomía: Desde que el Sloan Digitial Sky Survey (SDSS) comenzó a recopilar datos astronómicos en el año 2000, se acumuló más datos en sus primeras semanas, que todos os datos recogidos en la historia de la astronomía. Siguiendo a un ritmo de alrededor de 200 GB por noche, el SDSS ha acumulado más de 140 terabytes de información. Cuando el Gran Telescopio para Rastreo Sinóptico, sucesor del SDSS, se ponga en línea en el año 2016, se prevé la adquisición de esa cantidad de datos cada cinco días 23 24 .  Descifrando el Genoma Humano: Se refiere al proceso PGH de investigación científica con el objetivo fundamental de determinar la secuencia de pares de bases químicas que componen el ADN e identificar y cartografiar los aproximadamente 20.000 – 25.000 genes del genoma humano desde un punto de vista físico y funcional. El proyecto dotado con 3.000 millones de dólares fue fundado en 1990 en el Departamento de Energía y los Institutos Nacionales de Salud de los Estados Unidos, bajo la dirección de Francis Collins, quien lideraba el grupo de investigación público, conformado por múltiples científicos de diferentes países, con un plazo de realización de 15 años. Gracias a la amplia colaboración internacional, a los avances en el campo de la genómica, así como los avances en la tecnología computacional, un borrador inicial del genoma fue terminado en el año 2000. Finalmente, el genoma completo fue presentado en abril de 2003, dos años antes de lo esperado. Los secuenciadores de ADN humano han dividido el costo de secuenciación por 10.000 en los últimos diez años, lo cual es un factor de 100 en comparación con la Ley de Moore. 25 26 Ciencias Sociales Computacionales. Tobías Preis, utilizando Google Trends para los datos demostró que “los usuarios de internet de los países con un Producto Interno Bruto per cápita alto, son más a buscar información sobre el futuro de la información sobre el pasado”. Los hallazgos sugieren que puede haber un vínculo entre la conducta en línea y los indicadores económicos del mundo real. Los autores del estudio examinaron los registros de consultas en Google que los usuarios de internet en 45 países en 2010 realizaron, y se calculó el volumen de búsquedas para el año 2011, tras lo cual denominaron “Futuro Índice de Orientación”. Los investigadores compararon el futuro índice de orientación en relación con el PIB per cápita de cada país, encontrando una fuerte tendencia a que “los países en los que los usuarios de Google preguntan más sobre el futuro de exhibir un PIB más alto”. Los resultados sugieren que puede tratarse de una potencial relación entre el éxito 23 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 24 The Economist, Data, data everywhere”, http://www.economist.com/node/15557443 25 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 26 Wikipedia, “Proyecto Genoma Humano”, http://es.wikipedia.org/wiki/Proyecto_Genoma_Humano
  27. 27. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. económico de un país y el comportamiento de búsqueda de información de los ciudadanos capturados en grandes volúmenes de datos 27 . Gobierno. En Estados Unidos, se están formando y generando plataformas públicas para comenzar a entender este paradigma, y para empezar a obtener provecho de éste. Tal es el caso de la iniciativa del gobierno de EE.UU., data.gov, y de las Naciones Unidas, unglobalpulse.org, creada para el aprovechamiento de la Innovación para proteger a los vulnerables. El Gobierno Federal de Estados Unidos posee seis de los diez supercomputadores más poderosos del mundo. Además, se está construyendo un Data Center en Utha, que será un centro de datos de la Agencia de Seguridad Nacional (cuando haya terminado, la instalación será capaz de manejar información del orden de “yottabytes”, recogida por la NSA a través de Internet). En Latinoamérica, tal como ocurre en el resto del mundo, la región también está experimentando un enorme crecimiento del Big Data, no así con su aprovechamiento para generar desarrollo. Según la consultora Global Frost & Sullivan, se pronostica que entre 2012 y 2013 la región sufrirá un aumento exponencial del Big Data, que demandará avanzadas soluciones tecnológicas (hardware y software) para aprovechar plenamente la información generada por la enorme cantidad de datos. Sin embargo, son pocas las compañías y gobiernos de la región que están gestionando el Big Data. Tal situación se debe, tal vez, a la “falta de visión, inversión, recursos humanos o una mezcla de todos estos, o simplemente porque la mayoría de las soluciones más básicas son más útiles hoy, o definitivamente no las necesitan (por ahora)”. Con una gestión seria y planificada del Big Data en cada uno de los países, podrían generarse plataformas informáticas en tiempo real que, por ejemplo, crucen los datos de fallas sufridas en una planta automotriz de Brasil o México, y conectarlo con las investigaciones y proyectos relacionados que desarrollan ingenieros mecánicos de universidades de todo el continente, los que a su vez, podrían cruzarse con datos de proveedores de materias primas con las que se desarrollarían la nueva pieza de esa fábrica automotriz 28 . Sector Privado. En el caso de Amazon.com, se encarga de millones de operaciones de Back-End cada día, así como de las consultas de más de medio millón de vendedores de terceras partes. La tecnología central que mantiene Amazon funcionando, está basada en Linux y en 2005 tuvieron las tres mayores bases de datos de Linux del mundo, con una capacidad de 7,8 TB - 18,5 TB . 24,7 TB. Por su parte, Walmart maneja más de 1 millón de transacciones por hora de los clientes, los cuales se importan a bases de datos que se estima contienen más de 2,5 petabytes (2.560 terabytes) de datos –el equivalente a 167 veces la información contenida en todos los libros de los Estados Unidos en la Biblioteca del Congreso. En el caso de Facebook, se estima que maneja cerca de 50 mil millones de fotos de su base de usuarios. En el caso de FICO, sistema de detección de fraude 27 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 28 AméricaEconomía,, Pablo Albarracín, “Big Data: ¿La Nueva Llave para el Desarrollo”, http://www.americaeconomia.com/analisis-opinion/big-data-la-nueva-llave-para-el-desarrollo
  28. 28. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. bancario, éste protege a 2,1 millones de cuentas activas en todo el mundo. Infosys por su parte, ha puesto en marcha el BigDataEdge para analizar los grandes datos. Windermere Real Estate utiliza señales GPS anónimas de casi 100 millones de conductores para ayudar a los nuevos compradores de vivienda a determinar sus tiempos de conducción típicos y volver del trabajo a lo largo de distintos momentos del día. En el caso de las grandes empresas multilatinas, sí parece existir una tendencia y creciente preocupación por la gestión del Big Data, donde algunas ya han adquirido las tecnologías necesarias, mientras que otras se encuentran en etapas de implementación y/o análisis. Compañías Mineras, de Petróleo/Gas, Retail, Aerolíneas y de Telecomunicaciones, se asoman como las más interesadas en el Big Data 29 30 31 32 33 34 35 . Desarrollo Internacional. Después de décadas de trabajo en el ámbito de la utilización efectiva de las tecnologías de la información y comunicaciones para el desarrollo (o ICT4D), se ha sugerido que los grandes datos pueden hacer importantes contribuciones al Desarrollo Internacional. Por un lado, la llegada del Big Data ofrece la perspectiva económica para mejorar la toma de decisiones en las áreas críticas de desarrollo como Salud, Empleo, Productividad Económica, el Crimen y la Seguridad, así como para los Desastres Naturales y la Gestión de Recursos. Por otra parte, todos los problemas acerca del debate del Big Data implican también los retos a la Privacidad de la Información, la Interoperabilidad y el Poder Omnipotente de algoritmos imperfectos, los cuales se agravan en los países en desarrollo por los problemas de desarrollo e larga data como “la falta de infraestructura tecnológica, y la escasez de recursos económicos y humanos”. Esto tiene el potencial de dar lugar a un nuevo tipo de “Brecha Digital”: la Brecha de la Inteligencia basada en datos para informar la toma de decisiones 36 . 29 The Economist, Data, data everywhere”, http://www.economist.com/node/15557443 30 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 31 Money.howstuffworks.com, Layton, Julia, “Amazon Technology”, 05/03/2013, http://money.howstuffworks.com/amazon1.htm 32 FICO.com, http://www.fico.com/en/Products/DMApps/Pages/FICO-Falcon-Fraud-Manager.aspx 33 The Economic Times, “Infosys launches BigDataEdge to analyse Big Data”, 21/02/2013, http://articles.economictimes.indiatimes.com/2013-02-21/news/37201267_1_big-data-infosys-vice-president- unstructured-data 34 Express Computer, “Infosys launches BigDataEdge”, 21/02/2013, http://computer.financialexpress.com/sections/news/1161-infosys-launches-big-data-edge 35 Bits.blogs.nytimes.com, Nick Wingfield, “Predicting Commutes More Accurately for Would-Be Home Buyers”, http://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/ 36 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
  29. 29. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Caso el Big Data y el Comportamiento de las Personas. “La recopilación y análisis de información procedente de teléfonos móviles simples, puede proporcionar sorprendentes conocimientos sobre cómo se mueven y comportan las personas, e incluso ayudarnos a entender la propagación de enfermedades”. En un ordenador en su oficina de la Escuela de Salud Pública de Harvard en Boston, Estados Unidos, la epidemióloga Caroline Buckee señala un punto en un mapa de las tierras altas al oeste de Kenia, que representa una de las miles de torres de telefonía móvil del país. En la lucha contra la malaria, los datos transmitidos desde esta torre, cerca de la ciudad de Kericho, han tenido una enorme importancia a nivel epidemiológico. Cuando ella y sus colegas estudiaron los datos, encontraron que las personas que hacen llamadas o envían mensajes de texto originados en la torre Kericho viajaban con una frecuencia de 16 veces más fuera de la zona, en comparación de la media regional. Es más, estas personas eran tres veces más propensas a visitar una región al noreste de lago Victoria que los registros del Ministerio de Salud identificaron como un punto álgido de la malaria. Por lo tanto, la señal de radio de la toree cubría un punto de referencia importante para la transmisión de la enfermedad, que puede pasar de persona a persona a través de los mosquitos. Las imágenes por satélite revelaron la causa más probable: una concurrida plantación de té que seguramente estaba repleta de trabajadores inmigrantes. La implicación estaba clara, señala Buckee: “Habrá un montón de infectados en ese lugar”. Este trabajo está sirviendo de base para una nueva serie de modelos de predicción que Buckee está construyendo. Muestran, por ejemplo, que a pesar de que se observaron casos de malaria en la plantación de té, tomar medidas para controlar la malaria allí tendría menos efecto sobre la propagación de la enfermedad que concentrar los esfuerzos en la fuente: “el lago Victoria”. Siempre se ha creído que esa región es un centro importante de malaria, pero lo que no ha estado disponible hasta ahora es información detallada sobre los patrones de viaje humano a ese lugar: cuántas personas van y vienen, cuándo llegan y salen, a qué lugares específicos van, y cuáles entre esos destinos atraen a la mayoría de las personas que viajan a lugares nuevos. De esta forma, Caroline Buckee, epidemióloga de Harvard, está utilizando datos detallados de movimientos de población, obtenidos de teléfonos móviles, para construir nuevas y precisas herramientas para la lucha contra la propagación de la malaria. Los esfuerzos existentes por recopilar este tipo de datos de viajes son, como poco, irregulares. A veces los trabajadores de la Salud Pública cuentan literalmente a las personas en los centros de transporte o las enfermeras de clínicas remotas preguntan a las víctimas de malaria recién diagnosticadas dónde han estado recientemente. “En muchos cruces fronterizos de África, mantienen pequeños registros en papel, pero los papeles se pierden y nadie les sigue la pista”. Tenemos abstracciones y modelos generales sobre los patrones de viaje, pero jamás hemos sido capaces de hacer esto correctamente, aduce Buckee.
  30. 30. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. La Minería de Datos facilitará el diseño de nuevas medidas que probablemente incluirán campañas baratas y específicas de mensajes de texto, por ejemplo, advirtiendo a los visitantes que entren en la zona de la torre Kericho que utilicen mosquiteros. Esto ayudará a los funcionarios a elegir dónde concentrar los esfuerzos de control de mosquitos en las zonas palúdicas. “No queremos tener que rociar cada charco de larvas de mosquitos todo el tiempo. Pero si sabes que existe una gran cantidad de importaciones procedentes de un determinado lugar, lo suyo es aumentar el programa de control en ese lugar”, asegura Buckee. “Ahora puedo precisar puntos de especial importancia dentro de la importación de una enfermedad”. El estudio más reciente de Buckee, publicado el año pasado en Science y basado en registros de 15 millones de teléfonos de Kenia, es el resultado de una colaboración con su esposo, Nathan Eagle, que ha estado dedicado a dar sentido a los datos de teléfonos móviles durante más de una década. A mediados de la década de 2000, después de conseguir llamar la atención con su trabajo de minería de datos procedentes de teléfonos de voluntarios en el MIT, Eagle comenzó a recibir llamadas de compañías de telefonía móvil pidiendo saber más acerca de, por ejemplo, por qué los clientes cancelaban sus planes de telefonía. Eagle comenzó a trabajar con las compañías. Y cuando la pareja pasó 18 meses en África a partir de 2006 8Buckee estaba haciendo un trabajo sobre la genética del parásito de la malaria) él estudió los datos de llamadas con diversos fines, tratando de entender fenómenos como las divisiones étnicas en barrios marginales de Nairobi y la propagación del cólera en Ruanda. Los resultados de Buckee muestran lo que se puede conseguir cuando la tecnología se usa para problemas de salud pública. “Esto muestra que sí, podemos realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar”. Afirma Eagle, actualmente director general de Jana, que lleva a cabo encuestas en teléfonos móviles en el mundo en desarrollo”, “Esto funciona”. “Este es el futuro de la epidemiología. Si queremos erradicar la malaria, así es como lo vamos a hacer”. Esta demostración sugiere cómo podría aprovecharse estos datos para construir herramientas que los trabajadores de salud, los Gobiernos y otros agentes puedan usar para detectar y vigilar las epidemias, gestionar desastres y optimizar sistemas de transporte. Otros esfuerzos similares están siendo dirigidos hacia objetivos tan variados como la comprensión de los patrones de los desplazamientos por París, y la congestión de multitudes de festivales en Bélgica. Sin embargo, la minería de registros telefónicos podría ser particularmente útil en las regiones pobres, donde a menudo las infraestructuras de recogida de datos son mínimas o inexistentes. “Estamos justo empezando a utilizar estos datos para estos fines”, señala Vincent Blondel, profesor de matemáticas aplicadas en la Universidad de Lovaina en Bélgica y destacado investigador de datos recogidos de teléfonos móviles. “La adopción exponencial de la telefonía móvil en entornos de bajos ingresos, y la nueva disposición de algunas compañías telefónicas a ofrecer los datos, dará lugar a nuevas herramientas tecnológicas que podrían cambiarlo todo”. Los 6 millones de teléfonos móviles del mundo generan enormes cantidades de datos, entre ello información de seguimiento de localización y de actividad comercial, historiales de búsqueda y enlaces en redes sociales. Se están llevando a cabo innumerables esfuerzos para extraer estos datos de diferentes
  31. 31. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. maneras por parte de organizaciones de investigación y empresariales de todo el mundo. Y de esos seis mil millones de teléfonos, cinco mil millones se encuentran en países en desarrollo. Muchos de ellos son teléfonos baratos capaces de hacer poco más que llamadas y enviar mensajes de texto. Pero toda esta actividad puede ser rastreada en las torres de telefonía móvil, proporcionando una forma aproximada de hacer un seguimiento de los movimientos de una persona. A esto hay que añadir la difusión de la tecnología de pagos móviles dentro del comercio simple, y como resultado obtenemos una materia prima no solo para conseguir conocimiento en epidemiología, sino en tendencias de empleo, tensiones sociales, pobreza, transporte y actividad económica. El mapa adjunto, producto del análisis de datos de teléfonos móviles, muestra las fuentes más importantes de infecciones de malaria (tonos más oscuros), teniendo en cuenta el potencial de transmisión causado por los viajes humanos, así como los principales destinos de las personas expuestas a la enfermedad (tonos más claros). Se puede utilizar para determinar dónde enfocar mejor las advertencias y las técnicas de control de mosquitos. La perspectiva de la minería de datos de teléfonos es especialmente tentadora en los países pobres, donde la información detallada y actualizada sobre estos asuntos ha resultado escasa hasta ahora. “En el mundo en desarrollo, no hay un censo en funcionamiento, no se sabe dónde está el tráfico, no siempre cuentas con infraestructura de recopilación de datos del Gobierno”, señala Alex Sandy Pentland, director del laboratorio de Dinámica Humana del MIT, que durante mucho tiempo ha estado interesado en el conocimiento que proporcionan los datos creados mediante el uso de teléfonos móviles. “Pero, de repente, lo único que tienes a tu disposición, es decir, teléfonos móviles por todas partes, especialmente durante los últimos años, puede darte el equivalente de toda esa infraestructura que ya está construida en el mundo desarrollado”. Cuando una llamada se conecta a una estación base determinada, esa estación registra el número de identificación del teléfono y la duración de la llamada. Con el tiempo, esta información se puede utilizar para tener una idea de los movimientos regionales de al gente y la forma de sus redes sociales. El historial de compras en los teléfonos también es muy valiosa: los registros de las compras agrícolas podrían ser utilizados para predecir los suministros o la escasez de alimentos. Y los datos financieros recogidos por los sistemas de pago móviles pueden construir un historial de crédito y ayudar a millones de personas sin acceso a la banca a poder obtener préstamos convencionales. “Los métodos de análisis de base de datos y
  32. 32. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. los ordenadores son muy estándar”, afirma Pentland. “Se trata de crear ciencia y buscar los patrones correctos”. Ciertos patrones de movilidad podrían estar relacionados con la propagación de una enfermedad, los patrones de compra podrían significar que una persona ha tenido un cambio laboral, y los cambios de conducta o patrones de movimiento podrían relacionarse con la aparición de una enfermedad. Una potente demostración de lo útiles que pueden ser los datos de teléfonos baratos se produjo después del terremoto de enero de 2010 en Haití, que mató a más de 200.000 personas. Investigadores del instituto Karolinaska de Suecia obtuvieron datos de Digicel, el mayor operador de telefonía móvil de Haití. Extrajeron los datos de movimiento diario de dos millones de teléfonos, comenzando 42 días antes del terremoto y hasta 158 días después, concluyendo que 630.000 personas que habían estado en Puerto Príncipe el día del terremoto habían salido de la ciudad en un plazo de tres semanas. También demostraron que podían hacer estos cálculos casi en tiempo real. Mostraron, 12 horas después de recibir los datos, cuántas personas habían huido de un área afectada por un brote de cólera, y a dónde fueron. Lo más importante es que su trabajo dio lugar a un modelo que podría servir de guía para las respuestas a futuros destres. Después de analizar los datos sobre los hábitos de viaje antes del terremoto, el grupo sueco encontró que los haitianos en general salieron de la ciudad para ir a los mismos lugares donde habían pasado la Navidad y el Día de Año Nuevo. Estos resultados permiten predecir dónde irá la gente cuando ocurra un destre. Respecto a la “Ampliación de la Escala”, hasta hace poco, estos estudios eran realizados por investigadores después de conseguir un acuerdo especial con las compañías para obtener los datos (Eagle los obtuvo a través de sus conexiones académicas). Sin embargo Orange, el gigante mundial de telecomunicaciones con sede en Francia, concedió el año pasado a la comunidad de investigación mundial datos basados en 2.500 millones de registros anónimos (sujetos a ciertas condiciones y restricciones) de cinco meses de llamadas realizadas por cinco millones de personas en Costa de Marfil. La primera fase de este gran experimento consiste en simplemente ver qué es posible con los datos. Las compañías de telefonía móvil del mundo tienen una mina de oro de datos, señala Nathan Eagle, director general de Jana, que lleva a cabo encuestas en teléfonos móviles. Sin embargo, señala que el uso generalizado de los datos requerirá nuevos modelos de negocio y protecciones e privacidad. Casi un centenar de grupos de investigación de todo el mundo aprovecharon la oportunidad de analizar los registros. Estaba programado que los estudios fueran presentados en mayo en una conferencia en el MIT bajo el nombre de Datos para el Desarrollo, que forma parte de una conferencia más grande sobre proyectos de minería de datos tanto en el mundo pobre como rico. “Es la primera vez que un conjunto de datos de teléfonos móviles a gran escala ha sido cedido a este nivel”, afirma Blondel, que preside la conferencia. Los estudios no habían sido publicados formalmente en el momento de escribir este artículo. Pero uno de ellos muestra un gráfico de las interacciones sociales y de viaje a través de una división étnica tradicional Norte-Sur, y proporciona información sobre cómo podría evitarse el conflicto. Otro propone
  33. 33. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. herramientas para el mapeo de la propagación de la malaria y la detección de brotes de enfermedades. Un laboratorio de empresa ha construido un modelo de transporte a partir de datos de teléfonos móviles para realizar un seguimiento de pasajeros en 539 autobuses, 5.000 minibuses y 11.000 taxis compartidos. Incluso si el experimento de Costa de Marfil tiene éxito, replicarlo en otros países podría no resultar tan sencillo. El año pasado, el Foro Económico Mundial, el grupo de figuras líder industriales, académicas y políticas que convergen cada año en Davos, Suiza, hizo un llamamiento a los Gobiernos, organizaciones de desarrollo y empresas para el desarrollo de herramientas de análisis de datos, que mejoren la vida de las personas en el mundo pobre. “No debería tener que ir a los operadores y decirles les voy a hacer una consultoría gratuita, y a cambio quiero usar vuestros datos para mejorar vidas”, asegura Eagle. “Los operadores deberían querer estar involucrados en esto. En este momento, muchos de ellos no ven el lado bueno, pero si podemos hacer que los líderes del mundo les animen a hacerlo, tal vez podamos conseguir muchas cosas”. “Podemos realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar. Esto realmente funciona”. Esto requerirá un trabajo cuidadoso para proteger la privacidad y evitar que los datos se utilicen con fines opresivos. Orange señala que se esforzó en hacer que los datos fueran anónimos, pero el campo necesita formas claras y ampliamente aceptadas de llevar la información al mercado. “Hay riesgos y beneficios en el hecho de vivir en sociedad basada en los datos”, señala Pentland. “Está la cuestión de quién posee los datos y quién los controla. Te puedes imaginar lo que Muamar Gadafi habría hecho con este tipo de datos . Orange está tratando de encontrar la forma de crear un patrimonio común de datos que logre una mayor transparencia, responsabilidad y eficiencia, para detectar dónde se producen eventos inusuales, eventos extremos, que nos indiquen dónde se está desmoronando la infraestructura. Podemos hacer muchas cosas con ello, pero tiene que estar disponible. A media que estas cuestiones se desarrollan, Buckee y Eagle están trabajando en perfeccionar y aumentar las herramientas de minería de datos en Kenia. Eagle tiene como objetivo utilizar encuestas para refinar y confirmar la imagen creada por los datos de minería de telefonía móvil a gran escala. El registro de llamadas no es suficiente, afirma. Encuestar incluso simplemente a algunas personas podría permitir a los investigadores descartar suposiciones erróneas acerca de lo que muestran los registros. Una vez, mientras analizaba datos de teléfonos en Ruanda, Eagle observó que la gente no se había movido mucho después de una inundación. Al principio, su teoría era que una gran cantidad de gente estaba en cama con cólera. Pero resultó que el diluvio había borrado las carreteras. Buckee espera extraer datos para atacar a las cepas del parásito de la malaria resistentes ante los medicamentos. Estas cepas, que emergen en Camboya y en otros lugares, podrían invertir el progreso contra la enfermedad si se les permite proliferar, advierte. Así que quiere empezar combinando los datos sobre la propagación de los parásitos en modelos de movilidad para ayudar a producir estrategias para

×