Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data

0 views

Published on

Presentación Big Data para la Universdidad Autonoma de Occidente

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Big data

  1. 1. Big Data. Más que un BUZZWORD, un universo de oportunidades. Jhony Valderrama
  2. 2. {nombre, edad, carrera, área de interés}
  3. 3. Contenido • Parte 1. La Era del Big Data. • Parte 2. Infraestructura del Big Data. • Parte 3. Analítica del Big Data.
  4. 4. Contenido • Parte 1. La Era del Big Data. – ¿En qué punto estamos?. – Que es Big Data. – Fuentes de Grandes Volúmenes de Datos. – El Almacén del Big Data. – Sectores Estratégicos del Big Data. – La Analítica y Los científicos de Datos. – Cloud Computing.
  5. 5. BigData: “¿Enqué punto estamos?” Big Data ya no es una promesa ni una tendencia. Big Data está aquí y está provocando cambios profundos en diversas industrias. Desde el punto de vista tecnológico ya existen sectores empresariales que han adoptado de forma masiva proyectos y productos. El análisis de todos los datos disponibles está convirtiéndose en un elemento de disrupción.
  6. 6. ¿Qué es BigData? “Big Data se refiere a los conjuntos de datos cuyo tamaño está mas allá de las capacidades de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar”. – Mckinsey Global Institute. 2011.
  7. 7. Semi-Estructurados NoEstructurados Estructurados Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo. Tipos de Datos Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Un ejemplo es el HTML, el XML o el JSON. Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.
  8. 8. Tipos de Datos
  9. 9. Fuentes de Grandes Volúmenes de Datos. • Datos personales. • Datos de la web. • Datos de los medios sociales (redes sociales, blogs, wikis). • Datos del IoT. • Datos de interconexión de maquinas, M2M. • Datos industriales. • Datos de la industria del automóvil. • Datos de redes de telecomunicaciones. • Datos de medios de comunicación (prensa, radio, TV, cine). • Datos de sensores. • Datos de videojuegos. • Datos de GPS. • Datos de telefonía celular (texto, datos, audio, fotos, video). • Etc, etc………………………………………………………………….etc.
  10. 10. Características del Big Data: Las 5 V’s 1. VOLUMEN: • Terabytes, Registros, Transacciones, Tablas, Archivos. 2. VELOCIDAD: • Por Lotes, Tiempo Próximo, Tiempo Real, Flujos. 3. VARIEDAD: • Datos Estructurados, Semi-Estructurados, NO estructurados. 4. VERACIDAD: • Viabilidad, Precisión, Confiabilidad. 5. VALOR: • Costo, Rentabilidad, Eficiencia.
  11. 11. Fuente: A.T.Kearney | Big Data and the Creative Destruction of Today’s Business Models
  12. 12. Oportunidades
  13. 13. El científico de datos o data scientist. La nueva profesión SEXY del siglo XXI.
  14. 14. • Es una persona con habilidades “serias” en: – Ciencias de la computación. – Analítica. – Matemáticas. – Estadística. – Generación de tendencias. • Además debe: – Comprender los problemas del negocio. – Transformar el problema. – Ejecutar un plan. – Dar una solución de negocios.
  15. 15. ¿ Donde estudio ?
  16. 16. Líneas de Generación y/o Aplicación del Conocimiento
  17. 17. ¿Dónde encuentro trabajo?
  18. 18. Aplicaciones del Big Data • La reelección de Obama – Tras su primer mandato, el presidente de los EEUU, Barack Obama, decidió utilizar Big Data para su reelección en 2012. – Un centenar de personas trabajaron en el departamento de analítica de la campaña. – 50 estaban fijos en las oficinas centrales, otros 30 se movilizaron a lo largo y ancho de las distintas sedes del país, y 20 estaban única y exclusivamente centrados en la interpretación de los datos recibidos. – Tras un primer análisis, los esfuerzos de la campaña se enfocaron en tres aspectos: registro (recoger datos de los votantes convencidos), persuasión (dirigirse a los dudosos de una forma eficaz) y voto del electorado (asegurarse de que los partidarios fueran a ejercer el voto sí o sí). – Por primera vez, los tres equipos más importantes de las campañas electorales: el de campo, el digital y el de comunicación, trabajaron con una estrategia unificada con los respectivos datos de cada uno.
  19. 19. Aplicaciones del Big Data • Juegos de pelota y millones de datos – Moneyball: Rompiendo las reglas (2011). – Ocurrió en la pretemporada de 2002 en Oakland Athletics de las Grandes Ligas de Béisbol de los Estados Unidos. El gerente deportivo Billy Beane, revolucionó la historia del club y posiblemente del deporte en general tras fichar a un joven economista, Peter Brand, que traía nuevas ideas. – Juntos contrataron jugadores infravalorados, pero económicamente rentables, con un criterio de selección muy diferente. La intuición y sapiencia de los ojeadores es sustituida por las conclusiones de los análisis de estadísticas y números acumulados a la hora de establecer las necesidades del equipo y los jugadores que mejor se adaptan a éstas.
  20. 20. Aplicaciones del Big Data • El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos. • Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer. • El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de estas secuencias.
  21. 21. Aplicaciones del Big Data
  22. 22. Consideraciones • Requisitos previos. – Elaborar una estrategia, financiación $, tiempo. • Adquisición de datos. – Donde consigo los datos, la calidad, ej. Kaggle. • Privacidad. – La intimidad de las personas. • Seguridad. – Que tan seguro es donde proceso los datos. • Limitaciones de la infraestructura. – Puedo procesar 1 TB de datos en una Raspberry Pi?
  23. 23. Contenido • Parte 2. Infraestructura del Big Data. – Comparación Arquitecturas. – Recolección de Datos. – Almacenamiento. – Procesamiento.
  24. 24. Vs. Arq. tradicional Arq. Big data • Centralidad  mainframe, cpd • BBDD relacionales • Datos estructurados • Alm. Convencional: -Silos de información -Datawarehouse • Alta escalabilidad (Scale-Out) • Procesamiento paralelo • Mismo espacio almacen. y procesadoBaja latencia • Datos no estructurados y est. • By-pass de datos (no silos) • NoSQL Comparación Arquitecturas
  25. 25. Comparación Arquitecturas • Un objetivo que buscan los sistemas Big Data es la escalabilidad, es decir, un sistema que pueda variar su tamaño (ya sea aumentándolo o disminuyéndolo) según las necesidades y que esto no afecte al rendimiento general de todo el sistema.
  26. 26. RECOLECCIÓN DE DATOS • Batch o por lotes: se conectan de manera periódica a la fuente de datos buscando nueva información. Generalmente se usan para conectarse a sistemas de ficheros o bases de datos, buscando cambios desde la última vez que se conectaron. • Una herramienta para migrar datos periódicamente -una vez al día, por ejemplo- de una base de datos a otra es un ejemplo de recolección de datos por lotes.
  27. 27. RECOLECCIÓN DE DATOS • Streaming o por transmisión en tiempo real: están conectados de manera continua a la fuente de datos, descargando información cada vez que ésta transmite. • Se acostumbra a usar para monitorización de sistemas -para aumentar la seguridad y la detección de fallos-, de conjuntos de sensores o para conectarse a redes sociales y descargar información en tiempo real.
  28. 28. ALMACENAMIENTO • La capa de almacenamiento tiene, a grandes rasgos, dos elementos básicos: el sistema de archivos y la base de datos. • Hasta hace poco los sistemas de tratamiento de la información se centraban principalmente en las bases de datos pero, debido a que en los sistemas Big Data se busca la mayor variedad posible -las bases de datos acostumbran a ser poco flexibles-, los sistemas de archivos han cobrado mayor importancia.
  29. 29. ALMACENAMIENTO HDFS Sistema de Archivos o Ficheros HDFS
  30. 30. ALMACENAMIENTO - HDFS
  31. 31. ALMACENAMIENTO - BD SQL • En la actualidad hay muchos lenguajes basados en SQL como PostgreSQL, MySQL, MariaDB o SQLite; que a la vez también son Sistemas Gestores de Bases de Datos Relacionales o SGBDR-. • Los lenguajes SQL se benefician de consultas muy sencillas, parecidas al lenguaje humano, que las hacen muy accesibles a los usuarios no expertos. • Se aprovecha de las características del álgebra y el cálculo relacional para efectuar con el fin de recuperar de forma sencilla información de interés.
  32. 32. ALMACENAMIENTO BD SQL • Son sistemas rápidos y ágiles pero cuando la información almacenada supera unos límites - normalmente alrededor de terabytes- mantener la información estructurada tiene un coste en la creación y mantenimiento de los índices y en el rendimiento de las consultas. • Son bases de datos poco flexibles ya que cuando se crea su estructura es bastante conflictivo realizar cambios en esta (como añadir nuevas columnas a una tabla o cambiar el tipo de una columna).
  33. 33. ALMACENAMIENTO - BD NoSQL • Son modelos de bases de datos que no siguen el modelo relacional -y por lo tanto usan muy poco el lenguaje SQL. • Aportan más flexibilidad al no requerir estructuras fijas como las tablas. • Responden a las necesidades de escalabilidad, ya que al no tener que mantener los índices para los datos el volumen de información que almacenan siempre crece de forma horizontal (en las bases de datos SQL el mantenimiento de índices hace que crezcan de manera parecida a exponencial al añadir nuevos datos).
  34. 34. ALMACENAMIENTO - BD NoSQL
  35. 35. Comparativa entre SQL y NoSQL
  36. 36. PROCESAMIENTO • Parallel Data Processing • Distributed Data Processing o Cluster • Hadoop • Processing Workloads – Batch – Transactional • Heterogeneous systems – INTEL XEON PHI – GPU´s
  37. 37. PROCESAMIENTO • Procesamiento de datos en paralelo. – El procesamiento de datos en paralelo consiste en la ejecución simultánea de múltiples sub-tareas que comprenden colectivamente una tarea más grande. – El objetivo es reducir el tiempo de ejecución por la división de una sola tarea más grande en varias tareas más pequeñas que se ejecutan al mismo tiempo. – Se consigue más típicamente dentro de los confines de una sola máquina con varios procesadores o núcleos.
  38. 38. PROCESAMIENTO Una tarea puede ser dividida en tres sub-tareas que se ejecutan en paralelo en tres procesadores diferentes dentro de la misma máquina.
  39. 39. PROCESAMIENTO • Procesamiento de datos Distribuido y/o Cluster. – El procesamiento de datos distribuidos está estrechamente relacionado con el procesamiento de datos en paralelo en el que el mismo principio de "divide y vencerás" se aplica. – El procesamiento de datos distribuidos siempre se logra a través de máquinas físicamente separados que están conectados en red como un clúster.
  40. 40. Ejemplo de proceso de datos distribuido. PROCESAMIENTO
  41. 41. • Hadoop – Hadoop permite la creación de aplicaciones para procesar grandes volúmenes de información distribuida a través de un modelo de programación sencillo. – Está diseñado para ser escalable puesto que trabaja con almacenamiento y procesamiento local (pero distribuido), de manera que funciona tanto para clústeres de un solo nodo como para los que estén formados por miles. PROCESAMIENTO
  42. 42. • Map tasks – map – combine (optional) – partition PROCESAMIENTO Funcionamiento del MapReduce • Reduce tasks – shuffle and sort – reduce
  43. 43. Un ejemplo de MapReduce en acción. PROCESAMIENTO
  44. 44. PROCESAMIENTO • Processing Workloads – El procesamiento de la carga de trabajo en Big Data es definido por la cantidad y la naturaleza que son procesados en cierta cantidad de tiempo. • Batch • Transactional
  45. 45. PROCESAMIENTO • Batch: El procesamiento en Batch o también llamado procesamiento offline, involucra el procesamiento de datos en lotes y usualmente tiene delays, que a su vez resulta en respuestas de alta latencia. • Típicamente involucran grandes cantidades de datos con lecturas / escrituras secuenciales y forman parte de los grupos de queries de lectura o escritura.
  46. 46. PROCESAMIENTO Una carga de trabajo por lotes puede include incluir grupos de lecturas/escritures como INSERT, SELECT, UPDATE y DELETE.
  47. 47. PROCESAMIENTO • Transactional: Procesamiento transaccional es también conocido como procesamiento en línea. Este tipo de procesamiento sigue un enfoque en el que se procesan los datos de forma interactiva sin delay, lo que resulta en respuestas de baja latencia. • Las cargas de trabajo de transacciones implican pequeñas cantidades de datos con lecturas y escrituras aleatorias.
  48. 48. PROCESAMIENTO Las cargas de trabajo del modo transaccionales tienen pocos joins y menor latencia que en el modo Batch.
  49. 49. PROCESAMIENTO • Sistemas Heterogéneos – Esta arquitectura soporta grandes cantidades de núcleos en un único procesador, donde la infraestructura de apoyo (interconexión, la jerarquía de memoria, etc.) esta diseñada para soportar altos niveles de escalabilidad, que va más allá de la encontrada en los computadores con varios procesadores. – Con el de diseño basado en varios núcleos son posibles cientos de miles de threads (hilos o hebras) por chip computacional. – Estos procesadores, no poseen núcleos tan complejos y poderosos como los de las arquitecturas Multicore.
  50. 50. PROCESAMIENTO Criterio de comparación Multicore Manycore Perspectivas de Crecimiento Así como procesadores de un núcleo tuvieron un callejón sin salida, se estima que este tipo de procesador seguirá el mismo camino. Se estima que la evolución de los computadores seguirá esta vía. Cantidad de núcleos Entre 2 y 16 La cantidad es variable, pero a nivel comercial existen arquitecturas con más de 480 núcleos Grado de paralelismo Posee paralelismo, pero en un grado menor a las arquitecturas Manycore, debido a su acotada cantidad de núcleos Entrega un alto grado de paralelismo, debido a la gran cantidad de núcleos que posee. Complejidad de los núcleos Posee núcleos altamente complejos, de gran capacidad y tamaño Posee núcleos simples, pequeños y de capacidades acotadas. Cuadro Comparativo de las arquitecturas Multicore vs Manycore
  51. 51. PROCESAMIENTO • Intel XEON PHI. • Los coprocesadores Intel® Xeon Phi™ ofrecen hasta 61 núcleos, 244 subprocesos y 1,2 teraFLOPS de desempeño, y vienen en una variedad de configuraciones para dar respuesta a diversos requisitos de hardware, software, cargas de trabajo, desempeño y eficiencia.
  52. 52. PROCESAMIENTO http://www.amazon.com/
  53. 53. PROCESAMIENTO • Nvidia Cuda – Desde sus orígenes como procesadores gráficos especializados que podían reproducir rápidamente imágenes en un monitor, se han convertido en una tecnología a seguir cuando se necesita de un procesamiento ultrarrápido. – En los últimos años, cada vez las GPU´s se han unido a las CPU´s para acelerar una amplia gama de cálculos en la denominada computación heterogénea. – Hoy en día, las GPU´s están incorporadas en cualquier computador de escritorio, en clústers de computadores, e incluso en muchos de los mayores superordenadores del mundo. – En su rol de proveedor de grandes cantidades de poder computacional para la computación más exigente, las GPU´s han permitido avances en la ciencia y la ingeniería en una amplia variedad de disciplinas. – Lo han hecho por lo que es posible que un gran número de núcleos de computación para trabajar en paralelo, manteniendo el consumo de potencia a unos niveles muy razonables
  54. 54. PROCESAMIENTO http://www.amazon.com/
  55. 55. ¿ COMO PROCESA FACEBOOK SUS GRANDES CANTIDADES DE DATOS?
  56. 56. PROCESAMIENTO • R// FACEBOOK BIG SUR.
  57. 57. Contenido • Parte 3. Analítica del Big Data. – Análisis Cuantitativo. – Análisis Cualitativo. – Minería de Datos. – Análisis Estadístico. – Maquinas de Aprendizaje. – Análisis Semántico. – Análisis Visual
  58. 58. Análisis Cuantitativo • El análisis cuantitativo es una técnica de análisis de datos que se centra en la cuantificación de los patrones y correlaciones encontradas en los datos. • Sobre la base de las prácticas estadísticas, esta técnica consiste en el análisis de un gran número de observaciones a partir de un conjunto de datos. • Dado que el tamaño de la muestra es grande, los resultados se pueden aplicar de manera generalizada para todo el conjunto de datos.
  59. 59. Análisis Cuantitativo La salida del análisis cuantitativo en naturaleza es numérico.
  60. 60. Análisis Cualitativo • El análisis cualitativo es una técnica de análisis de datos que se centra en describir las cualidades de datos utilizando diferentes palabras. • Se trata de analizar una muestra más pequeña en mayor profundidad en comparación con el análisis de datos cuantitativos. Estos resultados de los análisis no se pueden generalizar a todo un conjunto de datos debido al tamaño pequeño de la muestra.
  61. 61. Análisis Cualitativo Los resultados cualitativos son de carácter descriptivo y no generalizable a todo el conjunto de datos.
  62. 62. Minería de Datos • La minería de datos, es también conocida como el descubrimiento de datos, es una forma especializada de análisis de datos que se dirige a grandes conjuntos de datos. • En relación con el análisis de grandes volúmenes de datos (BIG DATA), la minería de datos generalmente se refiere a las técnicas automatizadas, basadas en software que se desplazan a través de grandes conjuntos de datos para identificar patrones y tendencias.
  63. 63. Análisis Estadístico • El análisis estadístico utiliza métodos estadísticos basados en fórmulas matemáticas como un medio para analizar los datos. • El análisis estadístico es más a menudo cuantitativo, pero también puede ser cualitativo. • Este tipo de análisis se utiliza comúnmente para describir conjuntos de datos a través de resúmenes, tales como la media, mediana, o moda de estadísticas asociadas con el conjunto de datos. • También puede utilizarse para inferir patrones y las relaciones dentro del conjunto de datos, como la regresión y correlación.
  64. 64. Maquinas de Aprendizaje • Los seres humanos son buenos para reconocer patrones y relaciones dentro de los datos. Desafortunadamente, no podemos procesar grandes cantidades de datos muy rápidamente. Las máquinas, por el contrario, son muy hábiles para procesar grandes cantidades de datos de forma rápida, pero solo si se sabe cómo. • Si el conocimiento humano puede ser combinado con la velocidad de procesamiento de máquinas, las máquinas serán capaces de procesar grandes cantidades de datos sin necesidad de mucha intervención humana. Este es el concepto básico de aprendizaje de máquina.
  65. 65. Maquinas de Aprendizaje Mapa conceptual del aprendizaje automático.
  66. 66. Análisis semántico • Un fragmento de datos de texto o de voz puede llevar a diferentes significados en diferentes contextos, mientras que una oración completa puede retener su significado, incluso si se estructura de manera diferente. • A fin de que las máquinas puedan extraer información valiosa, datos de texto y de voz tienen que ser entendidos por las máquinas en la misma forma que lo hacen los humanos. El análisis semántico representa las prácticas para extraer información significativa de los datos de texto y de voz.
  67. 67. Análisis Visual • El análisis visual es una forma de análisis de datos que consiste en la representación gráfica de datos para permitir o mejorar su percepción visual. • Basado en la premisa de que los seres humanos pueden entender y sacar conclusiones de gráficos más rápidamente que a partir del texto, el análisis visual actúa como herramienta de descubrimiento en el campo de grandes volúmenes de datos. • El objetivo es utilizar representaciones gráficas para desarrollar una comprensión más profunda de los datos que están siendo analizados. En concreto, se ayuda a identificar y resaltar patrones ocultos, correlaciones y anomalías. • El análisis visual también está directamente relacionada con el análisis exploratorio de datos, ya que fomenta la formulación de las preguntas de los diferentes ángulos.
  68. 68. Análisis Visual Mapas de Calor Análisis de Datos Espacial
  69. 69. ¿Y todo esto que tiene que ver con la materia de Desarrollo de Aplicaciones para Ciudades Inteligentes?
  70. 70. Preguntas
  71. 71. Llegó la hora de levantarse y empezar a ser activos con Big Data, puesto que “quedarse sentados esperando” no es una opción viable. Gracias. javalder@gmail.com Manosala obra.

×