Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Retos del Big Data       Jordi Torres - 25/04/2012                               1
Se avecina una marea de información digital                                       Twitter: (redes sociales)               ...
Se avecina una marea de información digital  Los datos son más importante que  nunca, pero             su crecimiento expo...
Nuestra visión sobre “Big Data Challenges”1 Almacenamiento:      hacen falta nuevas tecnologías de almacenamiento2 Bases d...
1 Almacenamientohacen falta nuevas tecnologías dealmacenamiento   RAM vs HHD         HHD 100 más barato que RAM           ...
2 Base de datoslas BD relacionales no pueden con todo  Tiempo de ejecución                                                ...
Base de datos Solución: los llamados “NoSQL systems” A veces se les atribuye la propiedad BASE (Basically Available, Soft ...
3 ProcesadoSe requieren nuevos modelos de programaciónpara manejarse con estos datos                              Solución...
Base de datos y procesado                                                             MapReduce                           ...
Proveedores de Big Data   Algunos han desarrollado sus propias distribuciones de   Hadoop (con diferentes niveles de perso...
Obstáculos de MapReduce+NoSQL Difícil pensar en MapReduce+NoSQL                   hace falta “desaprender” Solución (open ...
Obstáculos de MapReduce+NoSQL Propuestas de la industria para integrar NoSQL con SQL:  –   Sqoop de Cloudera  –   Greenplu...
4 Obtención de valorlos datos no se pueden comer crudosla información no es conocimiento accionable                       ...
Obtención de valor Solución: Dentro del ecosistema open source Hadoop hay la iniciativa Mahout  El objetivo es producir un...
Obtención de valorMahout no es un reflejode los avances,mucha investigaciónse está desarrollandode manera silenciosadentro...
Empresas que ya tratan con “Big Data”   IBM         Capgemini        Logica             ClickFox       Hortonworks  ...
Grupo Autonomic Systems and eBusiness Platforms                              Cloud                            Computing   ...
Colaboración con grupo LARCA            http://recerca.upc.edu/larca/research-topics                                      ...
Experiencia en Big Data          Application         Data                Target        placement and      management:     ...
Proyectos Big Data en curso                                                                                               ...
Nuestro escenario Gestión dinámica del procesado y almacenado con jerarquía de almacenamiento en nuevas plataformas hardwa...
Upcoming SlideShare
Loading in …5
×

Retos del Big Data

3,617 views

Published on

Breve reflexión sobre los retos del Big Data

Published in: Technology
  • Be the first to comment

Retos del Big Data

  1. 1. Retos del Big Data Jordi Torres - 25/04/2012 1
  2. 2. Se avecina una marea de información digital Twitter: (redes sociales) 90 millones de Tweets por día que representa 8 Terabytes. Boeing: (indústria) Vuelo transoceanico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 Petabytes. Source: http://www.datacenterknowledge.com/archives/2011/06/28/digital- universe-to-add-1-8-zettabytes-in-2011/?utm-source=feedburner&utm- medium=feed&utm-campaign=Feed:+DataCenterKnowledge+%28Data 2
  3. 3. Se avecina una marea de información digital Los datos son más importante que nunca, pero su crecimiento exponencial, la complejidad de los formatos y la velocidad de entrega ha desbordado la capacidad de la mayoría de las empresas para gestionarlos y obtener beneficios a partir de ellos. 3
  4. 4. Nuestra visión sobre “Big Data Challenges”1 Almacenamiento: hacen falta nuevas tecnologías de almacenamiento2 Bases de datos: las BD relacionales no pueden con todo3 Procesado: se requieren nuevos modelos de programación4 Obtención de valor: los datos no se pueden comer crudos la información no es conocimiento “accionable” 4
  5. 5. 1 Almacenamientohacen falta nuevas tecnologías dealmacenamiento RAM vs HHD HHD 100 más barato que RAM Pero 1000 veces más lento Solid- state drive (SSD) Solución actual: además no volátil Investigación: Storage Class Memory (SCM) 5
  6. 6. 2 Base de datoslas BD relacionales no pueden con todo Tiempo de ejecución Limitadas para almacenar “big data” (ACID, SQL, …) GBs volumen de la información PBs ACID: Atomicity, Consistency, Isolation & Durability 6
  7. 7. Base de datos Solución: los llamados “NoSQL systems” A veces se les atribuye la propiedad BASE (Basically Available, Soft state, Eventual consistency) Ejemplo consistencia eventual: Facebook! 7
  8. 8. 3 ProcesadoSe requieren nuevos modelos de programaciónpara manejarse con estos datos Solución: Para conseguir procesar grandes conjuntos de datos Google creó el modelo de programación MapReduce Pero fue el desarrollo de Hadoop MapReduce, por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source 8
  9. 9. Base de datos y procesado MapReduce & NoSQL Tiempo de ejecución In-memory GBs Volumen de los datos PBs 9 9
  10. 10. Proveedores de Big Data Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …) Una distribución muy popular Otros ejemplos: MapR, Greenplum, Hortonworks, … Hay docenas 10
  11. 11. Obstáculos de MapReduce+NoSQL Difícil pensar en MapReduce+NoSQL hace falta “desaprender” Solución (open source): – HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL. – PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo). 11
  12. 12. Obstáculos de MapReduce+NoSQL Propuestas de la industria para integrar NoSQL con SQL: – Sqoop de Cloudera – Greenplum database – Aster Datas nCluster DW system – … Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce. 12
  13. 13. 4 Obtención de valorlos datos no se pueden comer crudosla información no es conocimiento accionable Para ello tenemos- datos tecnicas de Data Mining + • Asociación • ClasificaciónValor información Volumen • Clustering • Predicción • ...+ Pero la mayoría de algoritmos se conocimiento - ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. 13
  14. 14. Obtención de valor Solución: Dentro del ecosistema open source Hadoop hay la iniciativa Mahout El objetivo es producir una implementación libre de un paquete que incluya los principales algoritmos de Data mining que escalen sobre la plataforma Hadoop. 14
  15. 15. Obtención de valorMahout no es un reflejode los avances,mucha investigaciónse está desarrollandode manera silenciosadentro de las grandescorporacionesdada la importanciaque puede tener parasus negocios. Source: http://www.smartplanet.com/blog/business-brains/ retailer-or-a-data-company-wal-mart-is-now-both/20850 15
  16. 16. Empresas que ya tratan con “Big Data” IBM  Capgemini  Logica  ClickFox  Hortonworks Intel  Hitachi  Microsoft  Super Micro  DataStax HP  Atos S.A.  Splunk  SAP  Attivio Oracle  Huawei  1010data  Think Big  QlikTech Teradata  Siemens  MarkLogic Analytics  HPCC Sys. Fujitsu  Xerox  Cloudera  MapR  Karmasphere CSC  Tata  Red Hat  Digital  Tableau Accenture Consultancy  Informatica Reasoning Software Dell  SGI  SAS Institute  Pervasive  … Software Seagate  EMC  Amazon  …  Datameer 16
  17. 17. Grupo Autonomic Systems and eBusiness Platforms Cloud Computing + High Performance Computing Autonomic and Green Computing Intelligent Big Data Resource Management www.bsc.es/eBusiness 17
  18. 18. Colaboración con grupo LARCA http://recerca.upc.edu/larca/research-topics 18
  19. 19. Experiencia en Big Data Application Data Target placement and management: Applications: scheduling: MapReduce Key-Value Data Analytics storage Bioinformatics Resultados científicos en Big Data: • 2 artículos en high level business performance goals • 2 artículos sobre nuevas arquitecturas Hardware • 2 artículos relacionados con energía 19
  20. 20. Proyectos Big Data en curso Technology Goal Use case Collaborators involved Hadoop Snapshot isolation (support to Data Analytics IBM & online data generation) Cassandra High level performance goal and Data Analytics and Hadoop Life Science Dept. MapReduce automatic query configuration Bioinformatics (support to & (BSC) & NoSQL drug discovery) Cassandra Automatic configuration, data Bioinformatics (support to Life Science Dept. organization to meet high level Cassandra performance goals drug discovery) (BSC) In-Memory Bioinformatics Workflows (index construction, Bioinformatics (genomic IBM and Life SCM alignment, sorting, data PIMD sequencing) Science Dept. (BSC) processing) 20
  21. 21. Nuestro escenario Gestión dinámica del procesado y almacenado con jerarquía de almacenamiento en nuevas plataformas hardware APPLICATION IN-MEMORY RDBMS  NoSQL In-Memory Storage Heterogeneous Hierarchy: Compute Nodes HDD+ SSD+ SCM + Cloud Computing 21

×