Retos del Big Data
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share
  • 3,573 views

Breve reflexión sobre los retos del Big Data

Breve reflexión sobre los retos del Big Data

Statistics

Views

Total Views
3,573
Views on SlideShare
2,851
Embed Views
722

Actions

Likes
0
Downloads
105
Comments
0

2 Embeds 722

http://www.jorditorres.org 721
http://www.jorditorres.eu 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Retos del Big Data Presentation Transcript

  • 1. Retos del Big Data Jordi Torres - 25/04/2012 1
  • 2. Se avecina una marea de información digital Twitter: (redes sociales) 90 millones de Tweets por día que representa 8 Terabytes. Boeing: (indústria) Vuelo transoceanico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 Petabytes. Source: http://www.datacenterknowledge.com/archives/2011/06/28/digital- universe-to-add-1-8-zettabytes-in-2011/?utm-source=feedburner&utm- medium=feed&utm-campaign=Feed:+DataCenterKnowledge+%28Data 2
  • 3. Se avecina una marea de información digital Los datos son más importante que nunca, pero su crecimiento exponencial, la complejidad de los formatos y la velocidad de entrega ha desbordado la capacidad de la mayoría de las empresas para gestionarlos y obtener beneficios a partir de ellos. 3
  • 4. Nuestra visión sobre “Big Data Challenges”1 Almacenamiento: hacen falta nuevas tecnologías de almacenamiento2 Bases de datos: las BD relacionales no pueden con todo3 Procesado: se requieren nuevos modelos de programación4 Obtención de valor: los datos no se pueden comer crudos la información no es conocimiento “accionable” 4
  • 5. 1 Almacenamientohacen falta nuevas tecnologías dealmacenamiento RAM vs HHD HHD 100 más barato que RAM Pero 1000 veces más lento Solid- state drive (SSD) Solución actual: además no volátil Investigación: Storage Class Memory (SCM) 5
  • 6. 2 Base de datoslas BD relacionales no pueden con todo Tiempo de ejecución Limitadas para almacenar “big data” (ACID, SQL, …) GBs volumen de la información PBs ACID: Atomicity, Consistency, Isolation & Durability 6
  • 7. Base de datos Solución: los llamados “NoSQL systems” A veces se les atribuye la propiedad BASE (Basically Available, Soft state, Eventual consistency) Ejemplo consistencia eventual: Facebook! 7
  • 8. 3 ProcesadoSe requieren nuevos modelos de programaciónpara manejarse con estos datos Solución: Para conseguir procesar grandes conjuntos de datos Google creó el modelo de programación MapReduce Pero fue el desarrollo de Hadoop MapReduce, por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source 8
  • 9. Base de datos y procesado MapReduce & NoSQL Tiempo de ejecución In-memory GBs Volumen de los datos PBs 9 9
  • 10. Proveedores de Big Data Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …) Una distribución muy popular Otros ejemplos: MapR, Greenplum, Hortonworks, … Hay docenas 10
  • 11. Obstáculos de MapReduce+NoSQL Difícil pensar en MapReduce+NoSQL hace falta “desaprender” Solución (open source): – HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL. – PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo). 11
  • 12. Obstáculos de MapReduce+NoSQL Propuestas de la industria para integrar NoSQL con SQL: – Sqoop de Cloudera – Greenplum database – Aster Datas nCluster DW system – … Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce. 12
  • 13. 4 Obtención de valorlos datos no se pueden comer crudosla información no es conocimiento accionable Para ello tenemos- datos tecnicas de Data Mining + • Asociación • ClasificaciónValor información Volumen • Clustering • Predicción • ...+ Pero la mayoría de algoritmos se conocimiento - ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. 13
  • 14. Obtención de valor Solución: Dentro del ecosistema open source Hadoop hay la iniciativa Mahout El objetivo es producir una implementación libre de un paquete que incluya los principales algoritmos de Data mining que escalen sobre la plataforma Hadoop. 14
  • 15. Obtención de valorMahout no es un reflejode los avances,mucha investigaciónse está desarrollandode manera silenciosadentro de las grandescorporacionesdada la importanciaque puede tener parasus negocios. Source: http://www.smartplanet.com/blog/business-brains/ retailer-or-a-data-company-wal-mart-is-now-both/20850 15
  • 16. Empresas que ya tratan con “Big Data” IBM  Capgemini  Logica  ClickFox  Hortonworks Intel  Hitachi  Microsoft  Super Micro  DataStax HP  Atos S.A.  Splunk  SAP  Attivio Oracle  Huawei  1010data  Think Big  QlikTech Teradata  Siemens  MarkLogic Analytics  HPCC Sys. Fujitsu  Xerox  Cloudera  MapR  Karmasphere CSC  Tata  Red Hat  Digital  Tableau Accenture Consultancy  Informatica Reasoning Software Dell  SGI  SAS Institute  Pervasive  … Software Seagate  EMC  Amazon  …  Datameer 16
  • 17. Grupo Autonomic Systems and eBusiness Platforms Cloud Computing + High Performance Computing Autonomic and Green Computing Intelligent Big Data Resource Management www.bsc.es/eBusiness 17
  • 18. Colaboración con grupo LARCA http://recerca.upc.edu/larca/research-topics 18
  • 19. Experiencia en Big Data Application Data Target placement and management: Applications: scheduling: MapReduce Key-Value Data Analytics storage Bioinformatics Resultados científicos en Big Data: • 2 artículos en high level business performance goals • 2 artículos sobre nuevas arquitecturas Hardware • 2 artículos relacionados con energía 19
  • 20. Proyectos Big Data en curso Technology Goal Use case Collaborators involved Hadoop Snapshot isolation (support to Data Analytics IBM & online data generation) Cassandra High level performance goal and Data Analytics and Hadoop Life Science Dept. MapReduce automatic query configuration Bioinformatics (support to & (BSC) & NoSQL drug discovery) Cassandra Automatic configuration, data Bioinformatics (support to Life Science Dept. organization to meet high level Cassandra performance goals drug discovery) (BSC) In-Memory Bioinformatics Workflows (index construction, Bioinformatics (genomic IBM and Life SCM alignment, sorting, data PIMD sequencing) Science Dept. (BSC) processing) 20
  • 21. Nuestro escenario Gestión dinámica del procesado y almacenado con jerarquía de almacenamiento en nuevas plataformas hardware APPLICATION IN-MEMORY RDBMS  NoSQL In-Memory Storage Heterogeneous Hierarchy: Compute Nodes HDD+ SSD+ SCM + Cloud Computing 21