Uploaded on

Qué tecnologías están sustentando el Big Data ¿Cuáles son sus retos? …

Qué tecnologías están sustentando el Big Data ¿Cuáles son sus retos?
IDC, Madrid

More in: Sports
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
664
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
48
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Qué tecnologíasestán sustentandoel Big Data Jordi Torres¿Cuáles son sus UPC/BSCretos? Madrid - 18/09/2012
  • 2. Marea deinformación
  • 3. Marea deinformación 2009: 0,8 Zettabytes(*) 1 Zettabyte (ZB) = 1.000.000.000.000 GB 1 Gigabyte (GB) = 1.000.000.000 bytes
  • 4. Marea deinformación 2009: 0,8 Zettabytes(*) 1 Zettabyte (ZB) = 1.000.000.000.000 GB 2020: 35,2 Zettabytes 1 Gigabyte (GB) = 1.000.000.000 bytes
  • 5. 3 V y…2009:0,8 Zettabytes 2020: 35,2 Zettabytes
  • 6. ¡ LA PREGUNTA !
  • 7. ¿Vamos a podercon todo ello? ¡ LA PREGUNTA !
  • 8. ¿Vamos a podercon todo ello? ¡ LA PREGUNTA !¿Qué se está yaofreciendo einvestigando?
  • 9. ¿Vamos a podercon todo ello? Tiempo de respuesta GBs Volumen de datos PBs
  • 10. ¿Vamos a podercon todo ello? Tiempo de respuesta ? !Se ha desbordado la capacidad de las tecnologías actuales! GBs Volumen de datos PBs
  • 11. AlmacenamientoQué tecnologías Gestiónestán sustentandoel Big Data Procesado¿cuáles son susretos? Análisis …
  • 12. Almacenamiento¡Más y más rápido! vsHHD 100 más barato que RAMPero 1000 veces más lento
  • 13. Almacenamiento¡Más y más rápido! Propuesta actual Solid- state drive (SSD) además no volátil
  • 14. Almacenamiento¡Más y más rápido! Propuesta actual Solid- state drive (SSD) además no volátil Investigación Storage Class Memory (SCM)
  • 15. Gestión¡Las BD relacionalesno pueden con todo!p.ej. “esquemas” o las Atomicity,propiedades ACID Consistency, Isolation & Durability
  • 16. Gestión Propuesta actual “NO SQL systems”¡Las BD relacionalesno pueden con todo! Nuevas propiedades BASE: Basically Available, Soft state, Eventual consistency Ej. Facebook Investigación Self-* NoSQL systems
  • 17. ProcesadoHacen falta nuevosmodelos programaciónentornos masivamenteparalelos+distribuidosy tolerante a fallos
  • 18. Procesado Propuesta actual “LA” soluciones open sourceHacen falta nuevosmodelos programación y propietarias Tiempo de respuesta GBs PBs
  • 19. Difícil pensar en MapReduce + NoSQL Hace falta“DESAPRENDER”
  • 20. Difícil pensar en Solución(open source) Hbase/Cassandra MapReduce Niveles de (No-SQL system) abstracción + Hive NoSQL (SQL based language) Pig (Data Flow Language) Hace falta“DESAPRENDER” Solución (industria) Por ejemplo SQL+NoSQL
  • 21. SQL+NoSQL: Data ETL Normalized data Data ETL Normalized data DataWarehouse Hadoop ODBC Business Users Data driver Business Analysts Data Etc. Data p.ej. integrar funcionalidades MapReduce Conectores MapReduce para DW …
  • 22. Escenario que tendremos: Investigación Gestión integrada de: APPLICATION • la jerarquía de almacenamiento, • transparente al usuario IN-MEMORY • autogestionada para ser optimizada • … RDBMS
  • 23. Análisis probablemente ¡EL RETO MÁS IMPORTANTE! para ustedes
  • 24. Análisis- datos +Valor Volumen información+ conocimiento -
  • 25. Análisis Propuesta actual Data Mining,- datos Machine Learning , + ….Valor Volumen información Investigación La mayoría de algoritmos se ejecutan bien en miles de+ registros, pero son hoy por conocimiento hoy impracticables en miles de - millones. ¡En ello estamos!
  • 26. Análisis Investigación¿Reflejo de los La mayoría de algoritmos se avances ejecutan bien en miles de registros, pero son hoy por actuales? hoy impracticables en miles de millones. ¡En ello estamos!
  • 27. O cada uno ensu casa … Source: http://www.smartplanet.com/blog/business-brains/retailer-or-a-data-company-wal-mart-is-now-both/20850
  • 28. “Oddly, machine learning researchmirrors the way cryptography researchdeveloped around the middle of the20th century. Much of the cutting edgeresearch was done in secret, and we’reonly finding out now, 40 or 50 yearslater, what GCHQ or the NSA was doingback then. I’m hopeful that it won’t takequite that long for Amazon or Google totell us what they’re thinking abouttoday.” (pag 49) Alasdair Allan, senior research fellow in Astronomy at the University of Exeter
  • 29. Categorization (un-supervised) : .K-means clustering . Association Rules ¿Es fundamental .…Regression para su negocio . Linear . Logistic dominarClassification (supervised) . Naïve Bayesian classifier internamente en . Decision Trees sus empresas las . Time Series Analysis . Text Analysis tecnologías de . … Machine Learning?
  • 30. ¿O quizás no?¿El método realmenteimporta en Big Data?
  • 31. Ej:Text processing Ej. Clásico: Para Banko and Brill (2001) ¿Parece que los datos son más importantes que los métodos?
  • 32. En definitiva …“machine learning ¿Qué piensan algorithms really ustedes? don’t matter, allthat matters is the amount of data ¿Son you have” necesarias estas skills?
  • 33. Mi visión: Cloud Computing + HPC Big Data(no estamos en el nivel de maduración del Cloud) Data Analysis & Prediction … DE QUE VOY A DAR CLASES YO EN BARCELONA!!!!!!!!! Smart Computing
  • 34. Más información del tema: Más información del autor: Profesor e investigador en nuevas tecnologías TIC Actúa como experto para diferentes organizaciones públicas Consultor tecnológico, miembro de consejo de administración Imparte conferencias y colabora con diferentes medios de comunicación www.JordiTorres.eu Editorial UOC, Octubre 2012 @JordiTorresBCN Creative Commons 3.0
  • 35. ¡Gracias porsu atención! Pero … especialmente a: www.bsc.es/eBusiness