Big data Jornada Fundación Ramón Areces

675 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
675
On SlideShare
0
From Embeds
0
Number of Embeds
15
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Big data Jornada Fundación Ramón Areces

  1. 1. Un universo de datos. Elfenómeno Big Data y la Ciencia Joaquín Salvachúa @ DIT ETSIT UPM joaquin.salvachua@upm.es
  2. 2. Movimiento browniano• Movimiento aleatorio de particulas en un medio fluido.• Analizado en función de la agregación de los movimientos de las moléculas del agua.• ¿Que ocurriría si tuviesemos acceso a los movimientos de TODAS las moleculas del agua? (en vez de una agregación de datos).
  3. 3. Movimiento browniano social toda la• Actualmente podemos tener información de lo que realiza una persona.• ... Incluso lo que piensa, siente o desea (facebook, twitter, etc).• .. Movimientos (smartCity, smartCar).• El mundo como un gran fuente de datos.
  4. 4. Datos• Análisis en casi tiempo real.• Acceso a mayor cantidad de datos, de todo tipo, relevancia y veracidad.• Posiblidad de almacenarlos todos.• Posiblidad de procesar y guardar TODOS los datos. ( 1 W / n R ).
  5. 5. ¿Muerte del método científico?• ¿Modelo analítico? tengo datos...• Evitar razonar sobre el problema.• Ciencia guiada por datos.• El mundo como experimento (gripe)
  6. 6. Big Data• Capacidad de manipular grandes cantidades heterogeneas de datos. • Volumen • Variedad • Velocidad • Veracidad
  7. 7. Volumen grande• Es como lo de antes.. pero más • Bussines intelligence.• ¿Seguro?• ¿Podemos tener una hormiga de 10 m de largo?
  8. 8. Almacenamiento y procesado• Diversos enfoques para sistemas distribuidos.• Problemas de resistencia a caidas, dificultad de configuración etc.• Evitar que sea necesario manejar dichos datos.
  9. 9. Sistemas de almacenamiento• BigTable (google GFS ) 2006• Imitado en Hadoop (HDFS)• Almacen clave-valor sin estructura.• Discos baratos y fungibles (3 replicas)
  10. 10. P2P• Sistemas autoregulados y autoconfigurados.• Basados en DHT (Distributed Hash Tables)• Base de los sistemas de compartición de ficheros P2P.• Bases de datos NoSQL
  11. 11. • Sistema deMapReduce procesado distribuido autoorganizado y autosincronizado. • Diseñado por google (2004) • Estado en disco. • Dos fases.
  12. 12. Hadoop y otras hierbas.• Proyecto de software libre Apache que replica la infraestructura inicial de google.• Escrito en Java.• Diversas capas para que sea más sencillo usarlo.
  13. 13. Relación con CloudComputing• Despliegue de Hadoop en la nube.• Pagas por lo que gastas.• Soporte en los distintos proveedores.• Engarce con sistemas de almacenamiento y de procesado de valores.
  14. 14. Variedad• Manipulación de datos no estructurados, ni agregados.• Necesidad de “cocinarlos” previamente.• De múltiples fuentes no disjuntas: redundancia.• Sobrepasar las ideas de la fracasada web semántica. (enfoque más pragmatico).
  15. 15. Velocidad• Problema en transportar datos de un sensor a un almacenamiento o entre almacenamiento.• Necesidad de procesarlos rapidamente.• Esquemas similares a multimedia.• Uso de GPUs.• Procesado en “streamming”.
  16. 16. Visualización• Mark Twain : "Lies, damned lies, and statistics Visualization”.• Componente vital de todo análisis.• Parte artistica del análisis.• Nicho de gran futuro.
  17. 17. Privacidad• Cambio en el esquema.• Saben como nos comportamos (tipado de patos// duck-typing ).
  18. 18. ¿Nuestros datos? Internet of things Socialmedia
  19. 19. IoT & SmartCities• Fuente de datos en crudo.• Abundancia de sensores: nuevos API.• Problemas de almacenamiento: procesado distribuido.• Ciudades inteligentes: propiedad emergente de sistemas analizados con BigData.
  20. 20. Problemas prácticos• Podemos sintetizar atributos a los que debemos aplicar la ley de protección de datos. • Inferir sexo, orientación sexual, religión.• Dificultad de la anonimización de los datos: esquemas de federación de busquedas- resultados.
  21. 21. Cerrando el bucle
  22. 22. Periodismo de datos• Importancia de saber procesar datos no solo por científicos.• Importante para la sociedad.• OpenData• Necesidad de entornos sencillos.
  23. 23. “Los limites de mi lenguajeson los limites de mi mundo”• R : Comunidad y flexibilidad• Julia : Rapidez.• NumPy (selección por parte de Darpa)
  24. 24. Problemas clásicos• Lo ha dicho el “BigData”: Eliminación de teletrabajo en Yahoo (Marisa Mayer).• GarbageIn-Garbage-Out
  25. 25. Social Media.• Importancia del analisis basado en ciencia de redes.• Extrapolable a otros campos.• el Grafo social como “mi tesoro”.• Ciencia de las redes.• Necesidad de avances teóricos.
  26. 26. Problemas de procesado de grafos• Almacenamientos poco orientado a análisis de grafos• Nuevos enfoques• (Google Pregel 2010) • ¿ enfoque correcto ?
  27. 27. Future InternetFI-ware Fi-ppp
  28. 28. Triste es pedir... pero más triste es robar.• Dificultad de acceder a “datasets” interesantes.• ¿Es realmente el nuevo petroleo?• Enfoques abiertos y colaborativos.
  29. 29. ¿ Preguntas?

×