Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Taller de Big Data y Ciencia de Datos en COLMEX dia 1

737 views

Published on

Una revisión con enfoque práctico de #BigData.

Published in: Data & Analytics
  • Be the first to comment

Taller de Big Data y Ciencia de Datos en COLMEX dia 1

  1. 1. @abxda Curso de Big Data y Ciencia de Datos 20 Junio 2016 C. Dr. Elio Villaseñor M. en C. Abel Alejandro Coronado Iruegas
  2. 2. @abxda
  3. 3. ¿Qué es Big Data? Perfiles de https://www.researchgate.net/ Cómputo Paralelo y Distribuido @abxda
  4. 4. ¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ @abxda
  5. 5. ¿Qué es Big Data? @abxda
  6. 6. ¿Qué es Big Data? @abxda
  7. 7. Según Gartner: Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
  8. 8. ¿Qué es Big Data? Diciembre 2004 Octubre 2003 @abxda
  9. 9. ¿Qué es Big Data? @abxda
  10. 10. Hadoop (2006 - 2008) @abxda
  11. 11. Hadoop (2006 - 2008) @abxda
  12. 12. ¿Qué es Big Data? (2009 – 2016…) @abxda
  13. 13. Matei Zaharia Ion Stoica (2009 – 2016…) @abxda
  14. 14. Big Money 2014 @abxda
  15. 15. (2013) @abxda
  16. 16. 2.0 soon 2016 … @abxda Resilient Distributed Dataset <<RDD>> @abxda
  17. 17. 2016 … http://gerardnico.com/wiki/spark/rdd Resilient Distributed Dataset <<RDD>> @abxda
  18. 18. 2016 … http://www.bogotobogo.com/Hadoop/BigData_hadoop_Apache_Spark_Programming_Model_RDD.php Resilient Distributed Dataset <<RDD>> @abxda
  19. 19. http://spark.apache.org/ @abxda
  20. 20. Big Data en las Oficinas de Estadística Oficial http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184 Comisión Económica de las Naciones Unidas para Europa @abxda
  21. 21. Big Data en las Oficinas de Estadística Oficial • It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept. • Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose. (2013) @abxda
  22. 22. Big Data en las Oficinas de Estadística Oficial • 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing. • To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) (2013) @abxda
  23. 23. @abxda
  24. 24. http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html Experto en computación y desarrollo avanzados (Big Data) Experto en Modelado Estadístico Experto en el dominio de datos Unicornio Zona peligrosa! Investigación tradicional Machine learning CIENCIA DE DATOS @abxda
  25. 25. Equipo Big Data – Expertos en el Dominio de los Datos, Especialistas en el área de interés.(Economistas, Expertos en percepción remota, Psiquiatras, etc…) – Científicos de Datos, expertos en integracion de soluciones Big Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística). – Estadisticos, expertos en modelado estadistico, enfoque en aprendizaje estadístico (R). – Desarrolladores de Software, expertos en desarrollo de software (JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST). – Diseñadores Gráficos, expertos en presentación de información (HTML5, CSS3, JavaScript, Twitter Bootstrap). – Administradores de Sistemas, expertos en arquitecturas de
  26. 26. Arquitectura Genérica Big Data/Ciencia de Datos @abxda
  27. 27. @abxda
  28. 28. ¿Qué clase de #BigData es esta? En operaciones de Machine Learning, una sola tarjeta de Video, es 45 veces mas poderosa que el XEON mas rápido. 2560 CUDA CORES @abxda
  29. 29. %Acceso a Internet, %Pc, %Teléfono Celular, %Automovil En la misma Pc de 4 Procesadores: (2013) Software Tiempo Manzanas Big Data (Spark) 8 Seg. 1’221,18 0 Tradicional (R) 8 Seg. 2,666 https://spark.apache.org/ 2013 @abxda
  30. 30. TWITTER COMO FUENTE DE BIG DATA (PRIMER PROYECTO PILOTO) Intentar medir el sentimiento de los Tuiteros Mexicanos …y mucho más … @abxda
  31. 31. Hydra Octubre 2013 @abxda
  32. 32. https://www.elastic.co/products/logstash @abxda
  33. 33. @abxda
  34. 34. @abxda
  35. 35. @abxda
  36. 36. @abxda
  37. 37. Visualización de la Base de Datos 200 Millones de Tuits 400 Gb 800 Mb Diarios @abxda
  38. 38. ~100 Millones de Tuits Visualización de la Base de Datos @abxda
  39. 39. # Tuits Frecuencia por hora del día ~1,000,000 Tuiteros generaron ~ 100 Millones de Tuits @abxda
  40. 40. Movilidad de los Tuiteros 4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros @abxda
  41. 41. Red Nacional de Caminos y Twitter @abxda
  42. 42. Red Nacional de Caminos y Twitter @abxda
  43. 43. DENUE & Twitter @abxda
  44. 44. DENUE & Twitter @abxda
  45. 45. DENUE & Twitter @abxda
  46. 46. DENUE & Twitter @abxda
  47. 47. ¿De dónde provienen los tuiteros de los hoteles? @abxda
  48. 48. ¿Qué se dijo cerca de los Hoteles? @abxda
  49. 49. Horarios de Tuiteo cerca de algún sector @abxda
  50. 50. ¿Qué se dijo cerca de los Bares? @abxda
  51. 51. Equipo de Trabajo Medición del Sentimiento de los Tuiteros Mexicanos Y el apoyo de: Y en la parte de visualización: @abxda
  52. 52. Proceso de Clasificación Manual @abxda
  53. 53. @abxda
  54. 54. @abxda http://www.inegi.org.mx/inegi/contenidos/investigacion/experimentales/animotuitero/default.aspx
  55. 55. Preguntas @abxda
  56. 56. abel.coronado@inegi.org.mx Twitter : @abxda https://abxda.wordpress.com/

×