Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20170130 openclass como introducirse en el big data definitiva

1,019 views

Published on

Presentación de la Openclass "Como introducirse en el Big Data" realizada el 30 de enero de 2017 dentro de la serie de Openclass asociadas al Master de Visual Analytics and Big Data de UNIR

Published in: Data & Analytics

20170130 openclass como introducirse en el big data definitiva

  1. 1. Como introducirse en el Universo Big Data Antonio Pita Lozano 30 de enero de 2016 Openclass online Del Dato al Conocimiento
  2. 2. Noticias Big Data: Mercado El Big Data continuará creciendo en los próximos años Del Dato al Conocimiento
  3. 3. Noticias Big Data: España Fase eliminatoria Las grandes compañías españolas están apostando por el Big Data Del Dato al Conocimiento
  4. 4. ¿Qué es el Big Data? El Big Data es un buzzword que engloba a conceptos tecnológicos (ej Hadoop) y de negocio (ej Advanced Analytics) Tecnología Negocio Del Dato al Conocimiento
  5. 5. Variedad Volumen ¿Qué es el Big Data? Las V’s del Big Data El Big Data permite procesar grandes cantidades de datos de diversos formatos en tiempo reducidos. Velocidad http://www.mkomo.com/cost-per-gigabyte http://pointsandfigures.com/2015/04/18/moores-law/ L E Y D E M O O R E Aumento de la capacidad de procesado permite procesar mayor cantidad de datos, ejecutar algoritmos más complejos en menos tiempo http://www.smartdatacollective.com/ram-subramanyam-gopalan/45986/unstructured-data-myth La reducción del coste de almacenamiento permite almacenar grandes cantidades de datos Proliferación de información no estructurada (video, audio, imágenes, texto,…) Veracidad Valor Visualización Variabilidad ¿Cómo se puede asegurar la veracidad de la información capturada? ¿Cómo se puede extraer valor de toda la información disponible? ¿Cómo se puede mostrar los resultados de forma clara, sencilla y veraz? ¿Cómo se puede mantener los procesos y análisis en un entorno tan variable? Del Dato al Conocimiento
  6. 6. ¿Qué es el Big Data? Big Data Landscape En los últimos años están proliferando las tecnologías Big Data 2012 2016 Del Dato al Conocimiento
  7. 7. Principal aplicación: Sistemas de Información Los sistemas de información están evolucionando utilizando tecnologías Big Data y técnicas de Advanced Analytics Del Dato al Conocimiento
  8. 8. Almacenamiento Sistemas de Información: Capacidades El tratamiento de información requiere conocimientos multidisciplinares y múltiples tecnologías Captura Tratamiento Puesta en Valor Del Dato al Conocimiento Los datos pueden proceder de diversas fuentes y formatos que tiene que capturarse para enriquecer los sistemas de información La información debe mantenerse en sistemas adecuados a las características de la información y su uso Para extraer conocimiento de los datos es necesario tratarlos mediante técnicas analíticas Los resultados deben ser presentados de forma adecuada en función del público objetivo Todos los procesos de gestión de la información deben considerar aspectos transversales como la calidad de la información, la trazabilidad, la seguridad, la privacidad y el gobierno de las tecnologías, usuarios y datos. Web Scraping API Sistemas NoSQL XML / JSON Estadística Machine Learning Visualización Dashboards Tableau D3 R/Python Spark Hadoop MongoDB Flume Kafka Ejemplos de capacidades Ejemplos de tecnologías
  9. 9. Almacenamiento Infraestructura Sistemas de Información: Detalle Conceptual Los sistemas informacionales varían en función a la finalidad de la gestión de la información Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Del Dato al Conocimiento
  10. 10. Almacenamiento Infraestructura Sistemas de Información: Pequeño Comercio Los sistemas más sencillos se basan en tratamiento estadístico básico (medias) sobre ficheros u hojas de cálculo Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Del Dato al Conocimiento
  11. 11. Almacenamiento Infraestructura Sistemas de Información: Reporting Ventas Un ejemplo de sistema de reporting centralizado Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Del Dato al Conocimiento
  12. 12. Almacenamiento Infraestructura Sistemas de Información: Recomendador de películas Hay tanas tipologías de sistemas informacionales como casos de uso Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Del Dato al Conocimiento
  13. 13. Noticias Big Data: Perfiles Profesionales Los perfiles profesionales asociados al Big Data tendrán gran demanda. Los campos principales son Tecnologías de la Información y Análisis e Investigación Del Dato al Conocimiento
  14. 14. ¿Quién se introduce en el universo Big Data? Perfiles Tradicionales • Analista de Negocio Business Intelligence • Analista Tecnológico Business Intelligence • Analista de Calidad del Dato • Administrador de Bases de Datos Relacionales SQL • Arquitecto Tecnológico • Estadístico • Experto de Machine Learning • Experto en otros dominios • Administrador de sistemas … Perfiles Big Data • Arquitecto Big Data • Ingeniero de Datos Big Data • Científico de Datos • Experto en Visualización • Analista de Business Analytics • Chief Data Office • Ciberseguridad • Experto en Cloud Computing • Administrador de Bases de Datos distribuidas NoSQL • Analista Open Data • Experto en APIs • Administrador de sistemas Big Data … Recién Titulados • Perfiles Tecnológicos • Perfiles Científicos • Perfiles Empresariales • Perfiles Lingüistas • Perfiles Creativos • Otros Perfiles Ilustrativa no exhaustiva con fines docentes Del Dato al Conocimiento
  15. 15. Almacenamiento Infraestructura Big Data: Arquitecto Big Data Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Adecuación de problemas de negocio a tecnologías • Diseño de arquitectura tecnológica y funcional Básico Evolución Tecnologías • Múltiples tecnologías de todos los ámbitos Principales Retos • Diversidad de tecnologías • Rápida evolución • Compatibilidad entre tecnologías Del Dato al Conocimiento
  16. 16. Almacenamiento Infraestructura Big Data: Ingeniero de Datos Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Captura de información de todas las fuentes en diversos formatos • Tratamiento de la información • Desarrollo del modelo de datos • Implementación de Modelos Básico Evolución Tecnologías • Herramientas ETL • Lenguajes de programación • Lenguaje de base de datos • Herramientas de desarrollo Principales Retos • Integración de fuentes de datos • Desarrollo de sistemas de disposición de datos mediante API • Virtualización de datos Del Dato al Conocimiento
  17. 17. Almacenamiento Infraestructura Big Data: Científico de Datos Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Tratamiento de información • Análisis de la información • Modelos predictivos • Soluciones basadas en datos Básico Evolución Tecnologías • Lenguajes de programación • Paquetes estadísticos • Lenguajes de bases de datos • Herramientas de visualización Principales Retos • Tener una visión global del proceso de gestión de la información desde la captura hasta la puesta en valor Del Dato al Conocimiento
  18. 18. Almacenamiento Infraestructura Big Data: Chief Data Officer Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Diseño del modelo de datos • Análisis de calidad del dato • Gobierno del dato • Seguridad y privacidad • Cumplimiento normativo Básico Evolución Tecnologías • Herramientas de data quality • Herramientas de trazabilidad • Herramientas de seguridad Principales Retos • Asegurar la calidad de los datos • Asegurar la coherencia y consistencia de la información • Asegurar la seguridad y privacidad de los datos Del Dato al Conocimiento
  19. 19. Almacenamiento Infraestructura Profesionales: Analista de Negocio BI Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Interpretación de resultados • Presentación de resultados • Propuestas de mejora de Negocio Básico Evolución Tecnologías • Herramientas ofimáticas • Access • Herramientas BI (usuario) Principales Retos • Acceder a información más granular • Introducir predicciones y escenarios simulados • Asegurar la veracidad Del Dato al Conocimiento
  20. 20. Almacenamiento Infraestructura Profesionales: Analista Tecnológico BI Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Tratamiento de datos mediante procesos áutomatizados • Desarrollo de Informes y Reportes Básico Evolución Tecnologías • Herramienta ETL • Planificador de procesos • Herramientas BI (desarollo) Principales Retos • Incluir predicciones • Mejorar la presentación de resultados mediante técnicas de visualización • Usar datos no estructurados Del Dato al Conocimiento
  21. 21. Almacenamiento Infraestructura Profesionales: Estadístico Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Análisis de datos • Inferencia de resultados • Modelos predictivos • Diseño de experimentos • Calidad del dato Básico Evolución Tecnologías • Paquetes estadísticos • Herramientas de visualización Principales Retos • Presentación de resultados a perfiles no científicos. • Tratamiento de información no estructurada • Tratamiento de grandes volúmenes de datos Del Dato al Conocimiento
  22. 22. Almacenamiento Infraestructura Recién Titulados: Perfiles Tecnológicos Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Programación • Infraestructuras tecnológicas • Bases de datos Básico Evolución Tecnologías • Lenguajes de programación • Lenguajes de bases de datos Principales Retos • Multitud de tecnologías Big Data • Tratamiento de información • Interpretación Estadística Del Dato al Conocimiento
  23. 23. Almacenamiento Infraestructura Recién Titulados: Perfiles Científicos Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Análisis científico • Modelos predictivos • Análisis de calidad de información Básico Evolución Tecnologías • Lenguajes de programación • Paquetes estadísticos Principales Retos • Tratamiento de información en sistemas informacionales • Puesta en valor de modelos • Tratamiento de información no estructurada Del Dato al Conocimiento
  24. 24. Almacenamiento Infraestructura Recién Titulados: Perfiles Empresariales Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Presentación de resultados • Propuestas de acciones de negocio • Toma de decisiones Básico Evolución Tecnologías • Herramientas ofimáticas Principales Retos • Extraer la información de bases de datos SQL y NoSQL • Interpretar los análisis estadísticos • Desarrollar Dashboards Del Dato al Conocimiento
  25. 25. Almacenamiento Infraestructura Recién Titulados: Perfiles Lingüistas Captura Tratamiento Puesta en Valor Ficheros / Informes Aplicaciones Internas Bases de datos externas Web Scraping / API Redes Sociales Imágenes Ficheros / Hojas de cálculo Bases de datos SQL Bases de datos NoSQL Modelización de datos Estadística Inteligencia Artificial Reportes/Informe Productos y Servicios de dato Sistemas de decisión autónomosLocal DWH Datamart Ficheros / Logs Texto Imágenes Onpremise Descriptiva Inferencial Predictiva Bayesiana Machine Learning APIs DOC Excel PPT Infografías / Dashboards Visualizaciones Interactivas Agregadores de Información Sistemas Personalizados Seguridad Calidad del Dato Procesamiento del Lenguaje Natural Aprendizaje cognitivo Herramientas Analíticas Videos Sensores (IOT) Sonido Video Minería de Texto Bases de datos internas ProcesosBatch ProcesosStreaming Cloud DatoMuerto DatoVivo Gobierno Modelos Predictivos Herramientasolenguajesdetratamiento/ETL HerramientasdeAnalíticaAvanzada Infraestructura Tecnológica Data Lake Capacidades • Análisis sintáctico • Análisis semántico • Análisis morfológico Básico Evolución Tecnologías • Ninguna inicialmente Principales Retos • Desarrollar capacidades tecnológicas y de tratamiento de la información Del Dato al Conocimiento
  26. 26. Resumen El Big Data facilita la transformación de datos en conocimiento accionable Del Dato al Conocimiento Captura de la Información Almacenamiento de la Información Tratamiento de la Información Puesta en Valor Big Data ¿Qué datos necesito para resolver mi problema? ¿Cómo almaceno los datos de forma conveniente? ¿Cómo puedo extraer conocimiento de los datos? ¿Cómo utilizo los resultados para resolver mi problema? Web Scraping / API Machine Learning Bases de datos NoSQL Visualizaciones Interactivas
  27. 27. Como introducirse en el Universo Big Data Antonio Pita Lozano 30 de enero de 2016 Openclass online Del Dato al Conocimiento

×