Seminario BI CLEFormación

1,394 views
1,278 views

Published on

Resumen de nuestro último seminario técnico gratuito "Business Intelligence al descubierto. Tendencias actuales" ,un evento en el que se dio respuesta a los eternos interrogantes de este sector. Analizamos el presente y futuro del Business Intelligence (BI), yendo de lo general a lo particular.

Dirigido a profesionales del Marketing, Comercial y de las Tecnologías de la Información con un perfil técnico.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,394
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
58
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Seminario BI CLEFormación

  1. 1. Business Intelligence al descubierto Tendencias actuales 05 de Junio 2014 CLE Formación
  2. 2. Índice • Qué es Business Intelligence (BI). Definición de BI • Que puede aportar el BI a la empresa • Soluciones actuales de BI • Herramientas y plataformas más utilizadas en la actualidad • Tendencias previstas en BI en los próximos años
  3. 3. ¿Qué es Business Inteligence?
  4. 4. • ¿Qué es Business Intelligence? – Conjunto de sistemas y tecnologías que están enfocadas a la toma de decisiones en la empresa. – Para poder sacar partido a esta tecnología debemos conocer la información que hay en la empresa y como podemos explotarla Introducción
  5. 5. • Existen tres tipos de información: –Información técnico/operativa –Información táctica –Información estratégica Introducción
  6. 6. • Información técnico/operativa – La usa el personal técnico y operativo para mantener el negocio funcionando. – Usada sobre todo en sistemas transaccionales. Introducción
  7. 7. • Información táctica – Usada por responsables y coordinadores de operaciones para dirigir los trabajos del personal a su cargo. – Los datos están en los sistemas de inteligencia de negocio Introducción
  8. 8. • Información estratégica – Usada por altos directivos para decidir la marcha global y las líneas estratégicas de la empresa. – Los datos están en los sistemas de inteligencia de negocio Introducción
  9. 9. Introducción BUSINESS INTELLIGENCE BUSINESS OPERATION
  10. 10. • Datos: Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de información que por sí solos son irrelevantes como apoyo a la toma de decisiones. • También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qué de las cosas y no son orientativos para la acción. Introducción
  11. 11. • Información: un conjunto de datos procesados y que tienen un significado (relevancia, propósito y contexto), y que por lo tanto son de utilidad para quién debe tomar decisiones, al disminuir su incertidumbre. • Los datos se pueden transforman en información añadiéndoles valor: • Contextualizando • Categorizando • Calculando. • Corrigiendo • Condensando Introducción
  12. 12. • Conocimiento: es una mezcla de experiencia, valores, información, que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción. Introducción
  13. 13. • El conocimiento se deriva de la información, así como la información se deriva de los datos. • Para que la información se convierta en conocimiento es necesario realizar acciones como: – Comparación con otros elementos. – Predicción de consecuencias. – Búsqueda de conexiones. – Conversación con otros portadores de conocimiento. Introducción
  14. 14. Introducción
  15. 15. Introducción
  16. 16. Introducción
  17. 17. • La información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. • Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales y/o transaccionales). Introducción
  18. 18. • Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). • Uso de la base de datos transaccional para: – Se mantiene el trabajo transaccional diario de los sistemas de información originales (OLTP, On-Line Transactional Processing). – Además se puede hacer análisis de los datos en tiempo real sobre la misma base de datos. Introducción
  19. 19. • Problemas: – Perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana. – La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real . Introducción
  20. 20. • Adicionalmente – Los costes de almacenamiento y conectividad se han reducido en últimos años, – Parece razonable recoger los datos (información histórica) en un sistema separado y específico. – Data warehouse (Almacenes o Bodegas de Datos) – Nace Data-Warehousing. Introducción
  21. 21. CONCEPTOS
  22. 22. • Data Warehouse – Repositorio completo de datos de la empresa, donde se almacenan datos estratégicos, tácticos y operativos, con el objeto de obtener información estratégica y táctica. Introducción
  23. 23. • Data Warehouse – El almacén de datos es ahora el “sistema de información central” en todo este proceso. – Un almacén de datos es una colección de datos: • orientada a un dominio • integrada • no volátil • variante en el tiempo – Para ayudar en la toma de decisiones. Introducción
  24. 24. • Data Warehouse Introducción
  25. 25. • Data Warehouse Introducción
  26. 26. • Data Warehouse Introducción
  27. 27. • Data Warehouse Introducción
  28. 28. • Data Warehouse Introducción
  29. 29. • Data Warehouse Introducción
  30. 30. • Data Warehouse Introducción
  31. 31. • Data Warehouse Introducción
  32. 32. • Data Warehouse Introducción
  33. 33. • Data Warehouse Introducción
  34. 34. • Data Warehouse Introducción
  35. 35. • Arquitectura de un Data Warehouse • Componentes: – Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del Data Warehouse, realizando: • Extracción de los datos. • Filtrado de los datos: limpieza, consolidación, etc. • Carga inicial del almacén: ordenación, agregaciones, etc. • Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos. Introducción
  36. 36. • Arquitectura de un Data Warehouse • Componentes: – Repositorio Propio de Datos: información relevante, metadatos. – Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). – Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ... Introducción
  37. 37. • Data Mart Introducción
  38. 38. • DataMart Introducción
  39. 39. • DATAMART • Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. • Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. • Un datamart puede ser alimentado desde los datos de un Datawarehouse Introducción
  40. 40. • OLAP Introducción
  41. 41. • OLAP Introducción
  42. 42. • OLAP • En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (también llamado cubo multidimensional o hipercubo). Se compone de hechos numéricos o medidas, que se clasifican por dimensiones. Introducción
  43. 43. • ROLAP – Almacena los datos en un motor relacional. Típicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran desnormalizadas. – Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve. – Arquitectura está compuesta por un servidor relacional y el motor OLAP se encuentra en un servidor dedicado. • MOLAP – Esta implementación OLAP almacena los datos en una base de datos multidimensional. – Para optimizar los tiempos de respuesta, el resumen de la información es usualmente calculado por adelantado. – Estos valores precalculados o agregaciones son la base de las ganancias de desempeño de este sistema. – Algunos sistemas utilizan técnicas de compresión de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados. • HOLAP (Hybrid OLAP) – Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional. Introducción
  44. 44. • OLAP Introducción
  45. 45. • OLAP Introducción
  46. 46. • OLAP y OLTP Introducción
  47. 47. • OLAP Introducción
  48. 48. • Herramientas OLAP Introducción
  49. 49. Datamining
  50. 50. Datamining
  51. 51. Datamining
  52. 52. Datamining
  53. 53. Datamining
  54. 54. Datamining
  55. 55. Datamining
  56. 56. Datamining
  57. 57. Datamining
  58. 58. • OLAP y DataMining Introducción
  59. 59. • OLAP y DataMining Introducción
  60. 60. Productos de Acceso a Datos • Sistemas de soporte a decisiones (DSS • Sistemas de información ejecutiva
  61. 61. • EIS (Sistema de Informacion Ejecutivos) • EIS ofrece un conjunto de escenarios o dashboards, compuestos por una serie de herramientas visuales e interactivas. • Estas herramientas permiten a los usuarios identificar rápidamente el estado de alguno de los indicadores de su interés y que además puede proveer de detalles y análisis inmediato, con el fin de presentar alarmas visibles al usuario ante situaciones criticas, de forma que estos realicen seguimiento a los datos asociados para identificar la razón de un comportamiento o evento no esperado. Introducción
  62. 62. • EIS (Sistema de Informacion Ejecutivos) • EIS ofrece un conjunto de escenarios o dashboards, compuestos por una serie de herramientas visuales e interactivas. • Estas herramientas permiten a los usuarios identificar rápidamente el estado de alguno de los indicadores de su interés y que además puede proveer de detalles y análisis inmediato, con el fin de presentar alarmas visibles al usuario ante situaciones criticas, de forma que estos realicen seguimiento a los datos asociados para identificar la razón de un comportamiento o evento no esperado. Introducción
  63. 63. • EIS (Sistema de Informacion Ejecutivos) Introducción
  64. 64. • BSC • El Balanced Scorecard o Tablero de Control, esta enfocado a proveer a una organización de mecanismos por los cuales establecer objetivos o metas y realizarles seguimientos a través de vistas informativas que muestran su estado y avance a través de la utilización de alertas, semáforos u otras utilidades visuales con las que un usuario desee monitorear sus datos. Introducción
  65. 65. • Cuadros de mandos • Un cuadro de mando es un conjunto de indicadores que aportan información sumarizada y que aporta datos de forma rápida y visual al usuario. Introducción
  66. 66. • Data Discovery – Palabro que se utiliza para muchas cosas – En realidad pretende identificarse con herramientas que permiten una granfacilidad de uso de las herramientas a utilizar y que además generan datos visuales atractivos y de gran impacto. – Las dos acceden a Data o BigData pero Data Discovery está más enfocado a usuarios finales y a la capacidad de hacer informes dinámicos de una forma potentes – Ejemplos son TabLeau Desktop, Cognos Insight…. Introducción
  67. 67. • ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and Load). Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. • Los procesos ETL también se pueden utilizar para la integración con sistemas heredados (aplicaciones antiguas existentes en las organizaciones que se han de integrar con los nuevos aplicativos, por ejemplo, ERP´s. La tecnología utilizada en dichas aplicaciones puede hacer dificil la integración con los nuevos programas). Introducción
  68. 68. • EXTRAER – La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. – Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. Introducción
  69. 69. • EXTRAER – Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la pauta o estructura que se esperaba. De no ser así los datos son rechazados. – Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto sea nulo o mínimo. Introducción
  70. 70. • TRANSFORMAR • La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones: – Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen). – Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y “M” para Mujer pero el destino tiene que guardar “1″ para Hombre y “2″ para Mujer). – Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1″). Introducción
  71. 71. • TRANSFORMAR – Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio). – Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.). – Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región). – Generación de campos clave en el destino. – Transponer o pivotar (girando múltiples columnas en filas o viceversa). – Dividir una columna en varias (por ejemplo, columna “Nombre: García, Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”). Introducción
  72. 72. • CARGA – La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la información antigua con nuevos datos. Los data warehouse mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo. Introducción
  73. 73. • CARGA • Existen dos formas básicas de desarrollar el proceso de carga: – Acumulación simple: La acumulación simple es la más sencilla y común, y consiste en realizar un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data warehouse, almacenando un valor calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud considerada. – Rolling: El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.). Introducción
  74. 74. • En definitiva, una solución BI completa permite: • Observar ¿qué está ocurriendo? • Comprender ¿por qué ocurre? • Predecir ¿qué ocurriría? • Decidir ¿qué camino se debe seguir? Introducción
  75. 75. Qué aporta a la empresa
  76. 76. Qué aporta a la empresa Generar reportes globales o por secciones. Crear una base de datos de clientes. Crear escenarios con respecto a una decisión. Hacer pronósticos de ventas y devoluciones. Compartir información entre departamentos. Análisis multidimensionales. Generar y procesar datos. Cambiar la estructura de toma de decisiones. Mejorar el servicio al cliente
  77. 77. Qué aporta a la empresa • Análisis de ventas • Detección de clientes importantes • Análisis de productos, líneas, mercados • Pronósticos y proyecciones. Ventas • Segmentación y análisis de clientes • Seguimiento a nuevos productos.Marketing • Análisis de gastos • Rotación de cartera • Razones Financieras. Finanzas • Productividad en líneas • Análisis de desperdicios • Análisis de calidad • Rotación de inventarios y partes críticas. Manufactura • Seguimiento de embarques • Motivos por los cuales se pierden pedidos.Embarques
  78. 78. ¿Qué aporta a la empresa? • Control del negocio – Mejor acceso a la información • Ahorro en costes • Tomar decisiones más eficaces y más rápidas • Oportunidades de negocio • Implementación de procesos automáticos • Eliminación de informes manuales • …..
  79. 79. ¿Qué aporta a la empresa? • Oportunidades de negocio – Generará 4,4 millones de puestos de trabajo a nivel mundial para 2015 – Incremento del 7% en inversión para BI durante el próximo año – Un 74% de las organizaciones han invertido o planean invertir en Big Data durante 2014 – Es el momento de invertir esfuerzos y recursos en ofrecer a los clientes soluciones BI
  80. 80. ¿Qué aporta a la empresa? • Oportunidades de negocio
  81. 81. • Posibles preguntas – ¿Puedo obtener información adecuada de mi negocio? – ¿Tiene un precio razonable? – ¿Puedo obtener un valor tangible en un plazo razonable? – ¿Mis datos están seguros? – ¿Cuantos recursos físicos necesito? – ¿Como es de fácil integrarlo con los datos actuales de mi negocio? – ¿Los usuarios básicos podrán acceder a la informaciónd e forma rápida y sencilla? – ¿Puedo escalar la solución? Introducción
  82. 82. • HERRAMIENTAS Y SOLUCIONES ACTUALES
  83. 83. • Fabricantes actuales
  84. 84. • Fabricantes actuales
  85. 85. • Posibles alternativas – Sistemas tradicionales. Suites completas de productos • IBM Cognos, Oracle OBI, SAP BO, Microstrategy.. – BI OpenSource • QlikView, Pentaho – BI en Cloud • Birst… Introducción
  86. 86. • Diferencias Introducción BI PROPIETARIO BI OPEN SOURCE Coste de licencias Sin coste de licencias Soporte del fabricante Soporte con coste adicional Errores resueltos por fabricante Errores resueltos por fabricante, la comunidad, partners,etc… Dependencia del fabricante Menos dependencia pero menos estabilidad Todo integrado Suelen enfocarse a una solución Mas complicados de instalar y administrar Más sencillos de implementar
  87. 87. • BI se ha democratizado. Ya no solo lo usan 4 personas en grandes empresas. • El auge de las herramientas OpenSource ha permitido un nuevo horizonte en BI. • También hay una democratización del dato, tanto desde las propias empresas como los proveniente de Internet. Herramientas actuales
  88. 88. Herramientas actuales
  89. 89. Herramientas actuales
  90. 90. Herramientas actuales
  91. 91. Herramientas actuales
  92. 92. • Leader: fabricante con una gran solución y que está muy enfocado a las necesidades actuales del mercado • Challenger: también tiene una buena solución pero le faltan algunas características interesantes para llegar a ser un lider consolidado • Visionaries: Han sido capaces de detectar nichos de mercado y ofrecen algún producto para cubrirla pero les faltan capacidades a sus productos • Niche Players: no tienen ni el producto ni componentes para ser líderes pero que han destacado por algún motivo durante 2013 Herramientas actuales
  93. 93. Herramientas actuales
  94. 94. Herramientas actuales
  95. 95. Herramientas actuales
  96. 96. Herramientas actuales
  97. 97. Herramientas actuales
  98. 98. Herramientas actuales
  99. 99. Herramientas actuales
  100. 100. • Tendencias Actuales
  101. 101. • Big Data • Real Time BI • BI Mobile • Cloud BI • Social Media • End User self-service • Multiples BI Tools. Herramientas Open Source • Mejoras en la visualización • Bases de datos específicas Tendencias actuales
  102. 102. • El ámbito de la inteligencia de Negocios o Business Intelligence está alcanzado un auge considerable en los últimos años y su previsión de crecimiento está entre las más altas del mercado. • Se estima que para el ciclo 2014-2016 estará en torno a un 10% anual. • El avance tecnológico en cuanto al hardware, la aparición de nuevo software y la evolución del actual marcan un ritmo trepidante en este nicho que las grandes empresas están intentando aprovechar ofreciendo múltiples soluciones y productos • Por otro lado, las empresas se han percatado de los beneficios que puede aportar esta tecnología en sus negocios y la ventaja que permite frente a sus competidores a la hora de plantear estrategias y tomar decisiones acertadas. Tendencias actuales
  103. 103. • El ámbito de la inteligencia de Negocios o Business Intelligence está alcanzado un auge considerable en los últimos años y su previsión de crecimiento está entre las más altas del mercado. • Se estima que para el ciclo 2014-2016 estará en torno a un 10% anual. • El avance tecnológico en cuanto al hardware, la aparición de nuevo software y la evolución del actual marcan un ritmo trepidante en este nicho que las grandes empresas están intentando aprovechar ofreciendo múltiples soluciones y productos • Por otro lado, las empresas se han percatado de los beneficios que puede aportar esta tecnología en sus negocios y la ventaja que permite frente a sus competidores a la hora de plantear estrategias y tomar decisiones acertadas. Tendencias actuales
  104. 104. introducción • Big Data es la convergencia de enormes cantidades de datos tanto estructurados como no estructurados. • Esta información puede ser tanto interna como externa. • Dado que las teconologías tradicionales no pueden hacer frente a esta cantidad de información es necesario utilizar nuevas estrategias.
  105. 105. introducción • Petabytes de datos creados diariamente – Redes sociales – móviles, – sensores, – Datos científicos, – ….
  106. 106. introducción • Petabytes de datos creados diariamente
  107. 107. introducción • Todo el mundo conectado
  108. 108. introducción • Todo el mundo conectado – ¿Cuantas personas conoces sin Facebook o Twiter? – ¿Y si es adolescente? Cercana al 100%
  109. 109. introducción • Las tres Vs
  110. 110. introducción • Volumen: – Grandes cantidades de información – Terabytes, Petabytes, … – Los datos no se pueden almacenar en RDBMS tradicionales • Variedad – La fuente de datos s muy diversa: Web Logs, Application Logs, Mdatos variados, Redes sociales – Suele ser poco estructurado o sin ninguna estructura • Velocidad – Datos en streaming. Procesamiento complejo de datos – Es necesaria una velocidad en la entrada y salida
  111. 111. introducción
  112. 112. introducción • El dato es más importante que nunca, pero el crecimiento exponencial está sobrepasando las capacidades de las empresa para gestionarlos (y por tanto para granar dinero con esa información) • Retos –Procesar conjuntos de datos extragrandes –Almacenar y gestionar esos datos –Realizar análisis sobre los mismos.
  113. 113. introducción • Tecnologías Hadoop • .
  114. 114. introducción • Tecnologías Hadoop • .
  115. 115. Hadoop • Hadoop es casi sinínimo del término “Big Data” para la gestión de grandes volúmenes de información de datos no estructurados. • Hadoop Distributed File System implmenta una capa de almacenamiento redundnate y altamente escalable.
  116. 116. Hadoop • Incremento de negocio para Hadoop
  117. 117. Hadoop • Uno de los puntos fuertes de Hadoop es que está diseñado para ejecutarse en servidores de bajo coste y que dispone de una gran tolerencia a fallos • De hecho, en Hadoop, los fallos de hardware se tratan como una regla y no como una excepción.
  118. 118. Hadoop • Otros proyectos implicados en Hadoop • HBase : Una base de datos orientada a valores/claves que se ejecuta sobre HDFS • Hive : sistema de funciones que soportan agregación de datos y coinsultas ad hoc sobre MapReduce • Pig: Lenguaje de alto nivel para gestionar flujos de datos y ejecución de aplicaciones sobre Hadoop • Mahout: entorno de aprendizaje de máquinas implementado en hadoop • Zookeeper : servicio centralizado para mentener información de configuración, gestión de nombre, y para facilitar la sincronización de servicios • Sqoop : Herramienta diseñada para transferir datos masivos desde Hadoop a otros entornos como Bases de datos relacionales
  119. 119. Hadoop • HDFS • HDFS es un sistema de almacenamiento tolerante a fallos que puede almacenar gran cantidad de datos, escalar de forma incremental y sobrevivir a fallos de hardware sin perder datos • Los clusters Hadoop se utilizan sobre ordenadores baratos. • Si un nodo falla, el cluster puede continuar trabajando sin perder datos o interrumpri el trabajo. • Sencillamente redistribuye el trabajo entre los nodos restantes del cluster.
  120. 120. Hadoop • HDFS • HDFS gestionar el almacenamiento en el cluster, dividiendo los ficheros en bloques pequeños y almacenando copias duplicadas a traves de los nodos.
  121. 121. Hadoop • HDFS • Comparada con otras técnicas de redundancia como Redundant Array of Independent Disks (RAID) , HDFS ofrece dos ventajas: – No se requiere un hardware espcial – Se implement a una técnica eficiente de procesamiento de datos: MapReduce.
  122. 122. Hadoop • MapReduce • La mayor parte de las herramientas de consulta están diseñadas para realizar consultas simples que deben ejecutarse rápidamente. • El dato suele estar indexado y por tanto solo pequeñas porciones de datos se examinan durante la búsqueda.
  123. 123. Hadoop • MapReduce • Esta solución, en cambio no es útil para datos no indexados de tipo semi estructurado (textos) o sin estructurar (multimedia). • Para responder una query en esta solución es necesario examinar todos los datos • Hadoop utiliza MapReduce para realizar un análisis exahustivo de forma rápida.
  124. 124. Hadoop • MapReduce • Es un algoritmo de procesamiento de datos que implmenta un proceso en paralelo • De forma simple distribuye las atareas a través de los nodos de un cluster ejecutanto una función “map. – La función map estudia el problema, lo divide en trozos y los manda a diferentes máquinas para que todos los trozos puedan ejecutarse concurrentemente.. – Los reusltados de este proceso paralelo se recogen y se distribuyen a través de un distintos servidores que ejecutan una función “reduce”, que toma los resultados de los trozos y los recombina para obtener una respuesta simple
  125. 125. Hadoop • MapReduce • “Map” step: The master node takes the input, chops it up into smaller sub-problems, and distributes those to worker nodes. A worker node may do this again in turn, leading to a multi-level tree structure. • Map(k1,v1) → list(k2,v2)
  126. 126. Hadoop • MapReduce • “Reduce” step: The master node then takes the answers to all the sub-problems and combines them in a way to get the output - the answer to the problem it was originally trying to solve. • Reduce(k2, list (v2)) → list(v3)
  127. 127. Hadoop • MapReduce. Ejemplo • Contador de palabras – Entrada • Hello World • Hello MapReduce – Función MAP void map(string i, string line): for word in line: print word, 1
  128. 128. Hadoop • MapReduce. Ejemplo • Contador de palabras – Función REDUCE void reduce(string word, list partial_counts): total = 0 for c in partial_counts: total += c print word, total
  129. 129. Hadoop • MapReduce. Ejemplo • Contador de palabras
  130. 130. Hadoop • MapReduce. Arquitectura
  131. 131. Hadoop • Procesos – NameNode: metados de ficheros – DataNode: datos en los nodos – SecondaryNodeName.Realiza checkpoints del HDFS image – JobTracker: gestor de trabajos – TaskTracker: ejecutor de trabajos – …
  132. 132. Hadoop • Arquitectura MapReduce
  133. 133. Social MEDIA • Redes sociales. Social Media • Otro nuevo ámbito en el que las empresas están decididas a entrar es en el de las redes sociales. • Empujadas por el uso que se hace de Internet y el rastro que los usuarios dejan en estos nichos, las empresas se ha percatado de que la información extraida de este uso permite tomar decisiones estratégicas, tanto de marketing, publicidad, planes de producción, tendencias, etc...
  134. 134. Social MEDIA • Redes sociales. Social Media • El usuario media deja sus opiniones, críticas, gustos, comentarios, etc.. en multitud de redes sociales y similares, lo que el convierte en el nicho de extracción de datos más importante que podemos encontrar en la actualidad respecto a los gustos y tendencias.
  135. 135. Social MEDIA • Redes sociales. Social Media
  136. 136. Social MEDIA • Redes sociales. Social Media • Las herramientas actuales de BI permiten también transformar estos datos heterogéneos y dispares en modelos de información que permiten tomar decisiones empresariales estratégicas y “seguir” las tendencias de los usuarios y sus gustos • Además, unido a Big Data y a otras tecnologías se pueden tomar decisiones en tiempo real.
  137. 137. BI MOVIL • BI móvil • Otro nicho de crecimiento BI para los próximos años será sin duda la expansión de la tecnología móvil. Los smartphones y las tablets han acercado BI a un entorno donde hasta hace poco era impensable. • Según previsiones, un 35% de las empresas usará BI en dispositivos móviles en el año 2014.
  138. 138. BI MOVIL • BI móvil
  139. 139. BI MOVIL • BI móvil • Entre los usos que se pueden dar a estos componentes encontramos por ejemplo: – Vendedores que se desplazan, con acceso a los datos de clientes, stock, tendencias de compras del cliente, etc… – Acceso a datos estratégicos desde cualquier lugar, en viajes o desplazamientos de directivos y responsables. – Toma de decisiones en tiempo real en reuniones o desplazamientos – Etc…
  140. 140. BI MOVIL • BI móvil • Al igual que con otras tecnologías, las grandes empresas de BI están comercializando herramientas o versiones de sus productos para ser utilizados en smartphones y tablets y de esa forma poder acceder a datos, cuadros de mandos y estadísticas de forma sencilla y rápida.
  141. 141. RealTime BI • Real Time BI • Todas las tecnología mencionadas anteriormente permite el acceso al dato en tiempo real, y por tanto la posibilidad de tomar decisiones instantáneas sin necesidad de esperar informes o estadísticas posteriores. • Por ejemplo Google analytics sería un buen ejemplo del uso de estas tecnologías.
  142. 142. RealTime BI • Real Time BI • Por supuesto, no siempre el dato inmediato es el único, ya que se seguramente las decisiones en muchos casos se deben tomar junto a información histórica y evolucionada que se almacenará en un Data Warehouse tradicional.
  143. 143. RealTime BI • Real Time BI
  144. 144. BI en la nube • BI en la nube
  145. 145. BI en la nube • BI en la nube • Por supuesto, el acceso a los datos BI en un sistema en Cloud es otra de las tendencias que veremos en los próximos años. Tanto de forma privada como pública asistiremos a una tendencia a desplazar el dato a un entorno cloud para poder acceder y manejarlo de forma eficiente. • Tener las herramientas de Business Intelligence alojadas en la nube aporta además un valor añadido sobre aquellas empresas que no pueden permitirse disponer de tecnologías tan sofisticadas en plataformas físicas propias.
  146. 146. BI en la nube • BI en la nube • Quizás el inconveniente más importante de subir el dato a una nube que no sea privada es el hecho de que la información crítica de la empresa esté alojada fuera del entorno de la propia empresa. Sin embargo, el abaratamiento del coste del hardware hace que las soluciones privadas sean cada vez más abordables y eficientes.
  147. 147. BI en la nube • BI en la nube • En la parte de infraestructuras – BIRST es actualmente Birst es el primer vendedor de Inteligencia de Negocios basada en la nube en tener la suficiente fuerza dentro del mercado y referencias de clientes para entrar en el cuadrante mágico. – Por poner otro ejemplo reciente, SAS ha implementado una solución de visualización analítica de datos en la nube para el mercado español, denominado SAS Visual Analytics en Cloud, con el objetivo de que empresas de cualquier tamaño y sector dispongan de la capacidad analítica que puedan necesitar.
  148. 148. BI en la nube • Otras –End User self-service –Multiples BI Tools. Herramientas Open Source –Mejoras en la visualización –Bases de datos específicas
  149. 149. ¡Estamos en las Redes Sociales! linkedin.com/company/cleformaci-n?trk=nmp_rec_act_company_name twitter.com/CLEFormacion ¡ Síguenos ! cursos@cleformación.com plus.google.com/+Cleformacion youtube.com/CLEFormacion

×