SlideShare a Scribd company logo
1 of 214
Download to read offline
11
Prof. Luis Joyanes Aguilar
BIG DATA & DATA SCIENCE
Los pilares del Científico de Datos
UNIVERSIDAD TECNOLÓGICA DE PEREIRA
Centro de Innovación Tecnológica
20 de agosto, 2015
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Harvard Business Review, octubre 2012
Página –2–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Foreign Affairs, mayo 2013
Página –3–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Revista BBVA, innovation edge, junio 2013
Página –4–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CONSULTORA GARTNER, mayo 2014
q Según Gartner –similar a otras consultoras como
OBS, Forrester- estima que la inversión en
servicios de Big Data será de 132.000
millones de dólares ( 96.000 millones
de euros) en 2015, lo que generará unos
4,4 millones de empleos en todo el mundo.
Gracias al Big Data el Producto Interno Bruto
(PIB) de la Unión Europea crecerá un 1,9%
adicional para 2020.
Página –5–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CONSULTORA GARTNER, mayo 2014
q Por sectores, las mayores inversiones
en soluciones de Big Data se harán en:
q Comercio, Industria, Salud,
Información y Comunicaciones,
Banca y Finanzas, Seguros y
Administración Pública.
Página –6–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CONSULTORA GARTNER, mayo 2014
q A nivel global, el 79% de las empresas creen
que Big Data mejorará su toma de decisiones,
el 58% cree que será un factor determinante
en el éxito y el 36% obtiene ya ventajas
competitivas.
q El 29% de las empresas no cuentan con
iniciativas alrededor de Big Data,
principalmente por temas presupuestarios,
conocimientos técnicos sobre la tecnología, no
identificación de su ROI y falta de preparación
cultural por parte de la empresa.
Página –7–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q A cada minuto se genera en el mundo datos por el
equivalente a 360.000 DVD. Como consecuencia de ello,
el sector de datos crece un 40% al año, siete veces
más rápido que el mercado global de la información y de
las comunicaciones: aumentará 16.900 millones de
dólares USA en el 2015 y los datos crearán cientos de
miles de nuevos puestos de trabajo en Europa.
q Por todo ello, la apuesta por el Big Data por parte del
sector público es un fenómeno en aumento… hasta tal
punto que la Comisión Europea ha solicitado a
los gobiernos nacionales que “abran los
ojos ante la revolución del Big Data“.
Página –8–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q Neelie Kroes, vicepresidenta de la Comisión y
responsable de la Agencia Digital Europea,
declaró al respecto que:
q  “ya es hora de que nos centremos en los
aspectos positivos de los macrodatos
(big data). Estos suenan negativos y
alarmantes, pero la mayoría de las veces
no lo son. Los líderes necesitan
aprovecharlos”.
Página –9–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q Esta toma de posicionamiento de la Comisión se concreta en
una comunicación al Parlamento titulada “Hacia una
economía de los datos próspera” donde
también se establece la definición que las instituciones
europeas de Big Data:
q “una gran cantidad de diferentes tipos
de datos producidos a alta velocidad a
partir de un gran número de diversos
tipos de fuentes”.
Página –10–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q “Para manejar los conjuntos de datos
muy variables y en tiempo real de hoy
en día, se necesitan nuevas
herramientas y métodos, como
software, algoritmos y procesadores
de gran potencia”.
Página –11–
1212
IETEN Business&Technology
School
Prof. Luis Joyanes Aguilar
BIG DATA
El universo digital de
datos
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA ERA DEL PETABYTE -2- . Wired ,
julio 2008 (www.wired.com)
q 1TB (250.000 canciones)
q 20 TB (fotos “uploaded” a Facebook
cada mes)
q 120 TB (todos los datos e imágenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climático en
EEUÜ compilados por el National Climatic Data Center); 530 TB
(Todos los vídeos de YouTube); 600 TB (base de datos de
genealogía, incluye todos los censos de EEUU 1790-2000)
q 1 PB (datos procesados por los
servidores de Google cada 75 minutos)
Página –13–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): “data, data everywhere”
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –14–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El universo digital de datos, IDC 2012
Pina –15–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El universo digital de datos, 2013
Página –16–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
Página –17–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: “Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East”. El
estudio arrojó que, a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que solo
0,5% de los datos mundiales se analizan.
Página –18–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q La proliferación a nivel mundial de dispositivos, como PC y
teléfonos inteligentes, aumentó el acceso a Internet
dentro de los mercados emergentes, y el incremento de
datos generados por máquinas, como cámaras de
vigilancia o contadores inteligentes, ha contribuido a la
duplicación del Universo Digital en los
últimos dos años solamente, hasta alcanzar
un tamaño descomunal de 2,8 ZB. IDC
proyecta que, para el 2020, el Universo
Digital alcanzará 40 ZB, cifra que supera
las proyecciones anteriores en 14%.
Página –19–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q En términos de volumen, 40 ZB de datos son
equivalentes a lo siguiente:
q  Existen 700.500.000.000.000.000.000 granos de arena en todas las
playas del mundo (o setecientos trillones quinientos mil billones). Esto
significa que 40 ZB equivalen a 57 veces la cantidad de
granos de arena de todas las playas del mundo. Si
pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad,
el peso de dichos discos (sin fundas ni estuches) sería equivalente a
424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona
a nivel mundial.
q Referencia: America Economia: http://
tecno.americaeconomia.com/noticias/el-gran-universo-
digital-la-data-crece-mas-rapido-de-lo-que-podemos-
protegerla
Página –20–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: “Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East”. El
estudio arrojó que, a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que
solo 0,5% de los datos mundiales se
analizan.
Página –21–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA DE DATOS, 2013
q Twitter: (redes sociales)
q 90 millones de tuits (tweets) por día que representa 8
Terabytes.
q Boeing: (industria)
q Vuelo transoceánico de un jumbo puede generar 640
Terabytes.
q Wal-Mart: (comercio)
q 1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
q Google procesa al día 20 PB de información
Página –22–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2015
q  Séptimo estudio de EMC sobre el universo digital. El
estudio de este año, titulado El universo digital de las
oportunidades: información valiosa y el aumento del
valor de la Internet de las cosas, con
investigación y análisis de IDC, revela cómo la aparición
de las tecnologías inalámbricas, los productos
inteligentes y los negocios definidos por software
desempeñan un papel fundamental en el crecimiento
exponencial de los datos en todo el mundo. Debido, en
parte, a Internet de las cosas, el universo digital se duplica
cada dos años y se multiplicará por diez entre 2013 y 2020
(de 4,4 zetabyttes a 44 zettabytes)
Página –23–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2015
q Qué comprende la IoT
La Internet de las cosas (IoT) comprende miles de
millones de objetos cotidianos equipados con
identificadores exclusivos y la capacidad de grabar, enviar
y recibir datos automáticamente.
q Por ejemplo: un sensor en el calzado que hace un
seguimiento de la velocidad de una persona o un puente
que hace un seguimiento de las naves de tránsito. Según
IDC, la cantidad de dispositivos o cosas que se pueden
conectar con la Internet está alcanzando los 200.000
millones hoy en día, con un 7% (o 14.000
millones) ya conectados y comunicándose por
Internet.
Página –24–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2015
q Los datos de estos dispositivos conectados representan un
2% de los datos mundiales hoy en día. IDC pronostica
que, para el 2020, la cantidad de dispositivos conectados
crecerá a 32.000 millones lo que representaría el 10% de
los datos mundiales.
q La Internet de las cosas también ejercerá una gran
influencia en las gigantescas cantidades de “datos útiles”
que se pueden analizar del universo digital.
q En el año 2013, solo el 22% de los datos en el universo
digital se consideraron datos útiles, pero menos del 5%
de esos datos útiles se analizaron.
Página –25–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Página –26–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué sucede en 1´ en INTERNET (2012)
Página –27–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Informe de GP Bullhound, el banco de
inversión líder en Europa (2012 vs 2013)
Página –28–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Página –29–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Qué pasa en Internet en sólo un
minuto …
Universia, 17 mayo 2015 … Día de Internet
q Se realizan 4,19 millones de búsquedas en Google
q Se envían 136 millones de correos electrónicos
q Se envían 433.000 tuits
q Se suben 67.000 fotos a la red
q Se descargan 50.200 apps desde la AppStore
q Se reproducen 1.3 millones de videos en YouTube
q Se escuchan 61.141 horas de música
Página –30–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Qué pasa en Internet en sólo un minuto …
Universia, 17 mayo 2015 … Día de Internet
q Se crean 100 nuevas cuentas en LinkedIn
q Se envían 44,4 millones de mensajes por
WhatsApp
q Se publican 6 artículos en la Wikipedia
q Se transfieren 639.800GB de datos
Página –31–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Qué pasa en Internet en sólo un minuto …
Página –32–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA / DILUVIO DE DATOS
q El 90% de los datos acumulados en todo el
mundo se han creado en los tres últimos
años. Cada día se escriben 400 millones de
tuits, cada minuto se crean 600 nuevos
blogs y cada segundo se registran 10.000
transacciones de pagos con tarjetas.
Objetos cotidianos como los carros, los
relojes o las gafas están comenzando a
conectarse a Internet para alimentar
nuevos servicios que requieren un
constante intercambio de información.
Página –33–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA / DILUVIO DE DATOS
q Los Ayuntamientos siembran las calles con
sensores de recogida de datos para facilitar la
vida de los ciudadanos. Cada día se recogen 2,5
trillones de bytes de datos, y los directivos de las
empresas apenas pueden manejar la mitad de los
generados en su entorno porque el 80% de ellos
están “desestructurados”.
q  El número de dispositivos en red duplicará a
la población mundial en 2015 y los datos que
generen se convertirán en información utilizada por las
empresas para anticipar las necesidades de los
consumidores.
Página –34–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA / DILUVIO DE DATOS
q La respuesta para ordenar este caos es big
data, la nueva herramienta para
sistematizar los datos procedentes de
cualquier soporte —incluyendo imagen
sonido, fotos, textos…— y convertirlos de
forma automática en información.
q Big data ayudó a ganar las elecciones a
Barak Obama y ha reducido de días a
minutos la detección de uso de información
privilegiada en Wall Street
Página –35–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA DE DATOS
q Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
q Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la “montaña” resultante
sería 25 veces más alta que el monte Fuji.
Página –36–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA ERA DEL EXABYTE/ZETTABYTE CISCO
q LA ERA DEL EXABYTE, CISCO . Estudio
“Cisco Visual Networking Index (VNI)
2007-2012. Tráfico mundial de datos.
q LA ERA DEL ZETTABYTE:Cisco VNI:
Forecast and Methodology 2012-
2017. Tráfico mundial de datos
(publicado en 2013)
q 
Página –37–
3838
Prof. Luis Joyanes Aguilar
BIG DATA:
Fundamentos
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
MAPA DE ETIQUETAS DE BIG DATA
Página –39–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
q UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
Página –40–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: Gartner
q Gartner* define “Big data” como un
conjunto de datos de gran volumen,
de gran velocidad y procedente de
gran variedad de fuentes de
información que demandan formas
innovadoras y efectivas de procesar la
información
q  www.gartner.com/id=2100215
Página –41–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: Gartner
q “Big Data es la capacidad de analizar
grandes volúmenes de datos de
diferentes tipos y a gran velocidad,
para mejorar los procesos de negocio
actuales o crear nuevas áreas de
oportunidad”.
Página –42–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
Página –43–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM (5V-6V)
Página –44–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
q  VOLUMEN de datos procesados por las
empresas ha crecido significativa y
exponencialmente.
q Google procesa 20 petabytes al día
q En 2020 se esperan 42.000 millones
de pagos electrónicos.
q La Bolsa de Nueva York genera UN
terabyte de datos al día
q Twitter genera 8 TB
Página –45–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
q VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento,
proceso y captura de datos, dentro y fuera
de la empresa ha aumentado
considerablemente.
q Flujo de datos a alta velocidad.
q eBay se enfrenta al fraude a través
de PayPal analizando cinco millones
de transacciones en tiempo real al día.
Página –46–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
q VARIEDAD: Big data es cualquier tipo de
dato – estructurado y no estructurado - tales
como texto, datos de sensores, datos entre
máquinas (M2M), archivos “logs”, audio,
vídeo, flujos de clicks, XML, datos en
streaming, cotizaciones bursátiles, medios
sociales,
Una creciente variedad de datos
necesitan ser procesados y convertidos a
información
Página –47–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las dimensiones que se deben considerar al
evaluar la viabilidad de una solución de
datos grandes
Página –48–
q El valor empresarial de los conocimientos que pueden
obtenerse al analizar los datos
q Las consideraciones de gobernanza para los nuevos
orígenes de datos y cómo los datos serán utilizados
q Las personas con habilidades relevantes disponibles y el
compromiso de los patrocinadores
q El volumen de los datos que se están capturando
q La variedad de orígenes de datos, tipos de datos
y formatos de datos
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q La velocidad a la cual los datos son generados,
la velocidad con la que se necesita actuar
después o el ritmo al que están cambiando
q La veracidad de los datos o, más aún, la
incertidumbre o la confiabilidad de los datos
Página –49–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Principales aplicaciones del Big Data
¿Dónde podemos participar los
desarrolladores?
q Big Data representa un conjunto de aplicaciones
requeridas en distintas facetas. El primer ingrediente es el
gran volumen de datos, aderezado con la variedad de
datos heterogéneos que puede contener y la necesidad de
ser procesados en la mayor velocidad posible
Página –50–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Propiedades fundamentales de Big Data
…
Página –51–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Considere los siguientes problemas relacionados con el
gobierno en el contexto de su situación:
q Seguridad y privacidad— Al mantenerse en línea con
las normativas locales, ¿a qué datos puede acceder la
solución? ¿Qué datos pueden ser almacenados? ¿Qué
datos deben ser cifrados durante la el movimiento? ¿Y en
reposo? ¿A quién se le permite ver los datos en bruto y
los conocimientos?
q Estandarización de los datos— ¿Existen estándares
que gobiernan los datos? ¿Los datos están en un formato
de propietario? ¿Algunos de los datos están en un formato
no estándar?
Página –52–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Plazo durante el cual los datos están disponibles—
¿Los datos están disponibles durante un plazo que
permita que se realicen acciones de forma oportuna?
q Propiedad de los datos— ¿A quién pertenecen los
datos? ¿La solución tiene acceso y permisos apropiados
para utilizar los datos?
q Usos permitidos: ¿Cómo se permite que se utilicen los
datos?
Página –53–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Llamamos Big Data a aplicar técnicas analíticas avanzadas
a conjuntos de datos muy grandes y diversos que incluyen
diferentes tipos, tales como estructurados y streaming /
batch / no estructurada y diferentes tamaños desde
terabytes hasta zettabytes.
q  Big Data es un término que se aplica a los conjuntos de
datos cuyo tamaño o tipo está más allá de la capacidad de
las bases de datos relacionales tradicionales para
capturar, gestionar y procesar los datos con baja latencia.
Y tiene una o más de las siguientes características: alto
volumen, alta velocidad, alta o de variedades.
Página –54–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Los datos pueden venir de sensores, dispositivos de video /
audio, redes, archivos de registro, aplicaciones
transaccionales, web y medios sociales. Muchas de estas
fuentes generan datos en tiempo real y en gran volúmen.
q El análisis de estos datos permite a analistas, investigadores
y usuarios de negocio tomar mejores y más rápidas
decisiones a partir de datos que antes eran inaccesibles o
inutilizables. Usando técnicas avanzadas de análisis, tales como
análisis de texto, aprendizaje automático, análisis predictivo,
minería de datos, estadísticas y procesamiento del lenguaje
natural, las empresas pueden analizar las fuentes de datos sin
explotar, de manera independiente o junto con sus datos de
negocio internos para obtener nuevos enfoques a los problemas
y poder diseñar nuevos productos.
Página –55–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
GESTIÓN DE DATOS
q Almacenamiento masivo de datos
q Contextualizar los datos
q Monitorización y seguridad de
aplicaciones
q Informes de operaciones:
visualización de datos
Página –56–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Almacenamiento masivo de datos
q Para sacar provecho a la inmensa cantidad de datos, el
primer paso es almacenarlos de la forma más eficiente
posible. Los conocidos Data Warehouse que han dejado
de ser almacenamientos “físicos” en la arquitectura de
máquinas de la empresa para salir fuera, a la nube. El
motivo es el abaratamiento de costes, pero también la
facilidad de acceso. Se requieren expertos en
cloud computing para que manejen, por ejemplo,
tecnologías como SQL DataWarehouse de Microsoft,
RedShift de AWS o soluciones ad-hoc creadas a partir de
Cloud Elastic Search.
Página –57–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Contextualizar los datos
q La imagen idealizada de Big Data es que a partir de esos
datos vamos a tener datos de "cómo actúan" nuestros
usuarios. Para llegar ese “objetivo” necesitamos
contextualizar los datos, aplicar lenguajes de análisis de
datos utilizando Python o entornos más estadísticos
como R para extraer esos datos.
q Debido al gran volumen de datos, estos se tienen que
“reducir” utilizando estrategias de MapReduce usando
Hadoop, Spark o alternativas desarrolladas por
Facebook como Presto
Página –58–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Monitorización y seguridad de aplicaciones
q La recolección de datos por medio de trazas, logs o
eventos relevantes de comportamiento ayuda a predecir
situaciones anómalas. La monitorización puede permitir
detectar picos de uso y actuar en consecuencia, o por el
contrario, atenuar cualquier ciberataque.
q Lo fundamental es el uso de herramientas de tiempo real
que permitan hacer el seguimiento en tiempo real y lanzar
alertas.
Página –59–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Informes de operaciones: visualización de
datos
q El Big Data no solo es cosa de desarrolladores.
Profesiones, por ejemplo, como los periodistas demandan
cada vez más datos de este tipo. Por lo que es
necesario desarrollar herramientas de visualizar
de datos, tanto para descubrir patrones de
comportamiento o para ilustrar la información.
Página –60–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Informes de operaciones: visualización de
datos
q Después de haber almacenado los datos y contextualizado
las distintas fuentes, el último paso es la visualización de
datos. Un reto en el que trabajan muy ligados los
estadistas, diseñadores de UX , desarrolladores de
realidad virtual y los propios científicos de datos.
Página –61–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Puesta en marcha de un proyecto
q 1. Identificación de objetivos y arquitectura
q Aunque es cierto que Big Data está de moda, nadie sabe
por dónde empezar. Es por eso que nosotros ayudamos a
nuestros clientes a probar con mínimos proyectos viables
que van sacando a la luz todo el conocimiento del negocio
que nuestros clientes tienen; de esta forma, los clientes
aportan su inteligencia de negocio y nosotros la
infraestructura técnica necesaria sobre la que montar la
lógica de negocio.
Página –62–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Puesta en marcha de un proyecto
q 2. Selección de fuentes
q Encontramos diferentes fuentes de información para alcanzar
los objetivos propuestos, en colaboración con nuestros
clientes. De forma creativa, proponemos y combinamos los
mejores conjuntos de datos internos y externos a su
organización.
q 3. Análisis de datos
q Organizamos y analizamos las bases de datos utilizando las
técnicas idóneas de analítica avanzada para cada caso.
Diseñamos soluciones personalizadas para cada compañía,
proporcionando herramientas de análisis que permitan tomar
las mejores decisiones en su negocio.
Página –63–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Puesta en marcha de un proyecto
q 4. Comunicación de resultados
q Creamos analíticas y gráficos en dashboards e
informes con el objetivo de la comprensión total por parte
del cliente. Los resultados son intuitivos y proporcionan
una valiosa síntesis de los hallazgos encontrados. Con la
información proporcionada se dota de valor a los grandes
volúmenes de datos incluso en tiempo real, y se
consiguen resultados que proporcionan impacto en el
negocio.
Página –64–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Fuentes de Big Data
q Herramientas para análisis de datos en grandes
volúmenes de datos. Infraestructuras de Big Data
q Fuentes de Big Data (Soares 2012; Joyanes 2014):
l Web y Social media
l Machine-to-Machine (M2M, Internet de
las cosas)
l Biometría
l Datos de transacciones de grandes datos
(salud, telecomunicaciones…)
l Datos generados por las personas
(humanos)
Página –65–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Sunil	
  Soares	
  (2003).	
  Big	
  Data	
  Governance	
  Emerging	
  	
  	
  	
  
Página –66–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Estructura de Big Data: tipos de datos
q Estructurados
q No estructurados
l  No estructurados (texto, datos de vídeo, datos de audio,,,)
l  Semiestructurados ( a veces se conocen como
“multiestructurados”. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)
q Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
q Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
Página –67–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q Los Gigantes de Internet como Google, Amazon o Facebook
basan su éxito en el valor de los “big data” sin ellos tendrían
serias dudas de supervivencia.
q Big data es el nuevo petróleo, oro o maná de
la década. IBM, SAP ,Oracle, Cisco… los han
sistematizado para adaptarlas a todo tipo de
empresas.
q Google comenzó a gestionar Big Data desde su
nacimiento en 1998, para indexar sus búsquedas”
q  Big data ha saltado de Internet al mundo real, y las
empresas investigan sus aplicaciones para mejorar la gestión,
ahorrar consumos o lanzar nuevos servicios.
Página –68–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Página –69–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q La central de reservas Amadeus (líneas aéreas)
insta a las empresas a que incorporen la
herramienta junto con el uso ya creciente de
MINERÍA DE DATOS.
q Investigación realizada por el profesor Thomas Davenport, de
la escuela de negocios de Harvard, sobre la experiencia de Air
France-KLM, Lufthansa, British Airways, Cathay, Eurostar,
Hoteles Marriott, aeropuerto de Múnich.
q El informe indica que “las aerolíneas, los aeropuertos, los
hoteles, las empresas ferroviarias y los distribuidores
de productos turísticos deben plantearse una estrategia
big data para situarse a la vanguardia”.
Página –70–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q La industria aérea comercial podría ahorrar 30
millones de dólares en 15 años con la
recogida de datos realizada por los
sensores que GE coloca en los motores
de los aviones.
q Trece de las 25 mayores cadenas hoteleras de todo el
mundo efectúan ya sus inversiones y sus ofertas
comerciales, incluso el color de las paredes de los
restaurantes o las habitaciones, cada vez más en
función de sofisticados sistemas de análisis de
datos de clientes (MINERÍA DE DATOS)
Página –71–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q En España, un sistema privado de seguridad, Sanitas
ha puesto en marcha un sistema para prevenir
enfermedades entre sus 2,3 millones de
clientes.
q  “En un año hemos realizado 800.000
contactos a 100.000 clientes para darles
consejos o indicarles la conveniencia de hacer
pruebas de detección precoz cuando
detectamos que por su perfil puede ser
conveniente y ofrecer mejores
servicios” [Portavoz de Sanitas al periódico El País]
Página –72–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q Las farmacéuticas y las aseguradoras de
todo el mundo han sumado la fuerza de sus
datos para acelerar la investigación contra
el cáncer, el alzhéimer y otras lacras de la
sociedad.
q “hacer predicciones de comportamientos
futuros de pacientes” son grandes
ventajas de big data, que puede
“mejorarnos la vida hasta límites
insospechados”.
Página –73–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
q UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
Página –74–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Oportunidades en Big Data
Oportunidad profesional: En 2015, Gartner predice que
4,4 millones de empleos serán creados en torno a big
data. (Gartner, 2013)
Fuente: http://www.gartner.com/technology/topics/big-data.jsp
Página –75–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
RETOS Y OPORTUNIDADES
q IDC entiende Big data como un nuevo valor
económico basado en la toma de decisiones a
partir del análisis de grandes volúmenes de datos
procedentes de una amplia variedad de fuentes,
desde las aplicaciones empresariales convencionales a los
datos móviles, los medios sociales y el Internet de las
Cosas, un campo aún incipiente donde en 2020 convivirán
212.000 millones de dispositivos conectados.
q Big data también ofrece riesgos.
Fundamentalmente en privacidad y seguridad
de los datos. Normas legales de la Unión
Europea, sus países miembros, América…
Página –76–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
RETOS Y OPORTUNIDADES
q Sus ventajas para el negocio en áreas como la
gestión de las relaciones con el cliente, el
desarrollo de nuevos productos, la detección del
fraude o la predicción del comportamiento de los
consumidores permiten a las compañías obtener
resultados financieros un 20% por encima de sus
competidores, según estimaciones de Gartner.
q Se entiende así que, una vez superada la fase de
evaluación y prueba en la que todavía nos encontramos,
la adopción creciente de Big data dispare un mercado
que, de acuerdo con la firma de investigación, cerrará
2013 con un volumen de negocio asociado de 34.000
millones de dólares, 6.000 millones más que en
2012.
Página –77–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
RETOS Y OPORTUNIDADES
q Las promesas de Big data alcanzan a
prácticamente todos los sectores de actividad,
como demuestran las primeras experiencias de
éxito emprendidas por organizaciones de finanzas,
sanidad, turismo, retail o telecomunicaciones. Y su
adopción se irá extendiendo a medida que los
responsables TI vayan asumiendo el valor que aportan
nuevos frameworks de software como Hadoop y los
nuevos sistemas avanzados de almacenamiento, bases de
datos, analítica y lenguajes de programación
especialmente orientados a los grandes datos.
Página –78–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Integración con Big Data. FUENTE: datalytics.com
Página –79–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Integración con Big Data. FUENTE: datalytics.com
Página –80–
8181
Prof. Luis Joyanes Aguilar
OPEN DATA:
Datos abiertos
El Gobierno corporativo
abierto
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
Página –82–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q Las administraciones públicas [de
cualquier organismo nacional e
internacional] generan gran cantidad de
información en formatos propios de difícil
acceso para la mayoría de los ciudadanos.
q Bases de datos, listas, estudios, informes,
estadísticas, etc. son datos abiertos (open
data) en formatos propios que son de
difícil acceso para la mayoría de los
ciudadanos.
Página –83–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q Evidentemente estos datos se almacenan
normalmente en centros de datos propios
de las administraciones que a su vez se
almacenan y gestionan en nubes públicas o
privadas
q ¿Qué necesitan los profesionales o las
empresas para sacar rentabilidad a esos
datos públicos? Evidentemente la
colaboración de las entidades públicas para
liberar cada día más información y crear
más oportunidades de negocio
Página –84–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q La administración de Estados Unidos
inició la iniciativa Open Data y en
paralelo la Unión Europea ha ido
adoptando también la iniciativa.
q En España los primeros gobiernos
fueron los Gobiernos Autonómicos de
El Principado de Asturias y el País
Vasco.
Página –85–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q La iniciativa del Gobierno Vasco se ha
plasmado en la puesta en funcionamiento
de Open Data Euskadi que pretende crear
un sitio web donde la información
reutilizable (contenidos abiertos) estén al
alcance de cualquier ciudadano.
q Un estudio de la UE ya en 2010 estimaba
que el mercado de información pública
podría generar riqueza por valor de 27.000
millones de euros.
Página –86–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA EN LATAM…
q Colombia. Catálogo de datos abiertos:
q  http://www.datos.gov.co/frm/buscador/
frmBuscador.aspx
http://www.datos.gov.co/frm/Entidades/
frmEntidades.aspx
q Perú
l  Portal de Datos Abiertos de la Municipalidad de Lima: http://
lima.datosabiertos.pe/home/
l  Portal de Datos Abiertos:
http://www.datosperu.org/
Página –87–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
INICIATIVAS PIONERAS
INTERNACIONALES EN OPEN DATA
q En España… además de los gobiernos autonómicos
de Asturias, País Vasco y Cataluña, la fundación CTIC
ligada al consorcio W3C (www.fundacionctic.org).
http://datos.gob.es/
q En Estados Unidos data.gov, en Gran Bretaña
data.gov.uk.
q The Open Data Institute. Tim Berners-Lee: http://
theodi.org/
q En la Unión Europea (Iniciativa OPEN DATA): http://
open-data.europa.eu/es
q  En Google (abril 2011, del número 1) la revista de negocios. //
thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA.
Página –88–
8989
Prof. Luis Joyanes Aguilar
INTERNET
DE
LAS COSAS
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
INTERNET DE LAS COSAS (OBJETOS)
Página –90–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
MACHINE TO MACHINE (M2M)
q Intercambio de información en formato de datos entre
dos puntos remotos, bien a través de red fija o móvil sin
interacción humana con características específicas en
cuanto a tráfico y tarjetas SIM e integradas en la
fabricación de dispositivos
q Automatización de los procesos de comunicación entre
máquinas, entre dispositivos móviles (celulares) y
máquinas (Mobile to Machine) y entre hombres y
máquinas (Man to Machine)
q En 2011 había más de 1.500 millones de dispositivos
alrededor del mundo conectados entre sí; 15.000 millones
en 2013. Previsiones de Cisco, 25.000 millones para 2015
Página –91–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
INTERNET DE LAS COSAS (OBJETOS)
q Cada día aumenta el número de
dispositivos de todo tipo que proporcionan
acceso a Internet. Las “cosas” que
permiten y van a permitir estos accesos irá
aumentando con el tiempo. Ahora ya
tenemos videoconsolas, automóviles,
trenes, aviones, sensores, aparatos de
televisión, … y pronto el acceso se
realizará desde los electrodomésticos
Página –92–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
World Wide Web, Internet móvil, cloud
computing, INTERNET DE LAS COSAS
q Un mundo en el que miles de millones de objetos
informarán de su posición, identidad e historia a
través de conexiones inalámbricas … mediante
tecnologías RFID, bluetooth, sensores inalámbricos,
NFC, tecnologías “wearables”…
q  La realización del “Internet de las cosas” , probablemente
requerirá cambios dramáticos en sistemas, arquitecturas y
comunicaciones,… Invisible es la descripción de las nuevas
tecnologías empotradas “Computación ubicua”… A
medida que avance su penetración:
q  Producirá un CAMBIO SOCIAL, posiblemente,
de tanto impacto y tan poco previsible, como
las actuales tecnologías Web
Página –93–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IMPACTO DEL IoT*
q Plataforma Satelise de Ferrovial (empresa multinacional
constructora de infraestructuras, líder en España)… Está
instalando en los peajes de autopistas una aplicación
basada en tecnología satelital (GPS) para el pago de
peajes sin barreras y la comunicación entre el conductor y
la concesionaria mediante teléfonos inteligentes….
Ofrecerá otros servicios de valor añadido: trayectos de
peaje y alternativos, información sobre el estado del
tráfico, meteorología o cualquier tipo de incidente…
pretende incorporar “comandos de voz” para evitar
distracciones del conductor al volante.
q *Actualidad económica, octubre 2013
Página –94–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
VENTAJAS Y RIESGOS DE IoT
q VENTAJAS Y OPORTUNIDADES
q CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca
de 50 mil millones de dispositivos conectados a Internet, capaces
de comunicarse entre sí, desde automóviles, aparatos de
consumo en el hogar, teléfonos inteligentes, marcapasos,
televisores, carros (coches), ropa inteligente, electrodomésticos,
puertas - ventanas de hogares y edificios, PCs, tabletas…
Infinitas ventajas
q RIESGOS*…
Hackers “maliciosos”, ciberespionaje …
* Cibereespionajes, piratas y mafias, El País, febrero 2013 http://
elpais.com/elpais/2013/02/19/eps/1361281322_025092.html
Página –95–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE IoT DE LA UIT
q La definición que da la UIT de Internet de las cosas es
"infraestructura mundial de la sociedad de la
información, que ofrece servicios avanzados
interconectando cosas (físicas y virtuales)
utilizando las tecnologías de la información y la
comunicación compatibles existentes y en
evolución". La definición fundamental de la UIT,
publicada el 4 de julio de 2012, es útil para comprender el
concepto y un buen punto de partida para seguir
analizando e investigando la Internet de las cosas. Es
importante que la UIT señale que la Internet de las cosas
es una "visión", no una sola tecnología, y que tiene
"consecuencias tecnológicas y sociales".
Página –96–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NÚMERO DE OBJETOS CONECTADOS
q En la Tierra hay muchas más cosas que personas, y el
número de cosas que podrían formar parte de Internet de
las cosas varía enormemente según los expertos. No
importa la cifra exacta, sólo sabemos que es enorme! Por
ejemplo, según estimaciones del Internet Business
Solutions Group de Cisco, unos 25.000 millones de
dispositivos estarán conectados a Internet en 2015, y
50.000 millones en 2020. Son por ejemplo aparatos
móviles, parquímetros, termostatos, monitores cardíacos,
neumáticos, carreteras, automóviles, estanterías de
supermercados e incluso ganado.
Página –97–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE LA UIT DE IoT
q https://itunews.itu.int/Es/4503-Internet-de-las-cosas-
Maquinas-empresas-personas-todo.note.aspx
Página –98–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q El Ministerio de Industria, Energía y Turismo de ESPAÑA
EN ENERO DE 2014 puso en marcha la convocatoria de
ayudas para el desarrollo empresarial de proyectos
tecnológicos innovadores por una cuantía de 140 millones
de euros, de los que 20 millones son subvenciones y 120
préstamos.
q Tras la publicación en el Boletín Oficial del Estado de la
resolución de la Secretaría de Estado de
Telecomunicaciones y para la Sociedad de la Información,
hoy se abre el plazo para solicitar las ayudas dentro del
Plan de Investigación Científica y Técnica y de Innovación
2013-2016.
Página –99–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q Se financiarán líneas de actuación en infraestructuras de
internet del futuro, componentes y sistemas electrónicos,
soluciones para el desarrollo de computación en
la nube, soluciones TIC Big Data,
ciberseguridad y confianza digital, así
como a los proyectos internacionales englobados en el
programa EUREKA de apoyo a la I+D+i cooperativa en el
ámbito europeo.
Página –100–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q Entre los servicios que pueden mejorar
significativamente se encuentran el suministro
y consumo de energía o de agua, el transporte y
la movilidad, la seguridad ciudadana y la
protección civil, la creación de un entorno
favorable para los negocios, el gobierno de la
ciudad, la transparencia y participación
ciudadanas, el soporte al turismo y al comercio,
la gestión de residuos, la gestión del mobiliario
urbano, la eficiencia energética de los edificios
o la gestión de los aparcamientos.
Página –101–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q Otros campos de aplicación: La sanidad, para monitorizar a
los pacientes y conectarlos a los médicos y demás
profesionales sanitarios; los sectores de la energía y del
transporte, para conectar a proveedores y clientes; el
sector del retail, para predecir cuándo comprarán los
consumidores; las telecomunicaciones y los servicios de
información; los servicios financieros; o las fábricas
inteligentes. En estos y otros campos es posible encontrar
también casos muy concretos de aplicación, como el
marketing y la publicidad, la educación, los vehículos o
los juegos y el entretenimiento conectados o las redes
eléctricas inteligentes, en los que las nuevas posibilidades
alcanzan rendimientos máximos.
Página –102–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
COMUNICACIÓN M2M
q La comunicación machine to machine hará
posible que los objetos intercambien información,
facilitando la toma de decisiones de forma autónoma.
q Habrá un aumento de la productividad de los
procesos, debido a los nuevos paradigmas y modelos
de negocios generados por el análisis de big data
q Predicciones fiables hablan de que el 65% de los
estudiantes que inician hoy sus estudios se
dedicarán a trabajos que aún no están
inventados
Página –103–
104104
Prof. Luis Joyanes Aguilar
Smart Cities
CIUDADES
INTELIGENTES
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIUDADES INTELIGENTES (Smart Cities)
q Las smart cities
(o ciudades inteligentes) pueden ser un buen
ejemplo de lo que es capaz de dar de sí el Internet de las
Cosas. En ellas, la combinación de dispositivos, sensores,
redes de comunicaciones, capacidad de almacenamiento y
de procesamiento y plataformas de gestión hacen posible
unas ciudades en la que se prestan servicios de una forma
más eficiente y sostenible, mejorando la vida de los
ciudadanos, las posibilidades de los negocios y el atractivo
de la propia ciudad para conseguir turismo, talento e
inversiones
Página –105–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q ¿Qué le parecería vivir en una ciudad con la
que pueda interactuar? Una ciudad que
actúe más como un organismo vivo, una
ciudad que responda a sus necesidades...
q Alrededor del mundo este tipo de ciudades
ya están siendo construidas, desde Masdar
en Abu Dhabi hasta Songdo en Corea del
Sur… En España ciudades tradicionales
como Málaga, Barcelona, Santander….
Página –106–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Ahora bien, la ciudad más cerca de usted podría estar a la
espera de una renovación extrema. En el futuro, todo lo que
hay en una ciudad, desde la red eléctrica pasando por las
tuberías de alcantarillado y hasta las calles, edificios y
automóviles estarán conectados a una red.
q Habrá edificios que le apagarán la luz, carros que se
manejen solos encontrarán ese tan anhelado espacio
de parqueo. Hasta los basureros serán inteligentes.
q Pero, ¿cómo nos preparamos para este futuro
inteligente? ¿Quién hará un monitoreo y controlará los
sensores que paulatinamente estarán más presentes
en cada edificio, poste de luz y tubería? ¿Es ese el
futuro que queremos?
Página –107–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Los embotellamientos (trancones) son probablemente
uno de los principales problemas de las grandes
ciudades. A pesar de que gracias a la información
disponible se puede predecir dónde pasarán los
embotellamientos, lo que no es posible es
descongestionar las calles de carros.
q La compañía israelí Waze (adquirida por Google en
2013) le pide a los ciudadanos ayuda para resolver el
problema y, con base en los datos de viajes reales
enviados masivamente por sus fuentes, crea un mapa
de las condiciones en tiempo real.
Página –108–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q La ciudad de Río de Janeiro puso en marcha una sociedad
con Waze en un esfuerzo para adoptar la tecnología a su
centro de operaciones.
q Muchas corporaciones que se dedican a la tecnología
como IBM, Siemens, Microsoft, Intel y Cisco actualmente
tienen una enorme actividad comercializando software
para resolver gran cantidad de problemas de las ciudades,
desde escapes de agua hasta contaminación del aire y
congestión vial.
q En Singapur, Estocolmo y California IBM está recolectando
información del tráfico y probándola a través de
algoritmos para predecir dónde ocurrirá un
embotellamiento una hora antes de que suceda
Página –109–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Mientras tanto, Río de Janeiro cuenta con
un centro de control al estilo de la NASA
donde múltiples pantallas absorben la
información generada por sensores y
cámaras ubicados alrededor de la ciudad.
q En total, IBM tiene alrededor de 2.500
proyectos alrededor del mundo e, incluso,
ha registrado la marca "ciudades más
inteligentes" (Smarter Cities).
Página –110–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Las ciudades inteligentes necesitarán
redes inteligentes en las que todo esté
conectado.
q "Necesitamos construir ciudades que
se adapten a las necesidades de sus
ciudadanos pero antes no era posible
porque no había información
suficiente"
Página –111–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIUDADANÍA DIGITAL versus PRIVACIDAD
q ¿Es una ciudad con sensores una ciudad
con censura?
q La primera fase de las ciudades inteligentes puede ser
emocionante. La ciudad se convierte en un laboratorio
viviente de tecnologías inteligentes que pueden gestionar
todos los sistemas: desde el agua, al transporte, la seguridad,
la basura, la energía limpia, etc.
Pero, ¿en qué punto esta ciudad repleta de sensores puede
convertirse en una ciudad que censura? En muchos sentidos,
cuando ponemos en común todos los sistemas digitales que
están en funcionamiento en una ciudad, tenemos una especie
de "llave en mano" hacia una ciudad con censura.
Página –112–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Proyecto EPIC de la UE (EU Platform
for Inteligent Cities) de Smart City
q Sus definiciones varían ampliamente y van desde el uso
discreto de nuevas aplicaciones
tecnológicas tales como RFID o la
Internet de las cosas (IoT) o el Big Data;
a una concepción más holística de
inteligencia, integrando el trabajo que está
estrechamente relacionado con el concepto de
Living Labs y los servicios generados por los
usuarios (user-generated services).
Página –113–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Proyecto EPIC de la UE (EU Platform
for Inteligent Cities) de Smart City
q Mientras que la primera definición es ampliamente
utilizada por las empresas TIC de todo tipo y tamaño. La
segunda aproximación ha sido generalmente adoptada
por la Comisión Europea. Desde principios de 1995, la
Comisión Europea ha tratado de mejorar los
servicios públicos, las transacciones e
interacciones con los ciudadanos y las empresas
europeas a través de la financiación y el despliegue
de una amplia variedad de iniciativas estratégicas
de TIC.
Página –114–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Smart City según Gartner
q La consultora Gartner en su Hype Cycle for Smart City
Technologies and Solutions define la Smart City
como “una zona urbanizada donde múltiples sectores
públicos y privados cooperan para lograr resultados
sostenibles a través del análisis de la información
contextual intercambiada entre ellos. La interacción de
la información procedente de sectores específicos y la
que fluye entre diferentes sectores da como resultado
ciudades más eficientes desde el punto de vista de los
recursos, lo cual permite la provisión de servicios más
sostenibles y más transferencia de conocimientos entre
los sectores”.
Página –115–
116116
Prof. Luis Joyanes Aguilar
Tecnologías BIG DATA
HADOOP
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Logo de HADOOP
Página –117–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Logo de HADOOP
Página –118–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA (JOYANES)
Página –119–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Hadoop
q “The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model”
q De la página de Hadoop
Página –120–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Fundación Apache: proyectos open source
q The Apache Software Foundation provides support
for the Apache community of open-source software
projects, which provide software products for the
public good
q The Apache Software Foundation provides support for the
Apache community of open-source software projects,
which provide software products for the public good
Página –121–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Hadoop en la actualidad
q Actualmente Hadoop es un framework muy extendido en
el ámbito empresarial, sobre todo en compañías que
manejan grandes volúmenes de datos. Entre las que
podemos descarta las siguientes empresas:
q Yahoo: La aplicación Yahoo! Search Webmap está
implementado con Hadoop sobre un clúster de mas de
10.000 nodos Linux y la información que produce es la
utilizada por el buscador de Yahoo.
q Facebook: Tiene ha día de hoy el mayor clúster Hadoop
del mundo que almacena hasta 30 peta bytes de
información
q Amazon A9: Se utiliza para la generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
100 nodos
q  cada uno.
Página –122–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Hadoop en la actualidad
q The New York Times: Utiliza Hadoop y EC2 (Amazon
Elastic Compute Cloud) para convertir 4 Tera bytes de
imágenes TIFF en imágenes PNG de 800 K para ser
mostradas en la Web en 36 horas.
q Además existen compañías cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuración y despliegue de clústeres
q Hadoop. Además proporciona servicios de consultoría y
formación en estas tecnología. Todo el software que
distribuyen es Open Source.
Página –123–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Distribuciones de Hadoop
Página –124–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Proveedores de Big Data
q Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalización:
disponibilidad, rendimiento, replicas …). Una distribución
muy popular
q Otros ejemplos: MapR, Greenplum,
Hortonworks, …
Página –125–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA PARA MEJORAR LA SEGURIDAD
Página –126–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA PARA MEJORAR LA SEGURIDAD
q La evolución del panorama de amenazas obligará a
mercado a adoptar tecnología analíticas de Big Data para
satisfacer las necesidades de detección y rendimiento. Los
servicios de reputación de amenazas han demostrado su
utilidad para detectar malware, páginas web maliciosas,
spam o ataques der red; el siguiente gran paso serán
nuevos servicios de reputación que permitan identificar
amenazas persistentes avanzadas de manera más rápida
y precisa, y la analítica del Big Data tendrá mucho que
aportar.
Página –127–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA Y SEGURIDAD
q Big Data y la nube podrían reemplazar
a las ‘cajas negras’ de los aviones
q A raíz de la trágica desaparición del vuelo MH370 de
Malaysian Airlines el 8 de marzo de 2014, Malasia pidió a
ITU que elaborara normas para facilitar la transmisión de
datos de vuelo en tiempo real. La solución podría basarse
en Big Data y la nube.
q Los datos de las aeronaves, incluidos los de las cajas
negras, podrían transmitirse en flujo continuo y
almacenarse en centros de datos en tierra. Las
tecnologías de Big podrían extraer y analizar esos datos
sin necesidad de encontrar las cajas negras.
Página –128–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA Y SEGURIDAD
q Todas las aerolíneas comerciales y los aviones privados
están obligados a instalar y utilizar “cajas negras” para
registrar diversos parámetros de vuelo. El registrador de
datos de vuelo está concebido para grabar los datos
operativos de los sistemas del avión, incluida la altitud, la
velocidad, la aceleración vertical, el rumbo y la posición de
los sistemas de control. El registrador de voz de la cabina
de pilotaje graba la voz de la tripulación y los sonidos
dentro de la cabina de pilotaje. Estos equipos de control
dan a los investigadores datos esenciales sobre las causas
de un accidente.
Página –129–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
ANALÍTICA DE BIG DATA
q Big Data y la nube podrían reemplazar a las ‘cajas negras’
de los aviones
q A raíz de la trágica desaparición del vuelo MH370 de
Malaysian Airlines el 8 de marzo, Malasia pidió a ITU que
elabore normas para facilitar la transmisión de datos de
vuelo en tiempo real. La solución podría basarse en Big
Data y la nube.
q  “Creemmos que los datos de las aeronaves, incluidos los de las cajas
negras, podrían transmitirse en flujo continuo y almacenarse en
centros de datos en tierra. Insto a la UIT a trabajar con las empresas
privadas para buscar la mejor manera de controlar constantemente
los datos de vuelo y lo que ocurre en la cabina de pilotaje. Con los
adelantos de las TIC actuales deberíamos poder extraer y analizar
esos datos sin necesidad de encontrar las cajas negras”
Página –130–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
ANALÍTICA DE BIG DATA
q Todas las aerolíneas comerciales y los aviones privados
están obligados a instalar y utilizar “cajas negras” para
registrar diversos parámetros de vuelo. El registrador de
datos de vuelo está concebido para grabar los datos operativos
de los sistemas del avión, incluida la altitud, la velocidad, la
aceleración vertical, el rumbo y la posición de los sistemas de
control. El registrador de voz de la cabina de pilotaje graba la
voz de la tripulación y los sonidos dentro de la cabina de
pilotaje. Estos equipos de control dan a los investigadores datos
esenciales sobre las causas de un accidente. “ITU invitará a los
fabricantes de aviónica y aviones, así como a los operadores de
satélites y las aerolíneas, a trabajar sobre nuevas normas para el
rastreo de aeronaves en tiempo real
Página –131–
132132
Prof. Luis Joyanes Aguilar
CIENCIA DE DATOS
(Data Science)
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS (DATA SCIENCE)
Página –133–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q En los pasados 15 años se han realizado
grandes inversiones en infraestructuras para
los negocios, las cuales han mejorado la capacidad de
recolección de los datos en la empresa.
q Virtualmente, todos los aspectos de negocios están ahora
abiertos a la recolección de datos y normalmente
instrumentados para la recolección de los mismos:
operaciones, fabricación, gestión de la cadena de
suministro, comportamiento del cliente, rendimiento de
las campañas de marketing, procedimientos de
workflow, etc.
Página –134–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q La información está ahora ampliamente
disponible en eventos externos de todas las
naturalezas: tendencias de mercado,
noticias de la industria, movimientos de los
competidores, etc.
q Esta amplia disponibilidad de datos ha
conducido al interés crecientes en métodos
de extracción de información y
conocimiento útiles a partir de los datos:
objetivos de la ciencia de datos.
Página –135–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q Con las vastas cantidades de datos ahora
disponibles, las empresas en casi todas las
industrias se centran en la explotación de
los datos para conseguir ventajas
competitivas.
q En el pasado las empresas empleaban equipos de
estadisticos, modeladores y analistas para explorar
conjuntos de datos manualmente; pero el volumen,
velocidad y variedad de los datos han reducido la
capacidad del análisis manual.
q Las técnicas de minería de datos han tomado gran
fuerza para la ciencia de datos
Página –136–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q Ciencia de datos es la extracción de información
útil de grandes volúmenes de datos. La ciencia de
datos necesita acceder a los datos, a la ingeniería
de datos y a las tecnologías de procesamiento de
datos.
q La Ciencia de Datos es una especialización
creciente que toca muchos de los siguientes áreas:
Computación en nube, big data,
matemáticas, estadística, métodos de
optimización, teoría de negocios y teoría de
ciencias de la computación.
Página –137–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DISCIPLINAS CLAVE DE DATA SCIENCE
Página –138–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿En qué se está usando Data Science?
q . Actualmente en campos como la economía y las
finanzas (modelos predictivos de bolsa, operaciones
de alta frecuencia), la medicina (seguimiento y
predicción de pandemias, estudios de prevalencia de
enfermedades bajo distintas variables), las
compañías de transportes (para optimizar rutas
aéreas, terrestres, marítimas), compañías
alimenticias (seguimiento de popularidad en redes
sociales, trazabilidad de las ventas),
telecomunicaciones (prevención del fraude,
incremento del “rendimiento” de los clientes), retail
(incremento de las ventas por conocimiento de
hábitos de consumo), etc.
Página –139–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿En qué se está usando Data Science?
q Las redes sociales, por ejemplo, son uno de los
campos dónde más rápido está creciendo esta disciplina
puesto que todas (casi todas) las compañías quieren y
necesitan saber a quiénes les gusta sus productos y a
quiénes no, lo que opinan de ellos, los perfiles de sus
seguidores…
q Estos son sólo algunos ejemplos de uso en algunos
campos, pero existen muchísimos más. El potencial y las
perspectivas de crecimiento de la ciencia de datos son
enormes puesto que los datos no paran de aumentar
exponencialmente y en consecuencia la adquisición del
conocimiento necesario para la toma de decisiones
Página –140–
141141
OPORTUNIDADES Y
NUEVAS PROFESIONES
TECNOLÓGICAS Y DE
COMUNICACIÓN
DEMANDADAS POR
LAS EMPRESAS
Prof. Luis Joyanes Aguilar
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NECESIDAD DE FORMACIÓN PROFESIONAL
AVANZADA EN CLOUD COMPUTING-BIG
DATA
q El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
deberán cubrir en los próximos cinco años según estadísticas fiables de IDC,
Gartner, Forrester, McKinsey…
q UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de
datos) y además ANALISTAS DE DATOS (formados en
Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)
q Se necesitan certificaciones profesionales en CLOUD
COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE
NEGOCIOS”
Página –142–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PROFESIONALES DE BIG DATA
q El crecimiento del Big Data ha disparado la
demanda de profesionales especialistas en
el análisis de datos.
q El portal de empleo Indeed.com anunció hace unos meses
que el número de puestos de trabajo relacionados con el
Big Data había crecido en un 15.000% entre los veranos
de 2011 y 2012.
q Las predicciones de McKinsey & Company
sitúan en torno al 50% la brecha entre
demanda y oferta de puestos relacionados
con la analítica en EEUU en 2018
Página –143–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVAS PROFESIONES EN LA
ECONOMÍA Y EMPRESA DIGITAL
q Algunas de las profesiones o roles más demandados son:
q Profesionales de big data : analistas,
ingenieros de datos, consultores…
q Profesionales de ciencia de datos
q Profesionales de CIBERSEGURIDAD
q Profesionales de INTERNET DE LAS
COSAS y de CIUDADES INTELIGENTES
Y DIGITALES.
Página –144–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVOS ROLES PROFESIONALES
Página –145–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVOS ROLES PROFESIONALES
q En el ámbito de la información las nuevas profesiones que
se van introduciendo en las empresas tienen una estrecha
relación con el gestor de datos (data
steward), la gestión de datos, la ciencia de los datos
y la visualización de los datos. Y los perfiles profesionales
que están directamente relacionados con esta nueva
gestión de los datos van desde el bibliotecario, el
archivista y el gestor de datos hasta el analista, el
ingeniero y el periodista de datos
Página –146–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Perfiles necesarios para conseguir
aprovechar las nuevas oportunidades del
Big Data
q Expertos en Cloud Computing
q Expertos en Visualización de datos
q Expertos en Data Science
q Expertos en Big Data
q Expertos en Machine Learning
(Aprendizaje máquina)
Página –147–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Cloud Computing
q Es necesario contar con profesionales especializados en
Cloud Computing. Ellos serán los encargados de liderar la
administración y explotación de las infraestructuras. Las
tendencias tecnologías marcan un arquitectura en la nube
en sus distintas variantes: IaaS, PaaS o SaaS.
q Las tecnologías más extendidas son Amazon Web Services
o Azure de Microsoft, además de plataformas Google
Cloud, BlueMix de IBM o Open Stack. Todo ello para
poder implementar el orquestador más eficiente a la hora
de realizar Continuous Integration y Continuous Delivery
Página –148–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Visualización de datos
q Engloba dos facetas importantes: la extracción de datos a
través de herramientas como MapReduce, Pentaho,
Tableau, etc.. y la aplicación de R sobre esos datos. La
visualización corre a cargo de frameworks de visualización
como d3.js
q Estos profesionales se encargan de diseñar las
visualizaciones, extraer información de grandes
volúmenes de datos, aplicar algoritmos complejos de
visualización científica, definir qué datos son de interés y
aplicarles métricas adecuadas. Además se introduce el
componente de realidad aumentada y simulación con los
datos extraídos.
Página –149–
Expertos en Visualización de
datos
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Data Science
q Son los “científicos de los datos” y combinan sus
conocimientos de programación con la estadística y las
matemáticas. En este punto es necesario recurrir a
herramientas que faciliten su trabajo como R y Python
combinándolo con las técnicas de almacenamiento de
datos (bases de datos NoSQL), tratamiento de datos,
análisis, teorías de grafos, técnicas de aprendizaje
(machine learning) y, por último enlazar esos datos con la
visualización.
Página –150–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Big Data
q Este perfil es un especialista en uno de los pilares
fundamentales de la gestión de grandes volúmenes de
información: el procesamiento masivo de datos previo al
análisis. Entre las herramientas más destacadas para
realizarlo se encuentran Spark, Hadoop, MapReduce,
Hive, Pentaho o AWS Elastic Map Reduce.
q También hay que tener en cuenta la disponibilidad de
datos en tiempo real utilizando HBase, Cassandra,
Elastic Search, Storm, etc. Combinándolos con técnicas
de visualización como D3.js.
q Este es uno de los perfiles más completos a la hora de
abordar un puesto de experto
Página –151–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniería, diplomados…
q Community Manager, Social Media
Manager y Analista Web y SEO
q Ingeniero de Cloud Computing (En España hay
una universidad privada que inició el curso pasado un grado)
q Ingeniero de negocios digitales (Digital
Business Intelligence)
q Ingeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologías “in-memory”…)
q Analítica de datos (Analytics) y Analítica de
Big Data
Página –152–
153153
Prof. Luis Joyanes Aguilar
EL CIENTÍFICO DE
DATOS
(Data Scientist)
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL CIENTÍFICO DE DATOS
q EL CIENTÍFICO DE DATOS (Data Scientist). Un
profesional con formación de Sistemas,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.
HBR (Harvard Business Review lo declaró la
profesión “MÁS SEXY del siglo XXI”…)
octubre de 2012 (Los datos el nuevo petróleo/oro
del siglo XXI):
Página –154–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL CIENTÍFICO DE DATOS
q  Thomas H. Davenport y D.J. Patil, October 2012
q  Harvard Business Review. https://hbr.org/
2012/10/data-scientist-the-sexiest-job-of-
the-21st-century/ar/1
q Thomas H. Davenport is a distinguished professor at Babson
College, a research fellow at the MIT Center for Digital
Business, and a senior adviser to Deloitte Analytics. He is at
work on a book about automation in knowledge work.
q D.J. Patil is the data scientist in residence at Greylock
Partners, was formerly the head of data products at LinkedIn,
and is the author of Data Jujitsu: The Art of Turning Data
into Product (O’Reilly Media, 2012).
Página –155–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Gobierno de Estados Unidos nombra
un ‘científico de datos jefe’
q El pasado 18 de febrero, la Casa Blanca publicaba una
nota firmada por su Directora de Tecnología Megan Smith,
anunciando el fichaje de Patil como nuevo
‘Científico de datos jefe de Estados Unidos’.
q  En la nota se explicaba que “el presidente Obama ha querido dar
prioridad a la atracción de talento técnico de primera -como el de DJ-
al Gobierno federal para aprovechar el potencial de la tecnología y la
innovación y ayudar así al gobierno a servir mejor al pueblo
americano”.
q  Recuerda que Patil ya trabajó, antes de incorporarse al sector
privado, en dos campos relacionados con su nueva responsabilidad:
Página –156–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Gobierno de Estados Unidos nombra un
‘científico de datos jefe’
q El objetivo del fichaje de DJ Patil es, en palabras de Megan
Smith, que éste pueda ayudar a diseñar las políticas que
posibiliten que Estados Unidos siga siendo líder en
materia de tecnología e innovación, que maximicen
el retorno a la sociedad de su inversión en datos, y
que posibiliten retener a las mejores mentes de la ciencia de
datos, y a conseguir que se incoporen al servicio
público. Patil también trabajará en la ‘Precision Medicine
Initiative’, destinada a hacer uso de las mejoras en
sanidad y ciencia de datos para proporcionar a los médicos
nuevas herramientas, terapias y conocimientos para saber
qué tratamientos funcionarán mejor con cada paciente, al
tiempo que protege la privacidad del mismo.
Página –157–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
La profesión de científico de datos
q Esta profesión resulta vital para que las organizaciones
puedan analizar y gestionar sus datos para la toma de
mejores decisiones de negocio.
q  El deseo de ser científico de datos es una tendencia que se
expande rápidamente por el mundo. Estados Unidos
abandera el liderazgo, Europa y España, ya comenzaron en
2014 y continuan en 2015. Latinoamérica y Colombina
en particular han comenzado a participar en esta
carrera. tecnología.
q El uso de científicos de datos es un hecho contrastado en las
más grandes y reconocidas organizaciones: Google,
Netflix, Facebook, Youtube, Twitter, Square, NBC,
Dow Jones…
q 
Página –158–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
“Científico de datos es la
profesión #1 para el año 2015”
q Glassdoor, consultora de referencia en EE.UU. Publicó a
primeros de 2015 un estudio de salarios y destacaba que
el salario promedio de un científico de datos es U$118.709
contra U$64.537 de un programador. Un estudio de
McKinsey predice que para el 2018, los EE.UU. podrían
enfrentar una escasez de 140.000 a 190.000 “personas
con profundas habilidades analíticas”, así como 1,5
millones de “gestores y analistas con el know-how de
utilizar el análisis de grandes datos para tomar decisiones
efectivas”.
Página –159–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OFERTAS DE EMPLEO
q Según la consultora de analítica empresarial SAS,
Colombia, Brasil, México y Ecuador serán las
principales sedes de creación de científicos de
datos. Las empresas latinoamericanas -pequeñas o
grandes-, si esperan crecer deberán contar, de aquí a dos
años, con al menos un científico de datos. Portales de
empleo como SimplyHired.Com y LinkedIn, han estimado
un sueldo mensual de entre 7000 y 10.000 dólares.
q Se estima que en los próximos 5 años, en América
Latina se suplan unas 300.000 vacantes,
representando un 7.5% de la demanda actual de
estos profesionales.
Página –160–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Una OFERTA MODELO DE TRABAJO
Una oferta de trabajo actual…
Página –161–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LOS PROFESIONALES MÁS
BUSCADOS
q Necesidad de especialistas en:
l Cloud Computing
l Big Data
l Software SaaS
l Aplicaciones para móviles y tabletas
l Programadores para apps móviles
l Consultores de herramientas de business
intelligence y analytics (analítica de
datos / analítica de negocios)
Página –162–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LOS PROFESIONALES MÁS
BUSCADOS
q Analistas de Big Data
q Científicos de datos (data scientist)
q CDO (Chief Data Officer)
q SEO (Optimización de motores de búsqueda
q CTO (Chief Technology Officer)
q Analistas de datos M2M/Internet de las
cosas
Página –163–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q Aunque un científico de datos aporte grandes ventajas en
temas puntuales en una organización.
Su impacto suele trascender a las más altas esferas y círculos
de decisión. No solo es el pilar desde el que una empresa
construye una estrategia exitosa de negocios basada en la
analítica de alto desempeño, sino que también se ha constituido
en el principal colaborador de los directores para llevarlos a
tomar mejores decisiones empresariales. Estos son algunos de
los aportes específicos que pueden hacer los científicos de datos
en una organización:
q  http://www.vanguardia.com/mundo/tecnologia/308034-
colombia-uno-de-los-paises-que-mas-cientificos-de-datos-
tendra
q  Página –164–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q 1. Predecir el futuro. Un científico de datos visualiza y
analiza los datos para predecir lo que puede llegar a pasar
en un mercado ante una decisión de la empresa o de sus
competidores.
q 2. Ayudar a tomar mejores decisiones. Los análisis
predictivos de un científico de datos pueden ayudar a un
gerente o presidente de compañía a saber cuándo debe
abrir una nueva operación, qué mercado le puede
convenir y en qué momento debe hacerlo, entre muchas
otras decisiones
Página –165–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q 3. Encaminar los planes de mercadeo. Lanzar un
nuevo producto o crear una promoción es una decisión
que se suele tomar con base en la intuición o lo que ha
funcionado en el pasado. Un científico de datos no solo
recurre al pasado (la inteligencia de negocios) sino que
anticipa el futuro a través del poder predictivo de la
analítica de negocios.
Página –166–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q 4. Ayudar a mejorar los niveles de servicio o
atención a ciudadanos. En una empresa o una entidad
pública, saber a ciencia cierta qué quieren los clientes o
ciudadanos es el primer paso para elevar los niveles de
satisfacción. En el caso, por ejemplo, de DJ Patil, el primer
científico de datos de la Casa Blanca, una de sus
principales funciones será la de utilizar los datos como vía
para que el Gobierno pueda ofrecer a los ciudadanos
tratamientos de salud cada vez más personalizados,
desarrollando herramientas clave para ponerlas a
disposición de médicos y hospitales en todo Estados
Unidos.
q 
Página –167–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué hace un científico de datos?
q El científico de datos, una de las profesiones mejor
remuneradas en el mundo de la tecnología, es un
individuo especializado en:
q Matemáticas y estadística que muestra un
dominio fluido de la programación y las
ciencias informáticas o de computación, así
como una gran capacidad analítica.
Página –168–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Científico de datos, la profesión del futuro
en Colombia
http://www.rcnradio.com/tecnologia/cientifico-
de-datos-la-profesion-del-futuro-en-colombia/
q El propósito de un científico de datos es,
básicamente, tomar la enorme cantidad de
información que proporciona el Big Data,
procesarla y comunicarla de manera que le sea útil
a las empresas, haciendo que tomen mejores
decisiones de negocio.
Página –169–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Un estudio de MIT Sloan Management Review señala que
para que una empresa sea competente en este ámbito no
basta con contratar a expertos en datos (matemáticos,
estadísticos o ingenieros de datos), sino formar al
conjunto de la plantilla para que todos los departamentos
entiendan qué es el big data y de qué forma puede
ayudar a transformar y optimizar los resultados. Para ello
recomienda:
Página –170–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Buscar talento analítico dentro de la empresa. El
63% de las compañías encuestadas está buscando perfiles
dentro de sus plantillas a los que les interese el big data.
La razón es sencilla: los empleados conocen los entresijos
del negocio y es necesario formarlos para que trabajen
conjuntamente con los matemáticos o estadísticos. “Se
trata de identificar a trabajadores a los que les interese
analizar los datos y ponerlos en valor para que luego
puedan diseñar acciones concretas para mejorar los
resultados”, indica el informe.
Página –171–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q A la hora de fichar a data scientist todas las empresas se
encuentran con el mismo problema; la escasez en el
mercado de estos profesionales. El hecho de poner en
marcha programas formativos tendrá otra consecuencia
positiva: la empresa tendrá el doble de posibilidades de
atraer a estos perfiles, señala el informe. “Normalmente
los científicos de datos prefieren ir a compañías donde el
big data es parte esencial de la estrategia”, indica
Página –172–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Integrar a los científicos de datos. Las empresas
encuestadas ponen más esfuerzos en formar a sus
gestores en big data (49%) que en conseguir que sus
científicos de datos entiendan mejor cómo funciona el
negocio (34%). Error. “Ambos deben acercar posiciones y
entender la importancia del otro lado”, asegura Meco. “A
los científicos de datos no les enseñan en la universidad
formas efectivas de comunicar la utilidad de los datos a
los diferentes departamentos de una empresa, ponen el
foco en aspectos técnicos. Por ello es la propia compañía
la que debe asegurar que haya comunicación y que los
estadísticos no trabajen de forma aislada”, añade
Página –173–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Además de saber interpretar los datos externos a las
compañías, es imprescindible saber analizar los propios y ser
capaz de predecir posibles cambios para reaccionar a tiempo.
q Ejemplo de ello es el Hospital La Fé de Valencia, el
primero que ha implantado modelos predictivos a partir del
big data. Este centro hospitalario está utilizando un programa
de visual analytics de la empresa SAS para mejorar la
asistencia a pacientes crónicos. “Han analizado durante un año
factores como la periodicidad con la que los pacientes acuden al hospital
solicitando un ingreso o durante qué semanas de la enfermedad suelen
agravarse los síntomas. De ahí han extraído patrones y ahora son capaces
de programar con antelación tanto el ingreso de nuevos pacientes como
las recomendaciones médicas pertinentes según avanza la patología”
Página –174–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Otro caso es el de la compañía de seguros Caser.
Fundada en 1942, dio un giro a su cultura empresarial
hace cuatro años para integrar el big data en la toma de
decisiones. De un departamento formado por 12 expertos
en datos que trabajaban “aislados” elaborando informes,
se pasó a un equipo de 21 miembros que se integraron en
diferentes departamentos con el rol claro de analistas de
datos. Además, los 1.200 empleados de la sede de Madrid
recibieron formación para aprender a valorar e interpretar
los gráficos de datos. “No basta con contratar a un par de
matemáticos.
Página –175–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Desde que el big data es parte esencial en su toma de
decisiones han conseguido reducir un 4,2% la cancelación
de seguros de salud de clientes “de alto valor”, y un 2% la
de seguros del hogar. “El análisis de datos nos permite
identificar patrones de comportamiento de los clientes que
nos abandonan y diseñar acciones a través del
departamento de marketing para anticiparnos a esa
decisión y ofrecer incentivos como una cuota mensual
gratis”. Ahora saben que cuando un cliente pinta todo el
coche hay muchas probabilidades de que lo quiera vender
y, por lo tanto, cancelar el seguro. Rápidamente ponen a
funcionar la maquinaria y les ofrecen algún tipo de
descuento
Página –176–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q En estos casos podemos resaltar la figura del
Científico o Analista de Datos como perfil esencial
para el desarrollo de soluciones de análisis que
extraigan valor de los datos. Además de este
cargo, es necesario introducir otros roles que se
encarguen de la infraestructura y arquitectura de
la solución, así como de la generación de nuevas
oportunidades de servicios basado de Analytics
entre otros
Página –177–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q 1 – Expertos en estadística: desarrollan nuevas teorías
estadísticas para Big Data, que a veces los estadísticos
tradicionales ni siquiera entienden. Son expertos en modelos
estadísticos, diseño experimental, muestreo, agrupación,
reducción de datos, intervalos de confianza, pruebas,
modelado, modelos predictivos y otras técnicas relacionadas.
q 2 – Expertos en matemáticas: la NSA o gente que trabaja
en temas de Big Data en defensa, astrónomos y personal de
investigación que se encarga de la optimización analítica del
negocio (gestión de inventario, optimización de precios,
cadena de suministro, control de calidad, optimización de
rendimiento) de manera que se encarguen de recoger,
analizar y extraer valor de los datos.
Página –178–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q 3 – Expertos en ingeniería de datos, Hadoop,
optimización y arquitectura de base de datos/ memoria/
sistemas de archivos, API, analytics como servicio,
optimización de flujo de datos y ‘data plumbing’.
q 4 – Expertos en el aprendizaje científico o máquina
(learning machine), ciencias de la computación
(algoritmos, complejidad computacional).
Página –179–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q 5 – Expertos en el negocio, la optimización del ROI,
ciencias de la decisión, o los que participan en tareas que
tradicionalmente realizan analistas de negocio en grandes
empresas (diseño dashboards, selección de combinación
métrica y definición métrica, optimización del ROI, diseño
de bases de datos de alto nivel).
q 6 – Expertos en desarrollo de producción de código e
ingeniería de software (conocimiento de los lenguajes de
programación).
q 7 – Expertos en visualización.
q 8 – Expertos en GIS, datos espaciales, datos modelados
por gráficos y bases de datos gráficas
Página –180–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q Gracias al Big Data, surge la figura del científico de
datos, encargado de buscar nuevas fuentes de
información, normalizar de forma automatizada la
información que encuentre y procesar una enorme
cantidad de datos que permitirán obtener una información
final mucho más fiable, así como también analizar nuevas
perspectivas que antes era simplemente imposible
analizar, principalmente por el coste y tiempo que
supondría.
Página –181–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Un científico de datos debe poseer:
1. Matemáticas / estadística.
2. Avanzados conocimientos de programación en
diferentes lenguajes (Java, JavaScript, C/C++, Python, R,
PHP…)
Otras herramientas Open Source: Hadoop, Spark ,
Scala
q 3. Computación
q 4. Analítica
q 5. Conocimiento de un dominio de negocio.
Página –182–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Por ello, ha destacado que lo que se busca ahora es
profesionales con un perfil “más horizontal”, es
decir, lo que ahora se llama ingenieros full-
stack, porque puedan desarrollar en PHP, en Python, en
HTML…
q Y esto debe complementarse con una base
matemática, con el objetivo de que “sepan y puedan
entender códigos matemáticos, algoritmos”, e incluso
tener conocimientos de negocio “para poder entender el
porqué de los servicios que pueden ofrecerse con los
datos”.
Página –183–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Las nuevas tecnologías y el desarrollo del big
data necesitan de profesionales con habilidades
en campos como informática, matemáticas,
estadística, negocios, analítica, ciencias de la
computación, que dominen la programación y sus
diferentes lenguajes. Estos profesionales son los
científicos de datos, y son clave para el mundo
en el que vivimos y es considerada la profesión
del futuro.
Página –184–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Matemáticas y Estadística, pero además se
precisa de diversos conocimientos tecnológicos:
q Bases de datos relacionales, SQL
q Bases de datos no relacionales NoSQL... “en
memoria (in-memory)…
q Lenguajes de programación: R, Python
q Machine Learning
q Programación de altas prestaciones,
programación distribuida, Hadoop…
Página –185–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué diferencia a un científico de datos de
un analista de datos tradicional?
q A diferencia de un analista de datos tradicional, que suele mirar
los datos obtenidos de una única fuente (un CRM por ejemplo),
un científico de datos no sólo podrá extraer y examinar los datos
de múltiples fuentes (Google Analytics, CRMs, páginas web, logs
de aplicaciones, etc), sino que además deberá tener una fuerte
visión de negocio.
q Su trabajo consiste en obtener las respuestas para las
preguntas o problemas de negocio que se planteen en la
empresa, busca los orígenes de datos disponibles, extrae los
que son relevantes y los examina. De su examen obtendrá “el
conocimiento”, lo que proporcionará una ventaja competitiva a la
empresa, siendo además capaz de extraer y transmitir
recomendaciones a los responsables de negocio de la empresa.
Página –186–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué habilidades son recomendables que
tenga un científico de datos?
q Como ya hemos indicado, el científico de datos debe
responder a cuestiones de negocio basadas en los datos y
ser capaz de presentarlas de modo efectivo. Por tanto un
científico de datos deberá tener diferentes habilidades y
en campos muy distintos:
Página –187–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Habilidades científicas
q Que le permitan responder a las cuestiones planteadas.
¿Qué proceso seguirá para responder a esas cuestiones?
q Extraer los datos, independientemente de su fuente
(webs, .csv, logs, apis, etc) y de su volumen (Big Data
o Small Data).
q Limpiar los datos, para eliminar aquello que distorsiona los
mismos.
q Procesar los datos usando diferentes métodos estadísticos
(inferencia estadística, modelos de regresión, pruebas de
hipótesis, etc.).
q Diseñar nuevos test o experimentos en caso necesario.
q Visualizar y presentar gráficamente los datos.
Página –188–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Habilidades tecnológico/matemático
q A nivel informático: deberá ser capaz de programar en R y/o
Python para la extracción y limpieza de los datos. Además R
dispone de diferentes paquetes estadísticos que facilitan el análisis
y presentación de los datos. Complementarios:
conocimientos de bases de datos SQL y NoSQL (Cassandra),
Hadoop, Mapreduce, Hive y Pig
q A nivel matemático/estadístico: modelado estadístico,
inferencia estadística, diseño de test, y si queremos ir un paso
más allá, aprendizajes supervisados y no supervisados y
machine learning.
q Para presentación/visualización de los datos: existen
infinidad de herramientas, desde el clásico PowerPoint, pasando
por Tableau, Prezi y otras muchas.
Página –189–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Habilidades sociales y de negocio
q Habilidades “sociales”
q Que le permitan presentar las conclusiones obtenidas de
manera exitosa a cualquier “nivel” de la organización.
Deberá ser por tanto un buen comunicador capaz de
empatizar con la audiencia.
q Habilidades de “negocio”
q Deberá ser un apasionado del negocio y sus datos,
conocer bien la empresa, sus objetivos, necesidades,
preocupaciones y motivaciones y, por supuesto, conocer
la competencia. Todo ello le proporcionará el contexto
adecuado en el que interpretar los datos.
Página –190–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
La caja de herramientas del
científico de datos
q La Ciencia de Datos se erige en nuestros días como una
profesión multidisciplinar.
q La Ciencia del Dato se erige en nuestros días como una
profesión multidisciplinar en la cual conocimientos
técnicos de diversas áreas se solapan formando un perfil
más propio del Renacimiento que del superespecializado
Siglo XXI.
q Dada la escasez de formación estructurada en la materia,
los científicos de datos se ven obligados a ir coleccionando
conocimientos, habilidades y herramientas que les
permitan desarrollar de forma óptima sus competencias.
Página –191–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CAJA DE HERRAMIENTAS DEL
CIENTÍFICO DE DATOS
Página –192–
q La primera pregunta que surge es qué se utiliza más, si
las herramientas open source o software propietario.
Según la 16ª encuesta de KDnuggets, la mayoría de los
científicos, un 64% utilizan ambas
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CAJA DE HERRAMIENTAS DEL
CIENTÍFICO DE DATOS
Página –193–
© Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
KDnuggets: Las 10 herramientas más
utilizadas son: www.kdnuggets
q R, lenguaje de programación y entorno de software de
código abierto para programación estadística y entornos
gráficos. Es la más utilizada entre científicos y mineros de
datos lo que implica la existencia de múltiples librerías y
paquetes fácilmente reutilizables.
Página –194–
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal
Big data&data science vfinal

More Related Content

What's hot

Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA
Luis Joyanes
 
Big Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosBig Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de Negocios
Luis Joyanes
 

What's hot (20)

Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013
 
Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA
 
Inteligencia denegocios versus analítica de negocios
Inteligencia denegocios versus analítica de negociosInteligencia denegocios versus analítica de negocios
Inteligencia denegocios versus analítica de negocios
 
Big Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosBig Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de Negocios
 
Conferencia Cloud Computing y Big Data: los pilares del científico de datos
Conferencia Cloud Computing y Big Data: los pilares del científico de datosConferencia Cloud Computing y Big Data: los pilares del científico de datos
Conferencia Cloud Computing y Big Data: los pilares del científico de datos
 
Computación en La Nube - Funglode - Santo Domingo, República Dominicana
Computación en La Nube - Funglode - Santo Domingo, República DominicanaComputación en La Nube - Funglode - Santo Domingo, República Dominicana
Computación en La Nube - Funglode - Santo Domingo, República Dominicana
 
Big Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosBig Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datos
 
Nuevas Tecnologías para la salud y el bienestar
Nuevas Tecnologías para la salud y el bienestarNuevas Tecnologías para la salud y el bienestar
Nuevas Tecnologías para la salud y el bienestar
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacional
 
Introducción a la computacion en la Nube
Introducción a la computacion en la NubeIntroducción a la computacion en la Nube
Introducción a la computacion en la Nube
 
Ebook: Internet de las cosas
Ebook: Internet de las cosasEbook: Internet de las cosas
Ebook: Internet de las cosas
 
Presentación bigdata
Presentación bigdataPresentación bigdata
Presentación bigdata
 
Cuarta revolución industrial
Cuarta revolución industrialCuarta revolución industrial
Cuarta revolución industrial
 
Innovar Para Crecer - José Manuel Casas
Innovar Para Crecer - José Manuel CasasInnovar Para Crecer - José Manuel Casas
Innovar Para Crecer - José Manuel Casas
 
Misiones: Municipios Siglo XXI
Misiones: Municipios Siglo XXIMisiones: Municipios Siglo XXI
Misiones: Municipios Siglo XXI
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datos
 
Cuarta revolución industrial
Cuarta revolución industrialCuarta revolución industrial
Cuarta revolución industrial
 
Presentacion capitulo 1 perspectiva
Presentacion capitulo 1 perspectivaPresentacion capitulo 1 perspectiva
Presentacion capitulo 1 perspectiva
 

Viewers also liked

Planeación de una uai
Planeación de una uaiPlaneación de una uai
Planeación de una uai
julyana_pa
 

Viewers also liked (18)

El Futuro del Marketing y la Investigación de Mercados (Daniel Falcón de Neo ...
El Futuro del Marketing y la Investigación de Mercados (Daniel Falcón de Neo ...El Futuro del Marketing y la Investigación de Mercados (Daniel Falcón de Neo ...
El Futuro del Marketing y la Investigación de Mercados (Daniel Falcón de Neo ...
 
s|ngular Data and Analytics Intro
s|ngular Data and Analytics Intros|ngular Data and Analytics Intro
s|ngular Data and Analytics Intro
 
Consumer data analysis upiloto - mayo de 2015 - compartible
Consumer data analysis   upiloto - mayo de 2015 - compartibleConsumer data analysis   upiloto - mayo de 2015 - compartible
Consumer data analysis upiloto - mayo de 2015 - compartible
 
Planeación de una uai
Planeación de una uaiPlaneación de una uai
Planeación de una uai
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
A Workshop on R
A Workshop on RA Workshop on R
A Workshop on R
 
4. Perspectivas del comportamiento del consumidor.
4. Perspectivas del comportamiento del consumidor.4. Perspectivas del comportamiento del consumidor.
4. Perspectivas del comportamiento del consumidor.
 
Kettle: Pentaho Data Integration tool
Kettle: Pentaho Data Integration toolKettle: Pentaho Data Integration tool
Kettle: Pentaho Data Integration tool
 
¿Qué es un insight?
¿Qué es un insight?¿Qué es un insight?
¿Qué es un insight?
 
Statistics for data scientists
Statistics for  data scientistsStatistics for  data scientists
Statistics for data scientists
 
Diagrama de Pareto
Diagrama de Pareto Diagrama de Pareto
Diagrama de Pareto
 
The 27 Best Growth Hacking Tools of 2016
The 27 Best Growth Hacking Tools of 2016The 27 Best Growth Hacking Tools of 2016
The 27 Best Growth Hacking Tools of 2016
 
Customer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerCustomer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of Customer
 
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
 
Tendencias & Insights de los Nuevos Consumidores: Implicancias al Marketing
Tendencias & Insights de los Nuevos Consumidores: Implicancias al MarketingTendencias & Insights de los Nuevos Consumidores: Implicancias al Marketing
Tendencias & Insights de los Nuevos Consumidores: Implicancias al Marketing
 
Consumer Insights en el Marketing: ¿qué empresas los utilizan y cómo lo hacen?
Consumer Insights en el Marketing: ¿qué empresas los utilizan y cómo lo hacen? Consumer Insights en el Marketing: ¿qué empresas los utilizan y cómo lo hacen?
Consumer Insights en el Marketing: ¿qué empresas los utilizan y cómo lo hacen?
 
Técnicas y Herramientas para identificar Consumer Insights
Técnicas y Herramientas para identificar Consumer InsightsTécnicas y Herramientas para identificar Consumer Insights
Técnicas y Herramientas para identificar Consumer Insights
 
Marco de referencia para el análisis del consumidor
Marco de referencia para el análisis del consumidorMarco de referencia para el análisis del consumidor
Marco de referencia para el análisis del consumidor
 

Similar to Big data&data science vfinal

presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
AlvaroDeLunaMarquezE
 
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
PedroHernan2
 
Nt rocio martin_t9_big_data
Nt rocio martin_t9_big_dataNt rocio martin_t9_big_data
Nt rocio martin_t9_big_data
Aracelli20
 

Similar to Big data&data science vfinal (20)

Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
San luis bigdata
San luis bigdataSan luis bigdata
San luis bigdata
 
Informe sobre Big Data - Cotec
Informe sobre Big Data - CotecInforme sobre Big Data - Cotec
Informe sobre Big Data - Cotec
 
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
 
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
 
Tecnologías emergentes y datos abiertos: Inteligencia Artificial
Tecnologías emergentes y datos abiertos: Inteligencia Artificial Tecnologías emergentes y datos abiertos: Inteligencia Artificial
Tecnologías emergentes y datos abiertos: Inteligencia Artificial
 
Nt rocio martin_t9_big_data
Nt rocio martin_t9_big_dataNt rocio martin_t9_big_data
Nt rocio martin_t9_big_data
 
Big data en la era de la nube
Big data en la era de la nubeBig data en la era de la nube
Big data en la era de la nube
 
Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)
 
Presentación: Diego Ernesto Molano Vega y Alberto Pardo Campo - eCommerce Day...
Presentación: Diego Ernesto Molano Vega y Alberto Pardo Campo - eCommerce Day...Presentación: Diego Ernesto Molano Vega y Alberto Pardo Campo - eCommerce Day...
Presentación: Diego Ernesto Molano Vega y Alberto Pardo Campo - eCommerce Day...
 
Tendencias Tecnológicas 2015 (2)
Tendencias Tecnológicas 2015 (2)Tendencias Tecnológicas 2015 (2)
Tendencias Tecnológicas 2015 (2)
 
Tendencias Tecnológicas 2015
Tendencias Tecnológicas 2015Tendencias Tecnológicas 2015
Tendencias Tecnológicas 2015
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
 
Linea de Tiempo Big Data
Linea de Tiempo Big DataLinea de Tiempo Big Data
Linea de Tiempo Big Data
 
'Del boom minero-energético al boom digital': David Luna, Ministro TIC
'Del boom minero-energético al boom digital': David Luna, Ministro TIC'Del boom minero-energético al boom digital': David Luna, Ministro TIC
'Del boom minero-energético al boom digital': David Luna, Ministro TIC
 
La linea del tiempo.
La linea del tiempo.La linea del tiempo.
La linea del tiempo.
 
Inteligencia negocios dennis garcia
Inteligencia negocios dennis garciaInteligencia negocios dennis garcia
Inteligencia negocios dennis garcia
 
Perspectivas cap 14
Perspectivas cap 14Perspectivas cap 14
Perspectivas cap 14
 
Big data
Big dataBig data
Big data
 
resumen
resumenresumen
resumen
 

More from Luis Joyanes

Master UPSA- Social Media -I
Master UPSA- Social Media -IMaster UPSA- Social Media -I
Master UPSA- Social Media -I
Luis Joyanes
 

More from Luis Joyanes (8)

Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesCiberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
 
Master UPSA - Social Media II
Master UPSA - Social Media IIMaster UPSA - Social Media II
Master UPSA - Social Media II
 
Master UPSA- Social Media -I
Master UPSA- Social Media -IMaster UPSA- Social Media -I
Master UPSA- Social Media -I
 
Conferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingConferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud Computing
 
Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012
 
Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"
 
Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)
 

Recently uploaded

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Recently uploaded (12)

How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 

Big data&data science vfinal

  • 1. 11 Prof. Luis Joyanes Aguilar BIG DATA & DATA SCIENCE Los pilares del Científico de Datos UNIVERSIDAD TECNOLÓGICA DE PEREIRA Centro de Innovación Tecnológica 20 de agosto, 2015
  • 2. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Harvard Business Review, octubre 2012 Página –2–
  • 3. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Foreign Affairs, mayo 2013 Página –3–
  • 4. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Revista BBVA, innovation edge, junio 2013 Página –4–
  • 5. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CONSULTORA GARTNER, mayo 2014 q Según Gartner –similar a otras consultoras como OBS, Forrester- estima que la inversión en servicios de Big Data será de 132.000 millones de dólares ( 96.000 millones de euros) en 2015, lo que generará unos 4,4 millones de empleos en todo el mundo. Gracias al Big Data el Producto Interno Bruto (PIB) de la Unión Europea crecerá un 1,9% adicional para 2020. Página –5–
  • 6. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CONSULTORA GARTNER, mayo 2014 q Por sectores, las mayores inversiones en soluciones de Big Data se harán en: q Comercio, Industria, Salud, Información y Comunicaciones, Banca y Finanzas, Seguros y Administración Pública. Página –6–
  • 7. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CONSULTORA GARTNER, mayo 2014 q A nivel global, el 79% de las empresas creen que Big Data mejorará su toma de decisiones, el 58% cree que será un factor determinante en el éxito y el 36% obtiene ya ventajas competitivas. q El 29% de las empresas no cuentan con iniciativas alrededor de Big Data, principalmente por temas presupuestarios, conocimientos técnicos sobre la tecnología, no identificación de su ROI y falta de preparación cultural por parte de la empresa. Página –7–
  • 8. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 UNIÓN EUROPEA, 4 julio 2014 q A cada minuto se genera en el mundo datos por el equivalente a 360.000 DVD. Como consecuencia de ello, el sector de datos crece un 40% al año, siete veces más rápido que el mercado global de la información y de las comunicaciones: aumentará 16.900 millones de dólares USA en el 2015 y los datos crearán cientos de miles de nuevos puestos de trabajo en Europa. q Por todo ello, la apuesta por el Big Data por parte del sector público es un fenómeno en aumento… hasta tal punto que la Comisión Europea ha solicitado a los gobiernos nacionales que “abran los ojos ante la revolución del Big Data“. Página –8–
  • 9. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 UNIÓN EUROPEA, 4 julio 2014 q Neelie Kroes, vicepresidenta de la Comisión y responsable de la Agencia Digital Europea, declaró al respecto que: q  “ya es hora de que nos centremos en los aspectos positivos de los macrodatos (big data). Estos suenan negativos y alarmantes, pero la mayoría de las veces no lo son. Los líderes necesitan aprovecharlos”. Página –9–
  • 10. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 UNIÓN EUROPEA, 4 julio 2014 q Esta toma de posicionamiento de la Comisión se concreta en una comunicación al Parlamento titulada “Hacia una economía de los datos próspera” donde también se establece la definición que las instituciones europeas de Big Data: q “una gran cantidad de diferentes tipos de datos producidos a alta velocidad a partir de un gran número de diversos tipos de fuentes”. Página –10–
  • 11. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 UNIÓN EUROPEA, 4 julio 2014 q “Para manejar los conjuntos de datos muy variables y en tiempo real de hoy en día, se necesitan nuevas herramientas y métodos, como software, algoritmos y procesadores de gran potencia”. Página –11–
  • 12. 1212 IETEN Business&Technology School Prof. Luis Joyanes Aguilar BIG DATA El universo digital de datos
  • 13. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com) q 1TB (250.000 canciones) q 20 TB (fotos “uploaded” a Facebook cada mes) q 120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000) q 1 PB (datos procesados por los servidores de Google cada 75 minutos) Página –13–
  • 14. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Página –14–
  • 15. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 El universo digital de datos, IDC 2012 Pina –15–
  • 16. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 El universo digital de datos, 2013 Página –16–
  • 17. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2013 Página –17–
  • 18. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2013 q EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. Página –18–
  • 19. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2013 q La proliferación a nivel mundial de dispositivos, como PC y teléfonos inteligentes, aumentó el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por máquinas, como cámaras de vigilancia o contadores inteligentes, ha contribuido a la duplicación del Universo Digital en los últimos dos años solamente, hasta alcanzar un tamaño descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzará 40 ZB, cifra que supera las proyecciones anteriores en 14%. Página –19–
  • 20. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2013 q En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente: q  Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial. q Referencia: America Economia: http:// tecno.americaeconomia.com/noticias/el-gran-universo- digital-la-data-crece-mas-rapido-de-lo-que-podemos- protegerla Página –20–
  • 21. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2013 q EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. Página –21–
  • 22. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA AVALANCHA DE DATOS, 2013 q Twitter: (redes sociales) q 90 millones de tuits (tweets) por día que representa 8 Terabytes. q Boeing: (industria) q Vuelo transoceánico de un jumbo puede generar 640 Terabytes. q Wal-Mart: (comercio) q 1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes. q Google procesa al día 20 PB de información Página –22–
  • 23. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2015 q  Séptimo estudio de EMC sobre el universo digital. El estudio de este año, titulado El universo digital de las oportunidades: información valiosa y el aumento del valor de la Internet de las cosas, con investigación y análisis de IDC, revela cómo la aparición de las tecnologías inalámbricas, los productos inteligentes y los negocios definidos por software desempeñan un papel fundamental en el crecimiento exponencial de los datos en todo el mundo. Debido, en parte, a Internet de las cosas, el universo digital se duplica cada dos años y se multiplicará por diez entre 2013 y 2020 (de 4,4 zetabyttes a 44 zettabytes) Página –23–
  • 24. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2015 q Qué comprende la IoT La Internet de las cosas (IoT) comprende miles de millones de objetos cotidianos equipados con identificadores exclusivos y la capacidad de grabar, enviar y recibir datos automáticamente. q Por ejemplo: un sensor en el calzado que hace un seguimiento de la velocidad de una persona o un puente que hace un seguimiento de las naves de tránsito. Según IDC, la cantidad de dispositivos o cosas que se pueden conectar con la Internet está alcanzando los 200.000 millones hoy en día, con un 7% (o 14.000 millones) ya conectados y comunicándose por Internet. Página –24–
  • 25. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL UNIVERSO DIGITAL DE DATOS, 2015 q Los datos de estos dispositivos conectados representan un 2% de los datos mundiales hoy en día. IDC pronostica que, para el 2020, la cantidad de dispositivos conectados crecerá a 32.000 millones lo que representaría el 10% de los datos mundiales. q La Internet de las cosas también ejercerá una gran influencia en las gigantescas cantidades de “datos útiles” que se pueden analizar del universo digital. q En el año 2013, solo el 22% de los datos en el universo digital se consideraron datos útiles, pero menos del 5% de esos datos útiles se analizaron. Página –25–
  • 26. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Página –26–
  • 27. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué sucede en 1´ en INTERNET (2012) Página –27–
  • 28. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Informe de GP Bullhound, el banco de inversión líder en Europa (2012 vs 2013) Página –28–
  • 29. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Página –29–
  • 30. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Qué pasa en Internet en sólo un minuto … Universia, 17 mayo 2015 … Día de Internet q Se realizan 4,19 millones de búsquedas en Google q Se envían 136 millones de correos electrónicos q Se envían 433.000 tuits q Se suben 67.000 fotos a la red q Se descargan 50.200 apps desde la AppStore q Se reproducen 1.3 millones de videos en YouTube q Se escuchan 61.141 horas de música Página –30–
  • 31. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Qué pasa en Internet en sólo un minuto … Universia, 17 mayo 2015 … Día de Internet q Se crean 100 nuevas cuentas en LinkedIn q Se envían 44,4 millones de mensajes por WhatsApp q Se publican 6 artículos en la Wikipedia q Se transfieren 639.800GB de datos Página –31–
  • 32. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Qué pasa en Internet en sólo un minuto … Página –32–
  • 33. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA AVALANCHA / DILUVIO DE DATOS q El 90% de los datos acumulados en todo el mundo se han creado en los tres últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información. Página –33–
  • 34. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA AVALANCHA / DILUVIO DE DATOS q Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están “desestructurados”. q  El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores. Página –34–
  • 35. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA AVALANCHA / DILUVIO DE DATOS q La respuesta para ordenar este caos es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información. q Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street Página –35–
  • 36. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA AVALANCHA DE DATOS q Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012) q Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji. Página –36–
  • 37. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LA ERA DEL EXABYTE/ZETTABYTE CISCO q LA ERA DEL EXABYTE, CISCO . Estudio “Cisco Visual Networking Index (VNI) 2007-2012. Tráfico mundial de datos. q LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012- 2017. Tráfico mundial de datos (publicado en 2013) q  Página –37–
  • 38. 3838 Prof. Luis Joyanes Aguilar BIG DATA: Fundamentos
  • 39. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 MAPA DE ETIQUETAS DE BIG DATA Página –39–
  • 40. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) q UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas. Página –40–
  • 41. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: Gartner q Gartner* define “Big data” como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información q  www.gartner.com/id=2100215 Página –41–
  • 42. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: Gartner q “Big Data es la capacidad de analizar grandes volúmenes de datos de diferentes tipos y a gran velocidad, para mejorar los procesos de negocio actuales o crear nuevas áreas de oportunidad”. Página –42–
  • 43. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: IBM Página –43–
  • 44. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: IBM (5V-6V) Página –44–
  • 45. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: IBM q  VOLUMEN de datos procesados por las empresas ha crecido significativa y exponencialmente. q Google procesa 20 petabytes al día q En 2020 se esperan 42.000 millones de pagos electrónicos. q La Bolsa de Nueva York genera UN terabyte de datos al día q Twitter genera 8 TB Página –45–
  • 46. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: IBM q VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. q Flujo de datos a alta velocidad. q eBay se enfrenta al fraude a través de PayPal analizando cinco millones de transacciones en tiempo real al día. Página –46–
  • 47. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE BIG DATA: IBM q VARIEDAD: Big data es cualquier tipo de dato – estructurado y no estructurado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos “logs”, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, medios sociales, Una creciente variedad de datos necesitan ser procesados y convertidos a información Página –47–
  • 48. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Las dimensiones que se deben considerar al evaluar la viabilidad de una solución de datos grandes Página –48– q El valor empresarial de los conocimientos que pueden obtenerse al analizar los datos q Las consideraciones de gobernanza para los nuevos orígenes de datos y cómo los datos serán utilizados q Las personas con habilidades relevantes disponibles y el compromiso de los patrocinadores q El volumen de los datos que se están capturando q La variedad de orígenes de datos, tipos de datos y formatos de datos
  • 49. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Gobierno y control de los datos q La velocidad a la cual los datos son generados, la velocidad con la que se necesita actuar después o el ritmo al que están cambiando q La veracidad de los datos o, más aún, la incertidumbre o la confiabilidad de los datos Página –49–
  • 50. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Principales aplicaciones del Big Data ¿Dónde podemos participar los desarrolladores? q Big Data representa un conjunto de aplicaciones requeridas en distintas facetas. El primer ingrediente es el gran volumen de datos, aderezado con la variedad de datos heterogéneos que puede contener y la necesidad de ser procesados en la mayor velocidad posible Página –50–
  • 51. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Propiedades fundamentales de Big Data … Página –51–
  • 52. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Gobierno y control de los datos q Considere los siguientes problemas relacionados con el gobierno en el contexto de su situación: q Seguridad y privacidad— Al mantenerse en línea con las normativas locales, ¿a qué datos puede acceder la solución? ¿Qué datos pueden ser almacenados? ¿Qué datos deben ser cifrados durante la el movimiento? ¿Y en reposo? ¿A quién se le permite ver los datos en bruto y los conocimientos? q Estandarización de los datos— ¿Existen estándares que gobiernan los datos? ¿Los datos están en un formato de propietario? ¿Algunos de los datos están en un formato no estándar? Página –52–
  • 53. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Gobierno y control de los datos q Plazo durante el cual los datos están disponibles— ¿Los datos están disponibles durante un plazo que permita que se realicen acciones de forma oportuna? q Propiedad de los datos— ¿A quién pertenecen los datos? ¿La solución tiene acceso y permisos apropiados para utilizar los datos? q Usos permitidos: ¿Cómo se permite que se utilicen los datos? Página –53–
  • 54. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Gobierno y control de los datos q Llamamos Big Data a aplicar técnicas analíticas avanzadas a conjuntos de datos muy grandes y diversos que incluyen diferentes tipos, tales como estructurados y streaming / batch / no estructurada y diferentes tamaños desde terabytes hasta zettabytes. q  Big Data es un término que se aplica a los conjuntos de datos cuyo tamaño o tipo está más allá de la capacidad de las bases de datos relacionales tradicionales para capturar, gestionar y procesar los datos con baja latencia. Y tiene una o más de las siguientes características: alto volumen, alta velocidad, alta o de variedades. Página –54–
  • 55. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Gobierno y control de los datos q Los datos pueden venir de sensores, dispositivos de video / audio, redes, archivos de registro, aplicaciones transaccionales, web y medios sociales. Muchas de estas fuentes generan datos en tiempo real y en gran volúmen. q El análisis de estos datos permite a analistas, investigadores y usuarios de negocio tomar mejores y más rápidas decisiones a partir de datos que antes eran inaccesibles o inutilizables. Usando técnicas avanzadas de análisis, tales como análisis de texto, aprendizaje automático, análisis predictivo, minería de datos, estadísticas y procesamiento del lenguaje natural, las empresas pueden analizar las fuentes de datos sin explotar, de manera independiente o junto con sus datos de negocio internos para obtener nuevos enfoques a los problemas y poder diseñar nuevos productos. Página –55–
  • 56. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 GESTIÓN DE DATOS q Almacenamiento masivo de datos q Contextualizar los datos q Monitorización y seguridad de aplicaciones q Informes de operaciones: visualización de datos Página –56–
  • 57. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Almacenamiento masivo de datos q Para sacar provecho a la inmensa cantidad de datos, el primer paso es almacenarlos de la forma más eficiente posible. Los conocidos Data Warehouse que han dejado de ser almacenamientos “físicos” en la arquitectura de máquinas de la empresa para salir fuera, a la nube. El motivo es el abaratamiento de costes, pero también la facilidad de acceso. Se requieren expertos en cloud computing para que manejen, por ejemplo, tecnologías como SQL DataWarehouse de Microsoft, RedShift de AWS o soluciones ad-hoc creadas a partir de Cloud Elastic Search. Página –57–
  • 58. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Contextualizar los datos q La imagen idealizada de Big Data es que a partir de esos datos vamos a tener datos de "cómo actúan" nuestros usuarios. Para llegar ese “objetivo” necesitamos contextualizar los datos, aplicar lenguajes de análisis de datos utilizando Python o entornos más estadísticos como R para extraer esos datos. q Debido al gran volumen de datos, estos se tienen que “reducir” utilizando estrategias de MapReduce usando Hadoop, Spark o alternativas desarrolladas por Facebook como Presto Página –58–
  • 59. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Monitorización y seguridad de aplicaciones q La recolección de datos por medio de trazas, logs o eventos relevantes de comportamiento ayuda a predecir situaciones anómalas. La monitorización puede permitir detectar picos de uso y actuar en consecuencia, o por el contrario, atenuar cualquier ciberataque. q Lo fundamental es el uso de herramientas de tiempo real que permitan hacer el seguimiento en tiempo real y lanzar alertas. Página –59–
  • 60. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Informes de operaciones: visualización de datos q El Big Data no solo es cosa de desarrolladores. Profesiones, por ejemplo, como los periodistas demandan cada vez más datos de este tipo. Por lo que es necesario desarrollar herramientas de visualizar de datos, tanto para descubrir patrones de comportamiento o para ilustrar la información. Página –60–
  • 61. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Informes de operaciones: visualización de datos q Después de haber almacenado los datos y contextualizado las distintas fuentes, el último paso es la visualización de datos. Un reto en el que trabajan muy ligados los estadistas, diseñadores de UX , desarrolladores de realidad virtual y los propios científicos de datos. Página –61–
  • 62. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Puesta en marcha de un proyecto q 1. Identificación de objetivos y arquitectura q Aunque es cierto que Big Data está de moda, nadie sabe por dónde empezar. Es por eso que nosotros ayudamos a nuestros clientes a probar con mínimos proyectos viables que van sacando a la luz todo el conocimiento del negocio que nuestros clientes tienen; de esta forma, los clientes aportan su inteligencia de negocio y nosotros la infraestructura técnica necesaria sobre la que montar la lógica de negocio. Página –62–
  • 63. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Puesta en marcha de un proyecto q 2. Selección de fuentes q Encontramos diferentes fuentes de información para alcanzar los objetivos propuestos, en colaboración con nuestros clientes. De forma creativa, proponemos y combinamos los mejores conjuntos de datos internos y externos a su organización. q 3. Análisis de datos q Organizamos y analizamos las bases de datos utilizando las técnicas idóneas de analítica avanzada para cada caso. Diseñamos soluciones personalizadas para cada compañía, proporcionando herramientas de análisis que permitan tomar las mejores decisiones en su negocio. Página –63–
  • 64. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Puesta en marcha de un proyecto q 4. Comunicación de resultados q Creamos analíticas y gráficos en dashboards e informes con el objetivo de la comprensión total por parte del cliente. Los resultados son intuitivos y proporcionan una valiosa síntesis de los hallazgos encontrados. Con la información proporcionada se dota de valor a los grandes volúmenes de datos incluso en tiempo real, y se consiguen resultados que proporcionan impacto en el negocio. Página –64–
  • 65. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Fuentes de Big Data q Herramientas para análisis de datos en grandes volúmenes de datos. Infraestructuras de Big Data q Fuentes de Big Data (Soares 2012; Joyanes 2014): l Web y Social media l Machine-to-Machine (M2M, Internet de las cosas) l Biometría l Datos de transacciones de grandes datos (salud, telecomunicaciones…) l Datos generados por las personas (humanos) Página –65–
  • 66. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Sunil  Soares  (2003).  Big  Data  Governance  Emerging         Página –66–
  • 67. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Estructura de Big Data: tipos de datos q Estructurados q No estructurados l  No estructurados (texto, datos de vídeo, datos de audio,,,) l  Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs) q Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data q Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados Página –67–
  • 68. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE BIG DATA q Los Gigantes de Internet como Google, Amazon o Facebook basan su éxito en el valor de los “big data” sin ellos tendrían serias dudas de supervivencia. q Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas. q Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas” q  Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios. Página –68–
  • 69. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Página –69–
  • 70. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE BIG DATA q La central de reservas Amadeus (líneas aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS. q Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich. q El informe indica que “las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia”. Página –70–
  • 71. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE BIG DATA q La industria aérea comercial podría ahorrar 30 millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones. q Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en función de sofisticados sistemas de análisis de datos de clientes (MINERÍA DE DATOS) Página –71–
  • 72. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE BIG DATA q En España, un sistema privado de seguridad, Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes. q  “En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios” [Portavoz de Sanitas al periódico El País] Página –72–
  • 73. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE BIG DATA q Las farmacéuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad. q “hacer predicciones de comportamientos futuros de pacientes” son grandes ventajas de big data, que puede “mejorarnos la vida hasta límites insospechados”. Página –73–
  • 74. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) q UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas. Página –74–
  • 75. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Oportunidades en Big Data Oportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013) Fuente: http://www.gartner.com/technology/topics/big-data.jsp Página –75–
  • 76. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 RETOS Y OPORTUNIDADES q IDC entiende Big data como un nuevo valor económico basado en la toma de decisiones a partir del análisis de grandes volúmenes de datos procedentes de una amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a los datos móviles, los medios sociales y el Internet de las Cosas, un campo aún incipiente donde en 2020 convivirán 212.000 millones de dispositivos conectados. q Big data también ofrece riesgos. Fundamentalmente en privacidad y seguridad de los datos. Normas legales de la Unión Europea, sus países miembros, América… Página –76–
  • 77. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 RETOS Y OPORTUNIDADES q Sus ventajas para el negocio en áreas como la gestión de las relaciones con el cliente, el desarrollo de nuevos productos, la detección del fraude o la predicción del comportamiento de los consumidores permiten a las compañías obtener resultados financieros un 20% por encima de sus competidores, según estimaciones de Gartner. q Se entiende así que, una vez superada la fase de evaluación y prueba en la que todavía nos encontramos, la adopción creciente de Big data dispare un mercado que, de acuerdo con la firma de investigación, cerrará 2013 con un volumen de negocio asociado de 34.000 millones de dólares, 6.000 millones más que en 2012. Página –77–
  • 78. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 RETOS Y OPORTUNIDADES q Las promesas de Big data alcanzan a prácticamente todos los sectores de actividad, como demuestran las primeras experiencias de éxito emprendidas por organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su adopción se irá extendiendo a medida que los responsables TI vayan asumiendo el valor que aportan nuevos frameworks de software como Hadoop y los nuevos sistemas avanzados de almacenamiento, bases de datos, analítica y lenguajes de programación especialmente orientados a los grandes datos. Página –78–
  • 79. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Integración con Big Data. FUENTE: datalytics.com Página –79–
  • 80. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Integración con Big Data. FUENTE: datalytics.com Página –80–
  • 81. 8181 Prof. Luis Joyanes Aguilar OPEN DATA: Datos abiertos El Gobierno corporativo abierto
  • 82. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OPEN DATA (Datos abiertos) Página –82–
  • 83. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OPEN DATA (Datos abiertos) q Las administraciones públicas [de cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos. q Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos. Página –83–
  • 84. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OPEN DATA (Datos abiertos) q Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas q ¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio Página –84–
  • 85. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OPEN DATA (Datos abiertos) q La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa. q En España los primeros gobiernos fueron los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco. Página –85–
  • 86. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OPEN DATA (Datos abiertos) q La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano. q Un estudio de la UE ya en 2010 estimaba que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros. Página –86–
  • 87. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OPEN DATA EN LATAM… q Colombia. Catálogo de datos abiertos: q  http://www.datos.gov.co/frm/buscador/ frmBuscador.aspx http://www.datos.gov.co/frm/Entidades/ frmEntidades.aspx q Perú l  Portal de Datos Abiertos de la Municipalidad de Lima: http:// lima.datosabiertos.pe/home/ l  Portal de Datos Abiertos: http://www.datosperu.org/ Página –87–
  • 88. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 INICIATIVAS PIONERAS INTERNACIONALES EN OPEN DATA q En España… además de los gobiernos autonómicos de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org). http://datos.gob.es/ q En Estados Unidos data.gov, en Gran Bretaña data.gov.uk. q The Open Data Institute. Tim Berners-Lee: http:// theodi.org/ q En la Unión Europea (Iniciativa OPEN DATA): http:// open-data.europa.eu/es q  En Google (abril 2011, del número 1) la revista de negocios. // thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA. Página –88–
  • 89. 8989 Prof. Luis Joyanes Aguilar INTERNET DE LAS COSAS
  • 90. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 INTERNET DE LAS COSAS (OBJETOS) Página –90–
  • 91. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 MACHINE TO MACHINE (M2M) q Intercambio de información en formato de datos entre dos puntos remotos, bien a través de red fija o móvil sin interacción humana con características específicas en cuanto a tráfico y tarjetas SIM e integradas en la fabricación de dispositivos q Automatización de los procesos de comunicación entre máquinas, entre dispositivos móviles (celulares) y máquinas (Mobile to Machine) y entre hombres y máquinas (Man to Machine) q En 2011 había más de 1.500 millones de dispositivos alrededor del mundo conectados entre sí; 15.000 millones en 2013. Previsiones de Cisco, 25.000 millones para 2015 Página –91–
  • 92. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 INTERNET DE LAS COSAS (OBJETOS) q Cada día aumenta el número de dispositivos de todo tipo que proporcionan acceso a Internet. Las “cosas” que permiten y van a permitir estos accesos irá aumentando con el tiempo. Ahora ya tenemos videoconsolas, automóviles, trenes, aviones, sensores, aparatos de televisión, … y pronto el acceso se realizará desde los electrodomésticos Página –92–
  • 93. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 World Wide Web, Internet móvil, cloud computing, INTERNET DE LAS COSAS q Un mundo en el que miles de millones de objetos informarán de su posición, identidad e historia a través de conexiones inalámbricas … mediante tecnologías RFID, bluetooth, sensores inalámbricos, NFC, tecnologías “wearables”… q  La realización del “Internet de las cosas” , probablemente requerirá cambios dramáticos en sistemas, arquitecturas y comunicaciones,… Invisible es la descripción de las nuevas tecnologías empotradas “Computación ubicua”… A medida que avance su penetración: q  Producirá un CAMBIO SOCIAL, posiblemente, de tanto impacto y tan poco previsible, como las actuales tecnologías Web Página –93–
  • 94. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE IMPACTO DEL IoT* q Plataforma Satelise de Ferrovial (empresa multinacional constructora de infraestructuras, líder en España)… Está instalando en los peajes de autopistas una aplicación basada en tecnología satelital (GPS) para el pago de peajes sin barreras y la comunicación entre el conductor y la concesionaria mediante teléfonos inteligentes…. Ofrecerá otros servicios de valor añadido: trayectos de peaje y alternativos, información sobre el estado del tráfico, meteorología o cualquier tipo de incidente… pretende incorporar “comandos de voz” para evitar distracciones del conductor al volante. q *Actualidad económica, octubre 2013 Página –94–
  • 95. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 VENTAJAS Y RIESGOS DE IoT q VENTAJAS Y OPORTUNIDADES q CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca de 50 mil millones de dispositivos conectados a Internet, capaces de comunicarse entre sí, desde automóviles, aparatos de consumo en el hogar, teléfonos inteligentes, marcapasos, televisores, carros (coches), ropa inteligente, electrodomésticos, puertas - ventanas de hogares y edificios, PCs, tabletas… Infinitas ventajas q RIESGOS*… Hackers “maliciosos”, ciberespionaje … * Cibereespionajes, piratas y mafias, El País, febrero 2013 http:// elpais.com/elpais/2013/02/19/eps/1361281322_025092.html Página –95–
  • 96. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE IoT DE LA UIT q La definición que da la UIT de Internet de las cosas es "infraestructura mundial de la sociedad de la información, que ofrece servicios avanzados interconectando cosas (físicas y virtuales) utilizando las tecnologías de la información y la comunicación compatibles existentes y en evolución". La definición fundamental de la UIT, publicada el 4 de julio de 2012, es útil para comprender el concepto y un buen punto de partida para seguir analizando e investigando la Internet de las cosas. Es importante que la UIT señale que la Internet de las cosas es una "visión", no una sola tecnología, y que tiene "consecuencias tecnológicas y sociales". Página –96–
  • 97. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 NÚMERO DE OBJETOS CONECTADOS q En la Tierra hay muchas más cosas que personas, y el número de cosas que podrían formar parte de Internet de las cosas varía enormemente según los expertos. No importa la cifra exacta, sólo sabemos que es enorme! Por ejemplo, según estimaciones del Internet Business Solutions Group de Cisco, unos 25.000 millones de dispositivos estarán conectados a Internet en 2015, y 50.000 millones en 2020. Son por ejemplo aparatos móviles, parquímetros, termostatos, monitores cardíacos, neumáticos, carreteras, automóviles, estanterías de supermercados e incluso ganado. Página –97–
  • 98. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DEFINICIÓN DE LA UIT DE IoT q https://itunews.itu.int/Es/4503-Internet-de-las-cosas- Maquinas-empresas-personas-todo.note.aspx Página –98–
  • 99. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE IOT q El Ministerio de Industria, Energía y Turismo de ESPAÑA EN ENERO DE 2014 puso en marcha la convocatoria de ayudas para el desarrollo empresarial de proyectos tecnológicos innovadores por una cuantía de 140 millones de euros, de los que 20 millones son subvenciones y 120 préstamos. q Tras la publicación en el Boletín Oficial del Estado de la resolución de la Secretaría de Estado de Telecomunicaciones y para la Sociedad de la Información, hoy se abre el plazo para solicitar las ayudas dentro del Plan de Investigación Científica y Técnica y de Innovación 2013-2016. Página –99–
  • 100. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE IOT q Se financiarán líneas de actuación en infraestructuras de internet del futuro, componentes y sistemas electrónicos, soluciones para el desarrollo de computación en la nube, soluciones TIC Big Data, ciberseguridad y confianza digital, así como a los proyectos internacionales englobados en el programa EUREKA de apoyo a la I+D+i cooperativa en el ámbito europeo. Página –100–
  • 101. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE IOT q Entre los servicios que pueden mejorar significativamente se encuentran el suministro y consumo de energía o de agua, el transporte y la movilidad, la seguridad ciudadana y la protección civil, la creación de un entorno favorable para los negocios, el gobierno de la ciudad, la transparencia y participación ciudadanas, el soporte al turismo y al comercio, la gestión de residuos, la gestión del mobiliario urbano, la eficiencia energética de los edificios o la gestión de los aparcamientos. Página –101–
  • 102. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 APLICACIONES DE IOT q Otros campos de aplicación: La sanidad, para monitorizar a los pacientes y conectarlos a los médicos y demás profesionales sanitarios; los sectores de la energía y del transporte, para conectar a proveedores y clientes; el sector del retail, para predecir cuándo comprarán los consumidores; las telecomunicaciones y los servicios de información; los servicios financieros; o las fábricas inteligentes. En estos y otros campos es posible encontrar también casos muy concretos de aplicación, como el marketing y la publicidad, la educación, los vehículos o los juegos y el entretenimiento conectados o las redes eléctricas inteligentes, en los que las nuevas posibilidades alcanzan rendimientos máximos. Página –102–
  • 103. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 COMUNICACIÓN M2M q La comunicación machine to machine hará posible que los objetos intercambien información, facilitando la toma de decisiones de forma autónoma. q Habrá un aumento de la productividad de los procesos, debido a los nuevos paradigmas y modelos de negocios generados por el análisis de big data q Predicciones fiables hablan de que el 65% de los estudiantes que inician hoy sus estudios se dedicarán a trabajos que aún no están inventados Página –103–
  • 104. 104104 Prof. Luis Joyanes Aguilar Smart Cities CIUDADES INTELIGENTES
  • 105. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIUDADES INTELIGENTES (Smart Cities) q Las smart cities (o ciudades inteligentes) pueden ser un buen ejemplo de lo que es capaz de dar de sí el Internet de las Cosas. En ellas, la combinación de dispositivos, sensores, redes de comunicaciones, capacidad de almacenamiento y de procesamiento y plataformas de gestión hacen posible unas ciudades en la que se prestan servicios de una forma más eficiente y sostenible, mejorando la vida de los ciudadanos, las posibilidades de los negocios y el atractivo de la propia ciudad para conseguir turismo, talento e inversiones Página –105–
  • 106. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PRESENTE Y FUTURO DE LA CIUDAD q ¿Qué le parecería vivir en una ciudad con la que pueda interactuar? Una ciudad que actúe más como un organismo vivo, una ciudad que responda a sus necesidades... q Alrededor del mundo este tipo de ciudades ya están siendo construidas, desde Masdar en Abu Dhabi hasta Songdo en Corea del Sur… En España ciudades tradicionales como Málaga, Barcelona, Santander…. Página –106–
  • 107. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PRESENTE Y FUTURO DE LA CIUDAD q Ahora bien, la ciudad más cerca de usted podría estar a la espera de una renovación extrema. En el futuro, todo lo que hay en una ciudad, desde la red eléctrica pasando por las tuberías de alcantarillado y hasta las calles, edificios y automóviles estarán conectados a una red. q Habrá edificios que le apagarán la luz, carros que se manejen solos encontrarán ese tan anhelado espacio de parqueo. Hasta los basureros serán inteligentes. q Pero, ¿cómo nos preparamos para este futuro inteligente? ¿Quién hará un monitoreo y controlará los sensores que paulatinamente estarán más presentes en cada edificio, poste de luz y tubería? ¿Es ese el futuro que queremos? Página –107–
  • 108. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PRESENTE Y FUTURO DE LA CIUDAD q Los embotellamientos (trancones) son probablemente uno de los principales problemas de las grandes ciudades. A pesar de que gracias a la información disponible se puede predecir dónde pasarán los embotellamientos, lo que no es posible es descongestionar las calles de carros. q La compañía israelí Waze (adquirida por Google en 2013) le pide a los ciudadanos ayuda para resolver el problema y, con base en los datos de viajes reales enviados masivamente por sus fuentes, crea un mapa de las condiciones en tiempo real. Página –108–
  • 109. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PRESENTE Y FUTURO DE LA CIUDAD q La ciudad de Río de Janeiro puso en marcha una sociedad con Waze en un esfuerzo para adoptar la tecnología a su centro de operaciones. q Muchas corporaciones que se dedican a la tecnología como IBM, Siemens, Microsoft, Intel y Cisco actualmente tienen una enorme actividad comercializando software para resolver gran cantidad de problemas de las ciudades, desde escapes de agua hasta contaminación del aire y congestión vial. q En Singapur, Estocolmo y California IBM está recolectando información del tráfico y probándola a través de algoritmos para predecir dónde ocurrirá un embotellamiento una hora antes de que suceda Página –109–
  • 110. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PRESENTE Y FUTURO DE LA CIUDAD q Mientras tanto, Río de Janeiro cuenta con un centro de control al estilo de la NASA donde múltiples pantallas absorben la información generada por sensores y cámaras ubicados alrededor de la ciudad. q En total, IBM tiene alrededor de 2.500 proyectos alrededor del mundo e, incluso, ha registrado la marca "ciudades más inteligentes" (Smarter Cities). Página –110–
  • 111. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PRESENTE Y FUTURO DE LA CIUDAD q Las ciudades inteligentes necesitarán redes inteligentes en las que todo esté conectado. q "Necesitamos construir ciudades que se adapten a las necesidades de sus ciudadanos pero antes no era posible porque no había información suficiente" Página –111–
  • 112. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIUDADANÍA DIGITAL versus PRIVACIDAD q ¿Es una ciudad con sensores una ciudad con censura? q La primera fase de las ciudades inteligentes puede ser emocionante. La ciudad se convierte en un laboratorio viviente de tecnologías inteligentes que pueden gestionar todos los sistemas: desde el agua, al transporte, la seguridad, la basura, la energía limpia, etc. Pero, ¿en qué punto esta ciudad repleta de sensores puede convertirse en una ciudad que censura? En muchos sentidos, cuando ponemos en común todos los sistemas digitales que están en funcionamiento en una ciudad, tenemos una especie de "llave en mano" hacia una ciudad con censura. Página –112–
  • 113. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 El Proyecto EPIC de la UE (EU Platform for Inteligent Cities) de Smart City q Sus definiciones varían ampliamente y van desde el uso discreto de nuevas aplicaciones tecnológicas tales como RFID o la Internet de las cosas (IoT) o el Big Data; a una concepción más holística de inteligencia, integrando el trabajo que está estrechamente relacionado con el concepto de Living Labs y los servicios generados por los usuarios (user-generated services). Página –113–
  • 114. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 El Proyecto EPIC de la UE (EU Platform for Inteligent Cities) de Smart City q Mientras que la primera definición es ampliamente utilizada por las empresas TIC de todo tipo y tamaño. La segunda aproximación ha sido generalmente adoptada por la Comisión Europea. Desde principios de 1995, la Comisión Europea ha tratado de mejorar los servicios públicos, las transacciones e interacciones con los ciudadanos y las empresas europeas a través de la financiación y el despliegue de una amplia variedad de iniciativas estratégicas de TIC. Página –114–
  • 115. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Smart City según Gartner q La consultora Gartner en su Hype Cycle for Smart City Technologies and Solutions define la Smart City como “una zona urbanizada donde múltiples sectores públicos y privados cooperan para lograr resultados sostenibles a través del análisis de la información contextual intercambiada entre ellos. La interacción de la información procedente de sectores específicos y la que fluye entre diferentes sectores da como resultado ciudades más eficientes desde el punto de vista de los recursos, lo cual permite la provisión de servicios más sostenibles y más transferencia de conocimientos entre los sectores”. Página –115–
  • 116. 116116 Prof. Luis Joyanes Aguilar Tecnologías BIG DATA HADOOP
  • 117. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Logo de HADOOP Página –117–
  • 118. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Logo de HADOOP Página –118–
  • 119. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 BIG DATA (JOYANES) Página –119–
  • 120. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Hadoop q “The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model” q De la página de Hadoop Página –120–
  • 121. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Fundación Apache: proyectos open source q The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good q The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good Página –121–
  • 122. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Hadoop en la actualidad q Actualmente Hadoop es un framework muy extendido en el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas: q Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo. q Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información q Amazon A9: Se utiliza para la generar índices de búsqueda de los productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos q  cada uno. Página –122–
  • 123. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Hadoop en la actualidad q The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas. q Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres q Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source. Página –123–
  • 124. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Distribuciones de Hadoop Página –124–
  • 125. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Proveedores de Big Data q Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular q Otros ejemplos: MapR, Greenplum, Hortonworks, … Página –125–
  • 126. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 BIG DATA PARA MEJORAR LA SEGURIDAD Página –126–
  • 127. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 BIG DATA PARA MEJORAR LA SEGURIDAD q La evolución del panorama de amenazas obligará a mercado a adoptar tecnología analíticas de Big Data para satisfacer las necesidades de detección y rendimiento. Los servicios de reputación de amenazas han demostrado su utilidad para detectar malware, páginas web maliciosas, spam o ataques der red; el siguiente gran paso serán nuevos servicios de reputación que permitan identificar amenazas persistentes avanzadas de manera más rápida y precisa, y la analítica del Big Data tendrá mucho que aportar. Página –127–
  • 128. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 BIG DATA Y SEGURIDAD q Big Data y la nube podrían reemplazar a las ‘cajas negras’ de los aviones q A raíz de la trágica desaparición del vuelo MH370 de Malaysian Airlines el 8 de marzo de 2014, Malasia pidió a ITU que elaborara normas para facilitar la transmisión de datos de vuelo en tiempo real. La solución podría basarse en Big Data y la nube. q Los datos de las aeronaves, incluidos los de las cajas negras, podrían transmitirse en flujo continuo y almacenarse en centros de datos en tierra. Las tecnologías de Big podrían extraer y analizar esos datos sin necesidad de encontrar las cajas negras. Página –128–
  • 129. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 BIG DATA Y SEGURIDAD q Todas las aerolíneas comerciales y los aviones privados están obligados a instalar y utilizar “cajas negras” para registrar diversos parámetros de vuelo. El registrador de datos de vuelo está concebido para grabar los datos operativos de los sistemas del avión, incluida la altitud, la velocidad, la aceleración vertical, el rumbo y la posición de los sistemas de control. El registrador de voz de la cabina de pilotaje graba la voz de la tripulación y los sonidos dentro de la cabina de pilotaje. Estos equipos de control dan a los investigadores datos esenciales sobre las causas de un accidente. Página –129–
  • 130. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ANALÍTICA DE BIG DATA q Big Data y la nube podrían reemplazar a las ‘cajas negras’ de los aviones q A raíz de la trágica desaparición del vuelo MH370 de Malaysian Airlines el 8 de marzo, Malasia pidió a ITU que elabore normas para facilitar la transmisión de datos de vuelo en tiempo real. La solución podría basarse en Big Data y la nube. q  “Creemmos que los datos de las aeronaves, incluidos los de las cajas negras, podrían transmitirse en flujo continuo y almacenarse en centros de datos en tierra. Insto a la UIT a trabajar con las empresas privadas para buscar la mejor manera de controlar constantemente los datos de vuelo y lo que ocurre en la cabina de pilotaje. Con los adelantos de las TIC actuales deberíamos poder extraer y analizar esos datos sin necesidad de encontrar las cajas negras” Página –130–
  • 131. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ANALÍTICA DE BIG DATA q Todas las aerolíneas comerciales y los aviones privados están obligados a instalar y utilizar “cajas negras” para registrar diversos parámetros de vuelo. El registrador de datos de vuelo está concebido para grabar los datos operativos de los sistemas del avión, incluida la altitud, la velocidad, la aceleración vertical, el rumbo y la posición de los sistemas de control. El registrador de voz de la cabina de pilotaje graba la voz de la tripulación y los sonidos dentro de la cabina de pilotaje. Estos equipos de control dan a los investigadores datos esenciales sobre las causas de un accidente. “ITU invitará a los fabricantes de aviónica y aviones, así como a los operadores de satélites y las aerolíneas, a trabajar sobre nuevas normas para el rastreo de aeronaves en tiempo real Página –131–
  • 132. 132132 Prof. Luis Joyanes Aguilar CIENCIA DE DATOS (Data Science)
  • 133. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIENCIA DE DATOS (DATA SCIENCE) Página –133–
  • 134. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIENCIA DE DATOS q En los pasados 15 años se han realizado grandes inversiones en infraestructuras para los negocios, las cuales han mejorado la capacidad de recolección de los datos en la empresa. q Virtualmente, todos los aspectos de negocios están ahora abiertos a la recolección de datos y normalmente instrumentados para la recolección de los mismos: operaciones, fabricación, gestión de la cadena de suministro, comportamiento del cliente, rendimiento de las campañas de marketing, procedimientos de workflow, etc. Página –134–
  • 135. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIENCIA DE DATOS q La información está ahora ampliamente disponible en eventos externos de todas las naturalezas: tendencias de mercado, noticias de la industria, movimientos de los competidores, etc. q Esta amplia disponibilidad de datos ha conducido al interés crecientes en métodos de extracción de información y conocimiento útiles a partir de los datos: objetivos de la ciencia de datos. Página –135–
  • 136. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIENCIA DE DATOS q Con las vastas cantidades de datos ahora disponibles, las empresas en casi todas las industrias se centran en la explotación de los datos para conseguir ventajas competitivas. q En el pasado las empresas empleaban equipos de estadisticos, modeladores y analistas para explorar conjuntos de datos manualmente; pero el volumen, velocidad y variedad de los datos han reducido la capacidad del análisis manual. q Las técnicas de minería de datos han tomado gran fuerza para la ciencia de datos Página –136–
  • 137. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CIENCIA DE DATOS q Ciencia de datos es la extracción de información útil de grandes volúmenes de datos. La ciencia de datos necesita acceder a los datos, a la ingeniería de datos y a las tecnologías de procesamiento de datos. q La Ciencia de Datos es una especialización creciente que toca muchos de los siguientes áreas: Computación en nube, big data, matemáticas, estadística, métodos de optimización, teoría de negocios y teoría de ciencias de la computación. Página –137–
  • 138. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 DISCIPLINAS CLAVE DE DATA SCIENCE Página –138–
  • 139. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿En qué se está usando Data Science? q . Actualmente en campos como la economía y las finanzas (modelos predictivos de bolsa, operaciones de alta frecuencia), la medicina (seguimiento y predicción de pandemias, estudios de prevalencia de enfermedades bajo distintas variables), las compañías de transportes (para optimizar rutas aéreas, terrestres, marítimas), compañías alimenticias (seguimiento de popularidad en redes sociales, trazabilidad de las ventas), telecomunicaciones (prevención del fraude, incremento del “rendimiento” de los clientes), retail (incremento de las ventas por conocimiento de hábitos de consumo), etc. Página –139–
  • 140. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿En qué se está usando Data Science? q Las redes sociales, por ejemplo, son uno de los campos dónde más rápido está creciendo esta disciplina puesto que todas (casi todas) las compañías quieren y necesitan saber a quiénes les gusta sus productos y a quiénes no, lo que opinan de ellos, los perfiles de sus seguidores… q Estos son sólo algunos ejemplos de uso en algunos campos, pero existen muchísimos más. El potencial y las perspectivas de crecimiento de la ciencia de datos son enormes puesto que los datos no paran de aumentar exponencialmente y en consecuencia la adquisición del conocimiento necesario para la toma de decisiones Página –140–
  • 141. 141141 OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS Prof. Luis Joyanes Aguilar
  • 142. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA q El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey… q UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…) q Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS” Página –142–
  • 143. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 PROFESIONALES DE BIG DATA q El crecimiento del Big Data ha disparado la demanda de profesionales especialistas en el análisis de datos. q El portal de empleo Indeed.com anunció hace unos meses que el número de puestos de trabajo relacionados con el Big Data había crecido en un 15.000% entre los veranos de 2011 y 2012. q Las predicciones de McKinsey & Company sitúan en torno al 50% la brecha entre demanda y oferta de puestos relacionados con la analítica en EEUU en 2018 Página –143–
  • 144. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 NUEVAS PROFESIONES EN LA ECONOMÍA Y EMPRESA DIGITAL q Algunas de las profesiones o roles más demandados son: q Profesionales de big data : analistas, ingenieros de datos, consultores… q Profesionales de ciencia de datos q Profesionales de CIBERSEGURIDAD q Profesionales de INTERNET DE LAS COSAS y de CIUDADES INTELIGENTES Y DIGITALES. Página –144–
  • 145. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 NUEVOS ROLES PROFESIONALES Página –145–
  • 146. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 NUEVOS ROLES PROFESIONALES q En el ámbito de la información las nuevas profesiones que se van introduciendo en las empresas tienen una estrecha relación con el gestor de datos (data steward), la gestión de datos, la ciencia de los datos y la visualización de los datos. Y los perfiles profesionales que están directamente relacionados con esta nueva gestión de los datos van desde el bibliotecario, el archivista y el gestor de datos hasta el analista, el ingeniero y el periodista de datos Página –146–
  • 147. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Perfiles necesarios para conseguir aprovechar las nuevas oportunidades del Big Data q Expertos en Cloud Computing q Expertos en Visualización de datos q Expertos en Data Science q Expertos en Big Data q Expertos en Machine Learning (Aprendizaje máquina) Página –147–
  • 148. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Expertos en Cloud Computing q Es necesario contar con profesionales especializados en Cloud Computing. Ellos serán los encargados de liderar la administración y explotación de las infraestructuras. Las tendencias tecnologías marcan un arquitectura en la nube en sus distintas variantes: IaaS, PaaS o SaaS. q Las tecnologías más extendidas son Amazon Web Services o Azure de Microsoft, además de plataformas Google Cloud, BlueMix de IBM o Open Stack. Todo ello para poder implementar el orquestador más eficiente a la hora de realizar Continuous Integration y Continuous Delivery Página –148–
  • 149. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Expertos en Visualización de datos q Engloba dos facetas importantes: la extracción de datos a través de herramientas como MapReduce, Pentaho, Tableau, etc.. y la aplicación de R sobre esos datos. La visualización corre a cargo de frameworks de visualización como d3.js q Estos profesionales se encargan de diseñar las visualizaciones, extraer información de grandes volúmenes de datos, aplicar algoritmos complejos de visualización científica, definir qué datos son de interés y aplicarles métricas adecuadas. Además se introduce el componente de realidad aumentada y simulación con los datos extraídos. Página –149– Expertos en Visualización de datos
  • 150. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Expertos en Data Science q Son los “científicos de los datos” y combinan sus conocimientos de programación con la estadística y las matemáticas. En este punto es necesario recurrir a herramientas que faciliten su trabajo como R y Python combinándolo con las técnicas de almacenamiento de datos (bases de datos NoSQL), tratamiento de datos, análisis, teorías de grafos, técnicas de aprendizaje (machine learning) y, por último enlazar esos datos con la visualización. Página –150–
  • 151. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Expertos en Big Data q Este perfil es un especialista en uno de los pilares fundamentales de la gestión de grandes volúmenes de información: el procesamiento masivo de datos previo al análisis. Entre las herramientas más destacadas para realizarlo se encuentran Spark, Hadoop, MapReduce, Hive, Pentaho o AWS Elastic Map Reduce. q También hay que tener en cuenta la disponibilidad de datos en tiempo real utilizando HBase, Cassandra, Elastic Search, Storm, etc. Combinándolos con técnicas de visualización como D3.js. q Este es uno de los perfiles más completos a la hora de abordar un puesto de experto Página –151–
  • 152. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados… q Community Manager, Social Media Manager y Analista Web y SEO q Ingeniero de Cloud Computing (En España hay una universidad privada que inició el curso pasado un grado) q Ingeniero de negocios digitales (Digital Business Intelligence) q Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías “in-memory”…) q Analítica de datos (Analytics) y Analítica de Big Data Página –152–
  • 153. 153153 Prof. Luis Joyanes Aguilar EL CIENTÍFICO DE DATOS (Data Scientist)
  • 154. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL CIENTÍFICO DE DATOS q EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios. HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…) octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI): Página –154–
  • 155. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 EL CIENTÍFICO DE DATOS q  Thomas H. Davenport y D.J. Patil, October 2012 q  Harvard Business Review. https://hbr.org/ 2012/10/data-scientist-the-sexiest-job-of- the-21st-century/ar/1 q Thomas H. Davenport is a distinguished professor at Babson College, a research fellow at the MIT Center for Digital Business, and a senior adviser to Deloitte Analytics. He is at work on a book about automation in knowledge work. q D.J. Patil is the data scientist in residence at Greylock Partners, was formerly the head of data products at LinkedIn, and is the author of Data Jujitsu: The Art of Turning Data into Product (O’Reilly Media, 2012). Página –155–
  • 156. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 El Gobierno de Estados Unidos nombra un ‘científico de datos jefe’ q El pasado 18 de febrero, la Casa Blanca publicaba una nota firmada por su Directora de Tecnología Megan Smith, anunciando el fichaje de Patil como nuevo ‘Científico de datos jefe de Estados Unidos’. q  En la nota se explicaba que “el presidente Obama ha querido dar prioridad a la atracción de talento técnico de primera -como el de DJ- al Gobierno federal para aprovechar el potencial de la tecnología y la innovación y ayudar así al gobierno a servir mejor al pueblo americano”. q  Recuerda que Patil ya trabajó, antes de incorporarse al sector privado, en dos campos relacionados con su nueva responsabilidad: Página –156–
  • 157. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 El Gobierno de Estados Unidos nombra un ‘científico de datos jefe’ q El objetivo del fichaje de DJ Patil es, en palabras de Megan Smith, que éste pueda ayudar a diseñar las políticas que posibiliten que Estados Unidos siga siendo líder en materia de tecnología e innovación, que maximicen el retorno a la sociedad de su inversión en datos, y que posibiliten retener a las mejores mentes de la ciencia de datos, y a conseguir que se incoporen al servicio público. Patil también trabajará en la ‘Precision Medicine Initiative’, destinada a hacer uso de las mejoras en sanidad y ciencia de datos para proporcionar a los médicos nuevas herramientas, terapias y conocimientos para saber qué tratamientos funcionarán mejor con cada paciente, al tiempo que protege la privacidad del mismo. Página –157–
  • 158. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 La profesión de científico de datos q Esta profesión resulta vital para que las organizaciones puedan analizar y gestionar sus datos para la toma de mejores decisiones de negocio. q  El deseo de ser científico de datos es una tendencia que se expande rápidamente por el mundo. Estados Unidos abandera el liderazgo, Europa y España, ya comenzaron en 2014 y continuan en 2015. Latinoamérica y Colombina en particular han comenzado a participar en esta carrera. tecnología. q El uso de científicos de datos es un hecho contrastado en las más grandes y reconocidas organizaciones: Google, Netflix, Facebook, Youtube, Twitter, Square, NBC, Dow Jones… q  Página –158–
  • 159. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 “Científico de datos es la profesión #1 para el año 2015” q Glassdoor, consultora de referencia en EE.UU. Publicó a primeros de 2015 un estudio de salarios y destacaba que el salario promedio de un científico de datos es U$118.709 contra U$64.537 de un programador. Un estudio de McKinsey predice que para el 2018, los EE.UU. podrían enfrentar una escasez de 140.000 a 190.000 “personas con profundas habilidades analíticas”, así como 1,5 millones de “gestores y analistas con el know-how de utilizar el análisis de grandes datos para tomar decisiones efectivas”. Página –159–
  • 160. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 OFERTAS DE EMPLEO q Según la consultora de analítica empresarial SAS, Colombia, Brasil, México y Ecuador serán las principales sedes de creación de científicos de datos. Las empresas latinoamericanas -pequeñas o grandes-, si esperan crecer deberán contar, de aquí a dos años, con al menos un científico de datos. Portales de empleo como SimplyHired.Com y LinkedIn, han estimado un sueldo mensual de entre 7000 y 10.000 dólares. q Se estima que en los próximos 5 años, en América Latina se suplan unas 300.000 vacantes, representando un 7.5% de la demanda actual de estos profesionales. Página –160–
  • 161. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Una OFERTA MODELO DE TRABAJO Una oferta de trabajo actual… Página –161–
  • 162. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LOS PROFESIONALES MÁS BUSCADOS q Necesidad de especialistas en: l Cloud Computing l Big Data l Software SaaS l Aplicaciones para móviles y tabletas l Programadores para apps móviles l Consultores de herramientas de business intelligence y analytics (analítica de datos / analítica de negocios) Página –162–
  • 163. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 LOS PROFESIONALES MÁS BUSCADOS q Analistas de Big Data q Científicos de datos (data scientist) q CDO (Chief Data Officer) q SEO (Optimización de motores de búsqueda q CTO (Chief Technology Officer) q Analistas de datos M2M/Internet de las cosas Página –163–
  • 164. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué puede hacer un científico de datos? q Aunque un científico de datos aporte grandes ventajas en temas puntuales en una organización. Su impacto suele trascender a las más altas esferas y círculos de decisión. No solo es el pilar desde el que una empresa construye una estrategia exitosa de negocios basada en la analítica de alto desempeño, sino que también se ha constituido en el principal colaborador de los directores para llevarlos a tomar mejores decisiones empresariales. Estos son algunos de los aportes específicos que pueden hacer los científicos de datos en una organización: q  http://www.vanguardia.com/mundo/tecnologia/308034- colombia-uno-de-los-paises-que-mas-cientificos-de-datos- tendra q  Página –164–
  • 165. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué puede hacer un científico de datos? q 1. Predecir el futuro. Un científico de datos visualiza y analiza los datos para predecir lo que puede llegar a pasar en un mercado ante una decisión de la empresa o de sus competidores. q 2. Ayudar a tomar mejores decisiones. Los análisis predictivos de un científico de datos pueden ayudar a un gerente o presidente de compañía a saber cuándo debe abrir una nueva operación, qué mercado le puede convenir y en qué momento debe hacerlo, entre muchas otras decisiones Página –165–
  • 166. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué puede hacer un científico de datos? q 3. Encaminar los planes de mercadeo. Lanzar un nuevo producto o crear una promoción es una decisión que se suele tomar con base en la intuición o lo que ha funcionado en el pasado. Un científico de datos no solo recurre al pasado (la inteligencia de negocios) sino que anticipa el futuro a través del poder predictivo de la analítica de negocios. Página –166–
  • 167. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué puede hacer un científico de datos? q 4. Ayudar a mejorar los niveles de servicio o atención a ciudadanos. En una empresa o una entidad pública, saber a ciencia cierta qué quieren los clientes o ciudadanos es el primer paso para elevar los niveles de satisfacción. En el caso, por ejemplo, de DJ Patil, el primer científico de datos de la Casa Blanca, una de sus principales funciones será la de utilizar los datos como vía para que el Gobierno pueda ofrecer a los ciudadanos tratamientos de salud cada vez más personalizados, desarrollando herramientas clave para ponerlas a disposición de médicos y hospitales en todo Estados Unidos. q  Página –167–
  • 168. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué hace un científico de datos? q El científico de datos, una de las profesiones mejor remuneradas en el mundo de la tecnología, es un individuo especializado en: q Matemáticas y estadística que muestra un dominio fluido de la programación y las ciencias informáticas o de computación, así como una gran capacidad analítica. Página –168–
  • 169. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Científico de datos, la profesión del futuro en Colombia http://www.rcnradio.com/tecnologia/cientifico- de-datos-la-profesion-del-futuro-en-colombia/ q El propósito de un científico de datos es, básicamente, tomar la enorme cantidad de información que proporciona el Big Data, procesarla y comunicarla de manera que le sea útil a las empresas, haciendo que tomen mejores decisiones de negocio. Página –169–
  • 170. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q Un estudio de MIT Sloan Management Review señala que para que una empresa sea competente en este ámbito no basta con contratar a expertos en datos (matemáticos, estadísticos o ingenieros de datos), sino formar al conjunto de la plantilla para que todos los departamentos entiendan qué es el big data y de qué forma puede ayudar a transformar y optimizar los resultados. Para ello recomienda: Página –170–
  • 171. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q Buscar talento analítico dentro de la empresa. El 63% de las compañías encuestadas está buscando perfiles dentro de sus plantillas a los que les interese el big data. La razón es sencilla: los empleados conocen los entresijos del negocio y es necesario formarlos para que trabajen conjuntamente con los matemáticos o estadísticos. “Se trata de identificar a trabajadores a los que les interese analizar los datos y ponerlos en valor para que luego puedan diseñar acciones concretas para mejorar los resultados”, indica el informe. Página –171–
  • 172. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q A la hora de fichar a data scientist todas las empresas se encuentran con el mismo problema; la escasez en el mercado de estos profesionales. El hecho de poner en marcha programas formativos tendrá otra consecuencia positiva: la empresa tendrá el doble de posibilidades de atraer a estos perfiles, señala el informe. “Normalmente los científicos de datos prefieren ir a compañías donde el big data es parte esencial de la estrategia”, indica Página –172–
  • 173. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q Integrar a los científicos de datos. Las empresas encuestadas ponen más esfuerzos en formar a sus gestores en big data (49%) que en conseguir que sus científicos de datos entiendan mejor cómo funciona el negocio (34%). Error. “Ambos deben acercar posiciones y entender la importancia del otro lado”, asegura Meco. “A los científicos de datos no les enseñan en la universidad formas efectivas de comunicar la utilidad de los datos a los diferentes departamentos de una empresa, ponen el foco en aspectos técnicos. Por ello es la propia compañía la que debe asegurar que haya comunicación y que los estadísticos no trabajen de forma aislada”, añade Página –173–
  • 174. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q Además de saber interpretar los datos externos a las compañías, es imprescindible saber analizar los propios y ser capaz de predecir posibles cambios para reaccionar a tiempo. q Ejemplo de ello es el Hospital La Fé de Valencia, el primero que ha implantado modelos predictivos a partir del big data. Este centro hospitalario está utilizando un programa de visual analytics de la empresa SAS para mejorar la asistencia a pacientes crónicos. “Han analizado durante un año factores como la periodicidad con la que los pacientes acuden al hospital solicitando un ingreso o durante qué semanas de la enfermedad suelen agravarse los síntomas. De ahí han extraído patrones y ahora son capaces de programar con antelación tanto el ingreso de nuevos pacientes como las recomendaciones médicas pertinentes según avanza la patología” Página –174–
  • 175. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q Otro caso es el de la compañía de seguros Caser. Fundada en 1942, dio un giro a su cultura empresarial hace cuatro años para integrar el big data en la toma de decisiones. De un departamento formado por 12 expertos en datos que trabajaban “aislados” elaborando informes, se pasó a un equipo de 21 miembros que se integraron en diferentes departamentos con el rol claro de analistas de datos. Además, los 1.200 empleados de la sede de Madrid recibieron formación para aprender a valorar e interpretar los gráficos de datos. “No basta con contratar a un par de matemáticos. Página –175–
  • 176. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q Desde que el big data es parte esencial en su toma de decisiones han conseguido reducir un 4,2% la cancelación de seguros de salud de clientes “de alto valor”, y un 2% la de seguros del hogar. “El análisis de datos nos permite identificar patrones de comportamiento de los clientes que nos abandonan y diseñar acciones a través del departamento de marketing para anticiparnos a esa decisión y ofrecer incentivos como una cuota mensual gratis”. Ahora saben que cuando un cliente pinta todo el coche hay muchas probabilidades de que lo quiera vender y, por lo tanto, cancelar el seguro. Rápidamente ponen a funcionar la maquinaria y les ofrecen algún tipo de descuento Página –176–
  • 177. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 FORMACIÓN DE LA PLANTILLA q En estos casos podemos resaltar la figura del Científico o Analista de Datos como perfil esencial para el desarrollo de soluciones de análisis que extraigan valor de los datos. Además de este cargo, es necesario introducir otros roles que se encarguen de la infraestructura y arquitectura de la solución, así como de la generación de nuevas oportunidades de servicios basado de Analytics entre otros Página –177–
  • 178. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Las categorías de “científico de datos”: q 1 – Expertos en estadística: desarrollan nuevas teorías estadísticas para Big Data, que a veces los estadísticos tradicionales ni siquiera entienden. Son expertos en modelos estadísticos, diseño experimental, muestreo, agrupación, reducción de datos, intervalos de confianza, pruebas, modelado, modelos predictivos y otras técnicas relacionadas. q 2 – Expertos en matemáticas: la NSA o gente que trabaja en temas de Big Data en defensa, astrónomos y personal de investigación que se encarga de la optimización analítica del negocio (gestión de inventario, optimización de precios, cadena de suministro, control de calidad, optimización de rendimiento) de manera que se encarguen de recoger, analizar y extraer valor de los datos. Página –178–
  • 179. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Las categorías de “científico de datos”: q 3 – Expertos en ingeniería de datos, Hadoop, optimización y arquitectura de base de datos/ memoria/ sistemas de archivos, API, analytics como servicio, optimización de flujo de datos y ‘data plumbing’. q 4 – Expertos en el aprendizaje científico o máquina (learning machine), ciencias de la computación (algoritmos, complejidad computacional). Página –179–
  • 180. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Las categorías de “científico de datos”: q 5 – Expertos en el negocio, la optimización del ROI, ciencias de la decisión, o los que participan en tareas que tradicionalmente realizan analistas de negocio en grandes empresas (diseño dashboards, selección de combinación métrica y definición métrica, optimización del ROI, diseño de bases de datos de alto nivel). q 6 – Expertos en desarrollo de producción de código e ingeniería de software (conocimiento de los lenguajes de programación). q 7 – Expertos en visualización. q 8 – Expertos en GIS, datos espaciales, datos modelados por gráficos y bases de datos gráficas Página –180–
  • 181. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Las categorías de “científico de datos”: q Gracias al Big Data, surge la figura del científico de datos, encargado de buscar nuevas fuentes de información, normalizar de forma automatizada la información que encuentre y procesar una enorme cantidad de datos que permitirán obtener una información final mucho más fiable, así como también analizar nuevas perspectivas que antes era simplemente imposible analizar, principalmente por el coste y tiempo que supondría. Página –181–
  • 182. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Conocimientos específicos del CD (DS) q Un científico de datos debe poseer: 1. Matemáticas / estadística. 2. Avanzados conocimientos de programación en diferentes lenguajes (Java, JavaScript, C/C++, Python, R, PHP…) Otras herramientas Open Source: Hadoop, Spark , Scala q 3. Computación q 4. Analítica q 5. Conocimiento de un dominio de negocio. Página –182–
  • 183. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Conocimientos específicos del CD (DS) q Por ello, ha destacado que lo que se busca ahora es profesionales con un perfil “más horizontal”, es decir, lo que ahora se llama ingenieros full- stack, porque puedan desarrollar en PHP, en Python, en HTML… q Y esto debe complementarse con una base matemática, con el objetivo de que “sepan y puedan entender códigos matemáticos, algoritmos”, e incluso tener conocimientos de negocio “para poder entender el porqué de los servicios que pueden ofrecerse con los datos”. Página –183–
  • 184. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Conocimientos específicos del CD (DS) q Las nuevas tecnologías y el desarrollo del big data necesitan de profesionales con habilidades en campos como informática, matemáticas, estadística, negocios, analítica, ciencias de la computación, que dominen la programación y sus diferentes lenguajes. Estos profesionales son los científicos de datos, y son clave para el mundo en el que vivimos y es considerada la profesión del futuro. Página –184–
  • 185. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Conocimientos específicos del CD (DS) q Matemáticas y Estadística, pero además se precisa de diversos conocimientos tecnológicos: q Bases de datos relacionales, SQL q Bases de datos no relacionales NoSQL... “en memoria (in-memory)… q Lenguajes de programación: R, Python q Machine Learning q Programación de altas prestaciones, programación distribuida, Hadoop… Página –185–
  • 186. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué diferencia a un científico de datos de un analista de datos tradicional? q A diferencia de un analista de datos tradicional, que suele mirar los datos obtenidos de una única fuente (un CRM por ejemplo), un científico de datos no sólo podrá extraer y examinar los datos de múltiples fuentes (Google Analytics, CRMs, páginas web, logs de aplicaciones, etc), sino que además deberá tener una fuerte visión de negocio. q Su trabajo consiste en obtener las respuestas para las preguntas o problemas de negocio que se planteen en la empresa, busca los orígenes de datos disponibles, extrae los que son relevantes y los examina. De su examen obtendrá “el conocimiento”, lo que proporcionará una ventaja competitiva a la empresa, siendo además capaz de extraer y transmitir recomendaciones a los responsables de negocio de la empresa. Página –186–
  • 187. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 ¿Qué habilidades son recomendables que tenga un científico de datos? q Como ya hemos indicado, el científico de datos debe responder a cuestiones de negocio basadas en los datos y ser capaz de presentarlas de modo efectivo. Por tanto un científico de datos deberá tener diferentes habilidades y en campos muy distintos: Página –187–
  • 188. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Habilidades científicas q Que le permitan responder a las cuestiones planteadas. ¿Qué proceso seguirá para responder a esas cuestiones? q Extraer los datos, independientemente de su fuente (webs, .csv, logs, apis, etc) y de su volumen (Big Data o Small Data). q Limpiar los datos, para eliminar aquello que distorsiona los mismos. q Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.). q Diseñar nuevos test o experimentos en caso necesario. q Visualizar y presentar gráficamente los datos. Página –188–
  • 189. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Habilidades tecnológico/matemático q A nivel informático: deberá ser capaz de programar en R y/o Python para la extracción y limpieza de los datos. Además R dispone de diferentes paquetes estadísticos que facilitan el análisis y presentación de los datos. Complementarios: conocimientos de bases de datos SQL y NoSQL (Cassandra), Hadoop, Mapreduce, Hive y Pig q A nivel matemático/estadístico: modelado estadístico, inferencia estadística, diseño de test, y si queremos ir un paso más allá, aprendizajes supervisados y no supervisados y machine learning. q Para presentación/visualización de los datos: existen infinidad de herramientas, desde el clásico PowerPoint, pasando por Tableau, Prezi y otras muchas. Página –189–
  • 190. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 Habilidades sociales y de negocio q Habilidades “sociales” q Que le permitan presentar las conclusiones obtenidas de manera exitosa a cualquier “nivel” de la organización. Deberá ser por tanto un buen comunicador capaz de empatizar con la audiencia. q Habilidades de “negocio” q Deberá ser un apasionado del negocio y sus datos, conocer bien la empresa, sus objetivos, necesidades, preocupaciones y motivaciones y, por supuesto, conocer la competencia. Todo ello le proporcionará el contexto adecuado en el que interpretar los datos. Página –190–
  • 191. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 La caja de herramientas del científico de datos q La Ciencia de Datos se erige en nuestros días como una profesión multidisciplinar. q La Ciencia del Dato se erige en nuestros días como una profesión multidisciplinar en la cual conocimientos técnicos de diversas áreas se solapan formando un perfil más propio del Renacimiento que del superespecializado Siglo XXI. q Dada la escasez de formación estructurada en la materia, los científicos de datos se ven obligados a ir coleccionando conocimientos, habilidades y herramientas que les permitan desarrollar de forma óptima sus competencias. Página –191–
  • 192. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CAJA DE HERRAMIENTAS DEL CIENTÍFICO DE DATOS Página –192– q La primera pregunta que surge es qué se utiliza más, si las herramientas open source o software propietario. Según la 16ª encuesta de KDnuggets, la mayoría de los científicos, un 64% utilizan ambas
  • 193. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 CAJA DE HERRAMIENTAS DEL CIENTÍFICO DE DATOS Página –193–
  • 194. © Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015 KDnuggets: Las 10 herramientas más utilizadas son: www.kdnuggets q R, lenguaje de programación y entorno de software de código abierto para programación estadística y entornos gráficos. Es la más utilizada entre científicos y mineros de datos lo que implica la existencia de múltiples librerías y paquetes fácilmente reutilizables. Página –194–