More Related Content Similar to Big data&data science vfinal (20) More from Luis Joyanes (8) Big data&data science vfinal1. 11
Prof. Luis Joyanes Aguilar
BIG DATA & DATA SCIENCE
Los pilares del Científico de Datos
UNIVERSIDAD TECNOLÓGICA DE PEREIRA
Centro de Innovación Tecnológica
20 de agosto, 2015
2. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Harvard Business Review, octubre 2012
Página –2–
3. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Foreign Affairs, mayo 2013
Página –3–
4. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Revista BBVA, innovation edge, junio 2013
Página –4–
5. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CONSULTORA GARTNER, mayo 2014
q Según Gartner –similar a otras consultoras como
OBS, Forrester- estima que la inversión en
servicios de Big Data será de 132.000
millones de dólares ( 96.000 millones
de euros) en 2015, lo que generará unos
4,4 millones de empleos en todo el mundo.
Gracias al Big Data el Producto Interno Bruto
(PIB) de la Unión Europea crecerá un 1,9%
adicional para 2020.
Página –5–
6. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CONSULTORA GARTNER, mayo 2014
q Por sectores, las mayores inversiones
en soluciones de Big Data se harán en:
q Comercio, Industria, Salud,
Información y Comunicaciones,
Banca y Finanzas, Seguros y
Administración Pública.
Página –6–
7. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CONSULTORA GARTNER, mayo 2014
q A nivel global, el 79% de las empresas creen
que Big Data mejorará su toma de decisiones,
el 58% cree que será un factor determinante
en el éxito y el 36% obtiene ya ventajas
competitivas.
q El 29% de las empresas no cuentan con
iniciativas alrededor de Big Data,
principalmente por temas presupuestarios,
conocimientos técnicos sobre la tecnología, no
identificación de su ROI y falta de preparación
cultural por parte de la empresa.
Página –7–
8. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q A cada minuto se genera en el mundo datos por el
equivalente a 360.000 DVD. Como consecuencia de ello,
el sector de datos crece un 40% al año, siete veces
más rápido que el mercado global de la información y de
las comunicaciones: aumentará 16.900 millones de
dólares USA en el 2015 y los datos crearán cientos de
miles de nuevos puestos de trabajo en Europa.
q Por todo ello, la apuesta por el Big Data por parte del
sector público es un fenómeno en aumento… hasta tal
punto que la Comisión Europea ha solicitado a
los gobiernos nacionales que “abran los
ojos ante la revolución del Big Data“.
Página –8–
9. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q Neelie Kroes, vicepresidenta de la Comisión y
responsable de la Agencia Digital Europea,
declaró al respecto que:
q “ya es hora de que nos centremos en los
aspectos positivos de los macrodatos
(big data). Estos suenan negativos y
alarmantes, pero la mayoría de las veces
no lo son. Los líderes necesitan
aprovecharlos”.
Página –9–
10. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q Esta toma de posicionamiento de la Comisión se concreta en
una comunicación al Parlamento titulada “Hacia una
economía de los datos próspera” donde
también se establece la definición que las instituciones
europeas de Big Data:
q “una gran cantidad de diferentes tipos
de datos producidos a alta velocidad a
partir de un gran número de diversos
tipos de fuentes”.
Página –10–
11. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
UNIÓN EUROPEA, 4 julio 2014
q “Para manejar los conjuntos de datos
muy variables y en tiempo real de hoy
en día, se necesitan nuevas
herramientas y métodos, como
software, algoritmos y procesadores
de gran potencia”.
Página –11–
13. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA ERA DEL PETABYTE -2- . Wired ,
julio 2008 (www.wired.com)
q 1TB (250.000 canciones)
q 20 TB (fotos “uploaded” a Facebook
cada mes)
q 120 TB (todos los datos e imágenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climático en
EEUÜ compilados por el National Climatic Data Center); 530 TB
(Todos los vídeos de YouTube); 600 TB (base de datos de
genealogía, incluye todos los censos de EEUU 1790-2000)
q 1 PB (datos procesados por los
servidores de Google cada 75 minutos)
Página –13–
14. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): “data, data everywhere”
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –14–
15. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El universo digital de datos, IDC 2012
Pina –15–
16. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El universo digital de datos, 2013
Página –16–
17. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
Página –17–
18. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: “Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East”. El
estudio arrojó que, a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que solo
0,5% de los datos mundiales se analizan.
Página –18–
19. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q La proliferación a nivel mundial de dispositivos, como PC y
teléfonos inteligentes, aumentó el acceso a Internet
dentro de los mercados emergentes, y el incremento de
datos generados por máquinas, como cámaras de
vigilancia o contadores inteligentes, ha contribuido a la
duplicación del Universo Digital en los
últimos dos años solamente, hasta alcanzar
un tamaño descomunal de 2,8 ZB. IDC
proyecta que, para el 2020, el Universo
Digital alcanzará 40 ZB, cifra que supera
las proyecciones anteriores en 14%.
Página –19–
20. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q En términos de volumen, 40 ZB de datos son
equivalentes a lo siguiente:
q Existen 700.500.000.000.000.000.000 granos de arena en todas las
playas del mundo (o setecientos trillones quinientos mil billones). Esto
significa que 40 ZB equivalen a 57 veces la cantidad de
granos de arena de todas las playas del mundo. Si
pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad,
el peso de dichos discos (sin fundas ni estuches) sería equivalente a
424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona
a nivel mundial.
q Referencia: America Economia: http://
tecno.americaeconomia.com/noticias/el-gran-universo-
digital-la-data-crece-mas-rapido-de-lo-que-podemos-
protegerla
Página –20–
21. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2013
q EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: “Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East”. El
estudio arrojó que, a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que
solo 0,5% de los datos mundiales se
analizan.
Página –21–
22. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA DE DATOS, 2013
q Twitter: (redes sociales)
q 90 millones de tuits (tweets) por día que representa 8
Terabytes.
q Boeing: (industria)
q Vuelo transoceánico de un jumbo puede generar 640
Terabytes.
q Wal-Mart: (comercio)
q 1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
q Google procesa al día 20 PB de información
Página –22–
23. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2015
q Séptimo estudio de EMC sobre el universo digital. El
estudio de este año, titulado El universo digital de las
oportunidades: información valiosa y el aumento del
valor de la Internet de las cosas, con
investigación y análisis de IDC, revela cómo la aparición
de las tecnologías inalámbricas, los productos
inteligentes y los negocios definidos por software
desempeñan un papel fundamental en el crecimiento
exponencial de los datos en todo el mundo. Debido, en
parte, a Internet de las cosas, el universo digital se duplica
cada dos años y se multiplicará por diez entre 2013 y 2020
(de 4,4 zetabyttes a 44 zettabytes)
Página –23–
24. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2015
q Qué comprende la IoT
La Internet de las cosas (IoT) comprende miles de
millones de objetos cotidianos equipados con
identificadores exclusivos y la capacidad de grabar, enviar
y recibir datos automáticamente.
q Por ejemplo: un sensor en el calzado que hace un
seguimiento de la velocidad de una persona o un puente
que hace un seguimiento de las naves de tránsito. Según
IDC, la cantidad de dispositivos o cosas que se pueden
conectar con la Internet está alcanzando los 200.000
millones hoy en día, con un 7% (o 14.000
millones) ya conectados y comunicándose por
Internet.
Página –24–
25. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL UNIVERSO DIGITAL DE DATOS, 2015
q Los datos de estos dispositivos conectados representan un
2% de los datos mundiales hoy en día. IDC pronostica
que, para el 2020, la cantidad de dispositivos conectados
crecerá a 32.000 millones lo que representaría el 10% de
los datos mundiales.
q La Internet de las cosas también ejercerá una gran
influencia en las gigantescas cantidades de “datos útiles”
que se pueden analizar del universo digital.
q En el año 2013, solo el 22% de los datos en el universo
digital se consideraron datos útiles, pero menos del 5%
de esos datos útiles se analizaron.
Página –25–
26. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Página –26–
27. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué sucede en 1´ en INTERNET (2012)
Página –27–
28. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Informe de GP Bullhound, el banco de
inversión líder en Europa (2012 vs 2013)
Página –28–
29. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Página –29–
30. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Qué pasa en Internet en sólo un
minuto …
Universia, 17 mayo 2015 … Día de Internet
q Se realizan 4,19 millones de búsquedas en Google
q Se envían 136 millones de correos electrónicos
q Se envían 433.000 tuits
q Se suben 67.000 fotos a la red
q Se descargan 50.200 apps desde la AppStore
q Se reproducen 1.3 millones de videos en YouTube
q Se escuchan 61.141 horas de música
Página –30–
31. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Qué pasa en Internet en sólo un minuto …
Universia, 17 mayo 2015 … Día de Internet
q Se crean 100 nuevas cuentas en LinkedIn
q Se envían 44,4 millones de mensajes por
WhatsApp
q Se publican 6 artículos en la Wikipedia
q Se transfieren 639.800GB de datos
Página –31–
32. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Qué pasa en Internet en sólo un minuto …
Página –32–
33. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA / DILUVIO DE DATOS
q El 90% de los datos acumulados en todo el
mundo se han creado en los tres últimos
años. Cada día se escriben 400 millones de
tuits, cada minuto se crean 600 nuevos
blogs y cada segundo se registran 10.000
transacciones de pagos con tarjetas.
Objetos cotidianos como los carros, los
relojes o las gafas están comenzando a
conectarse a Internet para alimentar
nuevos servicios que requieren un
constante intercambio de información.
Página –33–
34. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA / DILUVIO DE DATOS
q Los Ayuntamientos siembran las calles con
sensores de recogida de datos para facilitar la
vida de los ciudadanos. Cada día se recogen 2,5
trillones de bytes de datos, y los directivos de las
empresas apenas pueden manejar la mitad de los
generados en su entorno porque el 80% de ellos
están “desestructurados”.
q El número de dispositivos en red duplicará a
la población mundial en 2015 y los datos que
generen se convertirán en información utilizada por las
empresas para anticipar las necesidades de los
consumidores.
Página –34–
35. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA / DILUVIO DE DATOS
q La respuesta para ordenar este caos es big
data, la nueva herramienta para
sistematizar los datos procedentes de
cualquier soporte —incluyendo imagen
sonido, fotos, textos…— y convertirlos de
forma automática en información.
q Big data ayudó a ganar las elecciones a
Barak Obama y ha reducido de días a
minutos la detección de uso de información
privilegiada en Wall Street
Página –35–
36. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA AVALANCHA DE DATOS
q Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
q Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la “montaña” resultante
sería 25 veces más alta que el monte Fuji.
Página –36–
37. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LA ERA DEL EXABYTE/ZETTABYTE CISCO
q LA ERA DEL EXABYTE, CISCO . Estudio
“Cisco Visual Networking Index (VNI)
2007-2012. Tráfico mundial de datos.
q LA ERA DEL ZETTABYTE:Cisco VNI:
Forecast and Methodology 2012-
2017. Tráfico mundial de datos
(publicado en 2013)
q
Página –37–
39. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
MAPA DE ETIQUETAS DE BIG DATA
Página –39–
40. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
q UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
Página –40–
41. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: Gartner
q Gartner* define “Big data” como un
conjunto de datos de gran volumen,
de gran velocidad y procedente de
gran variedad de fuentes de
información que demandan formas
innovadoras y efectivas de procesar la
información
q www.gartner.com/id=2100215
Página –41–
42. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: Gartner
q “Big Data es la capacidad de analizar
grandes volúmenes de datos de
diferentes tipos y a gran velocidad,
para mejorar los procesos de negocio
actuales o crear nuevas áreas de
oportunidad”.
Página –42–
43. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
Página –43–
44. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM (5V-6V)
Página –44–
45. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
q VOLUMEN de datos procesados por las
empresas ha crecido significativa y
exponencialmente.
q Google procesa 20 petabytes al día
q En 2020 se esperan 42.000 millones
de pagos electrónicos.
q La Bolsa de Nueva York genera UN
terabyte de datos al día
q Twitter genera 8 TB
Página –45–
46. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
q VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento,
proceso y captura de datos, dentro y fuera
de la empresa ha aumentado
considerablemente.
q Flujo de datos a alta velocidad.
q eBay se enfrenta al fraude a través
de PayPal analizando cinco millones
de transacciones en tiempo real al día.
Página –46–
47. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE BIG DATA: IBM
q VARIEDAD: Big data es cualquier tipo de
dato – estructurado y no estructurado - tales
como texto, datos de sensores, datos entre
máquinas (M2M), archivos “logs”, audio,
vídeo, flujos de clicks, XML, datos en
streaming, cotizaciones bursátiles, medios
sociales,
Una creciente variedad de datos
necesitan ser procesados y convertidos a
información
Página –47–
48. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las dimensiones que se deben considerar al
evaluar la viabilidad de una solución de
datos grandes
Página –48–
q El valor empresarial de los conocimientos que pueden
obtenerse al analizar los datos
q Las consideraciones de gobernanza para los nuevos
orígenes de datos y cómo los datos serán utilizados
q Las personas con habilidades relevantes disponibles y el
compromiso de los patrocinadores
q El volumen de los datos que se están capturando
q La variedad de orígenes de datos, tipos de datos
y formatos de datos
49. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q La velocidad a la cual los datos son generados,
la velocidad con la que se necesita actuar
después o el ritmo al que están cambiando
q La veracidad de los datos o, más aún, la
incertidumbre o la confiabilidad de los datos
Página –49–
50. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Principales aplicaciones del Big Data
¿Dónde podemos participar los
desarrolladores?
q Big Data representa un conjunto de aplicaciones
requeridas en distintas facetas. El primer ingrediente es el
gran volumen de datos, aderezado con la variedad de
datos heterogéneos que puede contener y la necesidad de
ser procesados en la mayor velocidad posible
Página –50–
51. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Propiedades fundamentales de Big Data
…
Página –51–
52. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Considere los siguientes problemas relacionados con el
gobierno en el contexto de su situación:
q Seguridad y privacidad— Al mantenerse en línea con
las normativas locales, ¿a qué datos puede acceder la
solución? ¿Qué datos pueden ser almacenados? ¿Qué
datos deben ser cifrados durante la el movimiento? ¿Y en
reposo? ¿A quién se le permite ver los datos en bruto y
los conocimientos?
q Estandarización de los datos— ¿Existen estándares
que gobiernan los datos? ¿Los datos están en un formato
de propietario? ¿Algunos de los datos están en un formato
no estándar?
Página –52–
53. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Plazo durante el cual los datos están disponibles—
¿Los datos están disponibles durante un plazo que
permita que se realicen acciones de forma oportuna?
q Propiedad de los datos— ¿A quién pertenecen los
datos? ¿La solución tiene acceso y permisos apropiados
para utilizar los datos?
q Usos permitidos: ¿Cómo se permite que se utilicen los
datos?
Página –53–
54. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Llamamos Big Data a aplicar técnicas analíticas avanzadas
a conjuntos de datos muy grandes y diversos que incluyen
diferentes tipos, tales como estructurados y streaming /
batch / no estructurada y diferentes tamaños desde
terabytes hasta zettabytes.
q Big Data es un término que se aplica a los conjuntos de
datos cuyo tamaño o tipo está más allá de la capacidad de
las bases de datos relacionales tradicionales para
capturar, gestionar y procesar los datos con baja latencia.
Y tiene una o más de las siguientes características: alto
volumen, alta velocidad, alta o de variedades.
Página –54–
55. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Gobierno y control de los datos
q Los datos pueden venir de sensores, dispositivos de video /
audio, redes, archivos de registro, aplicaciones
transaccionales, web y medios sociales. Muchas de estas
fuentes generan datos en tiempo real y en gran volúmen.
q El análisis de estos datos permite a analistas, investigadores
y usuarios de negocio tomar mejores y más rápidas
decisiones a partir de datos que antes eran inaccesibles o
inutilizables. Usando técnicas avanzadas de análisis, tales como
análisis de texto, aprendizaje automático, análisis predictivo,
minería de datos, estadísticas y procesamiento del lenguaje
natural, las empresas pueden analizar las fuentes de datos sin
explotar, de manera independiente o junto con sus datos de
negocio internos para obtener nuevos enfoques a los problemas
y poder diseñar nuevos productos.
Página –55–
56. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
GESTIÓN DE DATOS
q Almacenamiento masivo de datos
q Contextualizar los datos
q Monitorización y seguridad de
aplicaciones
q Informes de operaciones:
visualización de datos
Página –56–
57. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Almacenamiento masivo de datos
q Para sacar provecho a la inmensa cantidad de datos, el
primer paso es almacenarlos de la forma más eficiente
posible. Los conocidos Data Warehouse que han dejado
de ser almacenamientos “físicos” en la arquitectura de
máquinas de la empresa para salir fuera, a la nube. El
motivo es el abaratamiento de costes, pero también la
facilidad de acceso. Se requieren expertos en
cloud computing para que manejen, por ejemplo,
tecnologías como SQL DataWarehouse de Microsoft,
RedShift de AWS o soluciones ad-hoc creadas a partir de
Cloud Elastic Search.
Página –57–
58. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Contextualizar los datos
q La imagen idealizada de Big Data es que a partir de esos
datos vamos a tener datos de "cómo actúan" nuestros
usuarios. Para llegar ese “objetivo” necesitamos
contextualizar los datos, aplicar lenguajes de análisis de
datos utilizando Python o entornos más estadísticos
como R para extraer esos datos.
q Debido al gran volumen de datos, estos se tienen que
“reducir” utilizando estrategias de MapReduce usando
Hadoop, Spark o alternativas desarrolladas por
Facebook como Presto
Página –58–
59. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Monitorización y seguridad de aplicaciones
q La recolección de datos por medio de trazas, logs o
eventos relevantes de comportamiento ayuda a predecir
situaciones anómalas. La monitorización puede permitir
detectar picos de uso y actuar en consecuencia, o por el
contrario, atenuar cualquier ciberataque.
q Lo fundamental es el uso de herramientas de tiempo real
que permitan hacer el seguimiento en tiempo real y lanzar
alertas.
Página –59–
60. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Informes de operaciones: visualización de
datos
q El Big Data no solo es cosa de desarrolladores.
Profesiones, por ejemplo, como los periodistas demandan
cada vez más datos de este tipo. Por lo que es
necesario desarrollar herramientas de visualizar
de datos, tanto para descubrir patrones de
comportamiento o para ilustrar la información.
Página –60–
61. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Informes de operaciones: visualización de
datos
q Después de haber almacenado los datos y contextualizado
las distintas fuentes, el último paso es la visualización de
datos. Un reto en el que trabajan muy ligados los
estadistas, diseñadores de UX , desarrolladores de
realidad virtual y los propios científicos de datos.
Página –61–
62. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Puesta en marcha de un proyecto
q 1. Identificación de objetivos y arquitectura
q Aunque es cierto que Big Data está de moda, nadie sabe
por dónde empezar. Es por eso que nosotros ayudamos a
nuestros clientes a probar con mínimos proyectos viables
que van sacando a la luz todo el conocimiento del negocio
que nuestros clientes tienen; de esta forma, los clientes
aportan su inteligencia de negocio y nosotros la
infraestructura técnica necesaria sobre la que montar la
lógica de negocio.
Página –62–
63. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Puesta en marcha de un proyecto
q 2. Selección de fuentes
q Encontramos diferentes fuentes de información para alcanzar
los objetivos propuestos, en colaboración con nuestros
clientes. De forma creativa, proponemos y combinamos los
mejores conjuntos de datos internos y externos a su
organización.
q 3. Análisis de datos
q Organizamos y analizamos las bases de datos utilizando las
técnicas idóneas de analítica avanzada para cada caso.
Diseñamos soluciones personalizadas para cada compañía,
proporcionando herramientas de análisis que permitan tomar
las mejores decisiones en su negocio.
Página –63–
64. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Puesta en marcha de un proyecto
q 4. Comunicación de resultados
q Creamos analíticas y gráficos en dashboards e
informes con el objetivo de la comprensión total por parte
del cliente. Los resultados son intuitivos y proporcionan
una valiosa síntesis de los hallazgos encontrados. Con la
información proporcionada se dota de valor a los grandes
volúmenes de datos incluso en tiempo real, y se
consiguen resultados que proporcionan impacto en el
negocio.
Página –64–
65. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Fuentes de Big Data
q Herramientas para análisis de datos en grandes
volúmenes de datos. Infraestructuras de Big Data
q Fuentes de Big Data (Soares 2012; Joyanes 2014):
l Web y Social media
l Machine-to-Machine (M2M, Internet de
las cosas)
l Biometría
l Datos de transacciones de grandes datos
(salud, telecomunicaciones…)
l Datos generados por las personas
(humanos)
Página –65–
66. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Sunil
Soares
(2003).
Big
Data
Governance
Emerging
Página –66–
67. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Estructura de Big Data: tipos de datos
q Estructurados
q No estructurados
l No estructurados (texto, datos de vídeo, datos de audio,,,)
l Semiestructurados ( a veces se conocen como
“multiestructurados”. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)
q Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
q Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
Página –67–
68. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q Los Gigantes de Internet como Google, Amazon o Facebook
basan su éxito en el valor de los “big data” sin ellos tendrían
serias dudas de supervivencia.
q Big data es el nuevo petróleo, oro o maná de
la década. IBM, SAP ,Oracle, Cisco… los han
sistematizado para adaptarlas a todo tipo de
empresas.
q Google comenzó a gestionar Big Data desde su
nacimiento en 1998, para indexar sus búsquedas”
q Big data ha saltado de Internet al mundo real, y las
empresas investigan sus aplicaciones para mejorar la gestión,
ahorrar consumos o lanzar nuevos servicios.
Página –68–
69. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Página –69–
70. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q La central de reservas Amadeus (líneas aéreas)
insta a las empresas a que incorporen la
herramienta junto con el uso ya creciente de
MINERÍA DE DATOS.
q Investigación realizada por el profesor Thomas Davenport, de
la escuela de negocios de Harvard, sobre la experiencia de Air
France-KLM, Lufthansa, British Airways, Cathay, Eurostar,
Hoteles Marriott, aeropuerto de Múnich.
q El informe indica que “las aerolíneas, los aeropuertos, los
hoteles, las empresas ferroviarias y los distribuidores
de productos turísticos deben plantearse una estrategia
big data para situarse a la vanguardia”.
Página –70–
71. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q La industria aérea comercial podría ahorrar 30
millones de dólares en 15 años con la
recogida de datos realizada por los
sensores que GE coloca en los motores
de los aviones.
q Trece de las 25 mayores cadenas hoteleras de todo el
mundo efectúan ya sus inversiones y sus ofertas
comerciales, incluso el color de las paredes de los
restaurantes o las habitaciones, cada vez más en
función de sofisticados sistemas de análisis de
datos de clientes (MINERÍA DE DATOS)
Página –71–
72. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q En España, un sistema privado de seguridad, Sanitas
ha puesto en marcha un sistema para prevenir
enfermedades entre sus 2,3 millones de
clientes.
q “En un año hemos realizado 800.000
contactos a 100.000 clientes para darles
consejos o indicarles la conveniencia de hacer
pruebas de detección precoz cuando
detectamos que por su perfil puede ser
conveniente y ofrecer mejores
servicios” [Portavoz de Sanitas al periódico El País]
Página –72–
73. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE BIG DATA
q Las farmacéuticas y las aseguradoras de
todo el mundo han sumado la fuerza de sus
datos para acelerar la investigación contra
el cáncer, el alzhéimer y otras lacras de la
sociedad.
q “hacer predicciones de comportamientos
futuros de pacientes” son grandes
ventajas de big data, que puede
“mejorarnos la vida hasta límites
insospechados”.
Página –73–
74. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
q UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
Página –74–
75. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Oportunidades en Big Data
Oportunidad profesional: En 2015, Gartner predice que
4,4 millones de empleos serán creados en torno a big
data. (Gartner, 2013)
Fuente: http://www.gartner.com/technology/topics/big-data.jsp
Página –75–
76. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
RETOS Y OPORTUNIDADES
q IDC entiende Big data como un nuevo valor
económico basado en la toma de decisiones a
partir del análisis de grandes volúmenes de datos
procedentes de una amplia variedad de fuentes,
desde las aplicaciones empresariales convencionales a los
datos móviles, los medios sociales y el Internet de las
Cosas, un campo aún incipiente donde en 2020 convivirán
212.000 millones de dispositivos conectados.
q Big data también ofrece riesgos.
Fundamentalmente en privacidad y seguridad
de los datos. Normas legales de la Unión
Europea, sus países miembros, América…
Página –76–
77. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
RETOS Y OPORTUNIDADES
q Sus ventajas para el negocio en áreas como la
gestión de las relaciones con el cliente, el
desarrollo de nuevos productos, la detección del
fraude o la predicción del comportamiento de los
consumidores permiten a las compañías obtener
resultados financieros un 20% por encima de sus
competidores, según estimaciones de Gartner.
q Se entiende así que, una vez superada la fase de
evaluación y prueba en la que todavía nos encontramos,
la adopción creciente de Big data dispare un mercado
que, de acuerdo con la firma de investigación, cerrará
2013 con un volumen de negocio asociado de 34.000
millones de dólares, 6.000 millones más que en
2012.
Página –77–
78. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
RETOS Y OPORTUNIDADES
q Las promesas de Big data alcanzan a
prácticamente todos los sectores de actividad,
como demuestran las primeras experiencias de
éxito emprendidas por organizaciones de finanzas,
sanidad, turismo, retail o telecomunicaciones. Y su
adopción se irá extendiendo a medida que los
responsables TI vayan asumiendo el valor que aportan
nuevos frameworks de software como Hadoop y los
nuevos sistemas avanzados de almacenamiento, bases de
datos, analítica y lenguajes de programación
especialmente orientados a los grandes datos.
Página –78–
79. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Integración con Big Data. FUENTE: datalytics.com
Página –79–
80. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Integración con Big Data. FUENTE: datalytics.com
Página –80–
82. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
Página –82–
83. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q Las administraciones públicas [de
cualquier organismo nacional e
internacional] generan gran cantidad de
información en formatos propios de difícil
acceso para la mayoría de los ciudadanos.
q Bases de datos, listas, estudios, informes,
estadísticas, etc. son datos abiertos (open
data) en formatos propios que son de
difícil acceso para la mayoría de los
ciudadanos.
Página –83–
84. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q Evidentemente estos datos se almacenan
normalmente en centros de datos propios
de las administraciones que a su vez se
almacenan y gestionan en nubes públicas o
privadas
q ¿Qué necesitan los profesionales o las
empresas para sacar rentabilidad a esos
datos públicos? Evidentemente la
colaboración de las entidades públicas para
liberar cada día más información y crear
más oportunidades de negocio
Página –84–
85. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q La administración de Estados Unidos
inició la iniciativa Open Data y en
paralelo la Unión Europea ha ido
adoptando también la iniciativa.
q En España los primeros gobiernos
fueron los Gobiernos Autonómicos de
El Principado de Asturias y el País
Vasco.
Página –85–
86. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA (Datos abiertos)
q La iniciativa del Gobierno Vasco se ha
plasmado en la puesta en funcionamiento
de Open Data Euskadi que pretende crear
un sitio web donde la información
reutilizable (contenidos abiertos) estén al
alcance de cualquier ciudadano.
q Un estudio de la UE ya en 2010 estimaba
que el mercado de información pública
podría generar riqueza por valor de 27.000
millones de euros.
Página –86–
87. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OPEN DATA EN LATAM…
q Colombia. Catálogo de datos abiertos:
q http://www.datos.gov.co/frm/buscador/
frmBuscador.aspx
http://www.datos.gov.co/frm/Entidades/
frmEntidades.aspx
q Perú
l Portal de Datos Abiertos de la Municipalidad de Lima: http://
lima.datosabiertos.pe/home/
l Portal de Datos Abiertos:
http://www.datosperu.org/
Página –87–
88. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
INICIATIVAS PIONERAS
INTERNACIONALES EN OPEN DATA
q En España… además de los gobiernos autonómicos
de Asturias, País Vasco y Cataluña, la fundación CTIC
ligada al consorcio W3C (www.fundacionctic.org).
http://datos.gob.es/
q En Estados Unidos data.gov, en Gran Bretaña
data.gov.uk.
q The Open Data Institute. Tim Berners-Lee: http://
theodi.org/
q En la Unión Europea (Iniciativa OPEN DATA): http://
open-data.europa.eu/es
q En Google (abril 2011, del número 1) la revista de negocios. //
thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA.
Página –88–
90. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
INTERNET DE LAS COSAS (OBJETOS)
Página –90–
91. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
MACHINE TO MACHINE (M2M)
q Intercambio de información en formato de datos entre
dos puntos remotos, bien a través de red fija o móvil sin
interacción humana con características específicas en
cuanto a tráfico y tarjetas SIM e integradas en la
fabricación de dispositivos
q Automatización de los procesos de comunicación entre
máquinas, entre dispositivos móviles (celulares) y
máquinas (Mobile to Machine) y entre hombres y
máquinas (Man to Machine)
q En 2011 había más de 1.500 millones de dispositivos
alrededor del mundo conectados entre sí; 15.000 millones
en 2013. Previsiones de Cisco, 25.000 millones para 2015
Página –91–
92. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
INTERNET DE LAS COSAS (OBJETOS)
q Cada día aumenta el número de
dispositivos de todo tipo que proporcionan
acceso a Internet. Las “cosas” que
permiten y van a permitir estos accesos irá
aumentando con el tiempo. Ahora ya
tenemos videoconsolas, automóviles,
trenes, aviones, sensores, aparatos de
televisión, … y pronto el acceso se
realizará desde los electrodomésticos
Página –92–
93. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
World Wide Web, Internet móvil, cloud
computing, INTERNET DE LAS COSAS
q Un mundo en el que miles de millones de objetos
informarán de su posición, identidad e historia a
través de conexiones inalámbricas … mediante
tecnologías RFID, bluetooth, sensores inalámbricos,
NFC, tecnologías “wearables”…
q La realización del “Internet de las cosas” , probablemente
requerirá cambios dramáticos en sistemas, arquitecturas y
comunicaciones,… Invisible es la descripción de las nuevas
tecnologías empotradas “Computación ubicua”… A
medida que avance su penetración:
q Producirá un CAMBIO SOCIAL, posiblemente,
de tanto impacto y tan poco previsible, como
las actuales tecnologías Web
Página –93–
94. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IMPACTO DEL IoT*
q Plataforma Satelise de Ferrovial (empresa multinacional
constructora de infraestructuras, líder en España)… Está
instalando en los peajes de autopistas una aplicación
basada en tecnología satelital (GPS) para el pago de
peajes sin barreras y la comunicación entre el conductor y
la concesionaria mediante teléfonos inteligentes….
Ofrecerá otros servicios de valor añadido: trayectos de
peaje y alternativos, información sobre el estado del
tráfico, meteorología o cualquier tipo de incidente…
pretende incorporar “comandos de voz” para evitar
distracciones del conductor al volante.
q *Actualidad económica, octubre 2013
Página –94–
95. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
VENTAJAS Y RIESGOS DE IoT
q VENTAJAS Y OPORTUNIDADES
q CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca
de 50 mil millones de dispositivos conectados a Internet, capaces
de comunicarse entre sí, desde automóviles, aparatos de
consumo en el hogar, teléfonos inteligentes, marcapasos,
televisores, carros (coches), ropa inteligente, electrodomésticos,
puertas - ventanas de hogares y edificios, PCs, tabletas…
Infinitas ventajas
q RIESGOS*…
Hackers “maliciosos”, ciberespionaje …
* Cibereespionajes, piratas y mafias, El País, febrero 2013 http://
elpais.com/elpais/2013/02/19/eps/1361281322_025092.html
Página –95–
96. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE IoT DE LA UIT
q La definición que da la UIT de Internet de las cosas es
"infraestructura mundial de la sociedad de la
información, que ofrece servicios avanzados
interconectando cosas (físicas y virtuales)
utilizando las tecnologías de la información y la
comunicación compatibles existentes y en
evolución". La definición fundamental de la UIT,
publicada el 4 de julio de 2012, es útil para comprender el
concepto y un buen punto de partida para seguir
analizando e investigando la Internet de las cosas. Es
importante que la UIT señale que la Internet de las cosas
es una "visión", no una sola tecnología, y que tiene
"consecuencias tecnológicas y sociales".
Página –96–
97. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NÚMERO DE OBJETOS CONECTADOS
q En la Tierra hay muchas más cosas que personas, y el
número de cosas que podrían formar parte de Internet de
las cosas varía enormemente según los expertos. No
importa la cifra exacta, sólo sabemos que es enorme! Por
ejemplo, según estimaciones del Internet Business
Solutions Group de Cisco, unos 25.000 millones de
dispositivos estarán conectados a Internet en 2015, y
50.000 millones en 2020. Son por ejemplo aparatos
móviles, parquímetros, termostatos, monitores cardíacos,
neumáticos, carreteras, automóviles, estanterías de
supermercados e incluso ganado.
Página –97–
98. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DEFINICIÓN DE LA UIT DE IoT
q https://itunews.itu.int/Es/4503-Internet-de-las-cosas-
Maquinas-empresas-personas-todo.note.aspx
Página –98–
99. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q El Ministerio de Industria, Energía y Turismo de ESPAÑA
EN ENERO DE 2014 puso en marcha la convocatoria de
ayudas para el desarrollo empresarial de proyectos
tecnológicos innovadores por una cuantía de 140 millones
de euros, de los que 20 millones son subvenciones y 120
préstamos.
q Tras la publicación en el Boletín Oficial del Estado de la
resolución de la Secretaría de Estado de
Telecomunicaciones y para la Sociedad de la Información,
hoy se abre el plazo para solicitar las ayudas dentro del
Plan de Investigación Científica y Técnica y de Innovación
2013-2016.
Página –99–
100. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q Se financiarán líneas de actuación en infraestructuras de
internet del futuro, componentes y sistemas electrónicos,
soluciones para el desarrollo de computación en
la nube, soluciones TIC Big Data,
ciberseguridad y confianza digital, así
como a los proyectos internacionales englobados en el
programa EUREKA de apoyo a la I+D+i cooperativa en el
ámbito europeo.
Página –100–
101. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q Entre los servicios que pueden mejorar
significativamente se encuentran el suministro
y consumo de energía o de agua, el transporte y
la movilidad, la seguridad ciudadana y la
protección civil, la creación de un entorno
favorable para los negocios, el gobierno de la
ciudad, la transparencia y participación
ciudadanas, el soporte al turismo y al comercio,
la gestión de residuos, la gestión del mobiliario
urbano, la eficiencia energética de los edificios
o la gestión de los aparcamientos.
Página –101–
102. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
APLICACIONES DE IOT
q Otros campos de aplicación: La sanidad, para monitorizar a
los pacientes y conectarlos a los médicos y demás
profesionales sanitarios; los sectores de la energía y del
transporte, para conectar a proveedores y clientes; el
sector del retail, para predecir cuándo comprarán los
consumidores; las telecomunicaciones y los servicios de
información; los servicios financieros; o las fábricas
inteligentes. En estos y otros campos es posible encontrar
también casos muy concretos de aplicación, como el
marketing y la publicidad, la educación, los vehículos o
los juegos y el entretenimiento conectados o las redes
eléctricas inteligentes, en los que las nuevas posibilidades
alcanzan rendimientos máximos.
Página –102–
103. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
COMUNICACIÓN M2M
q La comunicación machine to machine hará
posible que los objetos intercambien información,
facilitando la toma de decisiones de forma autónoma.
q Habrá un aumento de la productividad de los
procesos, debido a los nuevos paradigmas y modelos
de negocios generados por el análisis de big data
q Predicciones fiables hablan de que el 65% de los
estudiantes que inician hoy sus estudios se
dedicarán a trabajos que aún no están
inventados
Página –103–
105. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIUDADES INTELIGENTES (Smart Cities)
q Las smart cities
(o ciudades inteligentes) pueden ser un buen
ejemplo de lo que es capaz de dar de sí el Internet de las
Cosas. En ellas, la combinación de dispositivos, sensores,
redes de comunicaciones, capacidad de almacenamiento y
de procesamiento y plataformas de gestión hacen posible
unas ciudades en la que se prestan servicios de una forma
más eficiente y sostenible, mejorando la vida de los
ciudadanos, las posibilidades de los negocios y el atractivo
de la propia ciudad para conseguir turismo, talento e
inversiones
Página –105–
106. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q ¿Qué le parecería vivir en una ciudad con la
que pueda interactuar? Una ciudad que
actúe más como un organismo vivo, una
ciudad que responda a sus necesidades...
q Alrededor del mundo este tipo de ciudades
ya están siendo construidas, desde Masdar
en Abu Dhabi hasta Songdo en Corea del
Sur… En España ciudades tradicionales
como Málaga, Barcelona, Santander….
Página –106–
107. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Ahora bien, la ciudad más cerca de usted podría estar a la
espera de una renovación extrema. En el futuro, todo lo que
hay en una ciudad, desde la red eléctrica pasando por las
tuberías de alcantarillado y hasta las calles, edificios y
automóviles estarán conectados a una red.
q Habrá edificios que le apagarán la luz, carros que se
manejen solos encontrarán ese tan anhelado espacio
de parqueo. Hasta los basureros serán inteligentes.
q Pero, ¿cómo nos preparamos para este futuro
inteligente? ¿Quién hará un monitoreo y controlará los
sensores que paulatinamente estarán más presentes
en cada edificio, poste de luz y tubería? ¿Es ese el
futuro que queremos?
Página –107–
108. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Los embotellamientos (trancones) son probablemente
uno de los principales problemas de las grandes
ciudades. A pesar de que gracias a la información
disponible se puede predecir dónde pasarán los
embotellamientos, lo que no es posible es
descongestionar las calles de carros.
q La compañía israelí Waze (adquirida por Google en
2013) le pide a los ciudadanos ayuda para resolver el
problema y, con base en los datos de viajes reales
enviados masivamente por sus fuentes, crea un mapa
de las condiciones en tiempo real.
Página –108–
109. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q La ciudad de Río de Janeiro puso en marcha una sociedad
con Waze en un esfuerzo para adoptar la tecnología a su
centro de operaciones.
q Muchas corporaciones que se dedican a la tecnología
como IBM, Siemens, Microsoft, Intel y Cisco actualmente
tienen una enorme actividad comercializando software
para resolver gran cantidad de problemas de las ciudades,
desde escapes de agua hasta contaminación del aire y
congestión vial.
q En Singapur, Estocolmo y California IBM está recolectando
información del tráfico y probándola a través de
algoritmos para predecir dónde ocurrirá un
embotellamiento una hora antes de que suceda
Página –109–
110. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Mientras tanto, Río de Janeiro cuenta con
un centro de control al estilo de la NASA
donde múltiples pantallas absorben la
información generada por sensores y
cámaras ubicados alrededor de la ciudad.
q En total, IBM tiene alrededor de 2.500
proyectos alrededor del mundo e, incluso,
ha registrado la marca "ciudades más
inteligentes" (Smarter Cities).
Página –110–
111. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PRESENTE Y FUTURO DE LA CIUDAD
q Las ciudades inteligentes necesitarán
redes inteligentes en las que todo esté
conectado.
q "Necesitamos construir ciudades que
se adapten a las necesidades de sus
ciudadanos pero antes no era posible
porque no había información
suficiente"
Página –111–
112. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIUDADANÍA DIGITAL versus PRIVACIDAD
q ¿Es una ciudad con sensores una ciudad
con censura?
q La primera fase de las ciudades inteligentes puede ser
emocionante. La ciudad se convierte en un laboratorio
viviente de tecnologías inteligentes que pueden gestionar
todos los sistemas: desde el agua, al transporte, la seguridad,
la basura, la energía limpia, etc.
Pero, ¿en qué punto esta ciudad repleta de sensores puede
convertirse en una ciudad que censura? En muchos sentidos,
cuando ponemos en común todos los sistemas digitales que
están en funcionamiento en una ciudad, tenemos una especie
de "llave en mano" hacia una ciudad con censura.
Página –112–
113. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Proyecto EPIC de la UE (EU Platform
for Inteligent Cities) de Smart City
q Sus definiciones varían ampliamente y van desde el uso
discreto de nuevas aplicaciones
tecnológicas tales como RFID o la
Internet de las cosas (IoT) o el Big Data;
a una concepción más holística de
inteligencia, integrando el trabajo que está
estrechamente relacionado con el concepto de
Living Labs y los servicios generados por los
usuarios (user-generated services).
Página –113–
114. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Proyecto EPIC de la UE (EU Platform
for Inteligent Cities) de Smart City
q Mientras que la primera definición es ampliamente
utilizada por las empresas TIC de todo tipo y tamaño. La
segunda aproximación ha sido generalmente adoptada
por la Comisión Europea. Desde principios de 1995, la
Comisión Europea ha tratado de mejorar los
servicios públicos, las transacciones e
interacciones con los ciudadanos y las empresas
europeas a través de la financiación y el despliegue
de una amplia variedad de iniciativas estratégicas
de TIC.
Página –114–
115. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Smart City según Gartner
q La consultora Gartner en su Hype Cycle for Smart City
Technologies and Solutions define la Smart City
como “una zona urbanizada donde múltiples sectores
públicos y privados cooperan para lograr resultados
sostenibles a través del análisis de la información
contextual intercambiada entre ellos. La interacción de
la información procedente de sectores específicos y la
que fluye entre diferentes sectores da como resultado
ciudades más eficientes desde el punto de vista de los
recursos, lo cual permite la provisión de servicios más
sostenibles y más transferencia de conocimientos entre
los sectores”.
Página –115–
117. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Logo de HADOOP
Página –117–
118. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Logo de HADOOP
Página –118–
119. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA (JOYANES)
Página –119–
120. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Hadoop
q “The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model”
q De la página de Hadoop
Página –120–
121. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Fundación Apache: proyectos open source
q The Apache Software Foundation provides support
for the Apache community of open-source software
projects, which provide software products for the
public good
q The Apache Software Foundation provides support for the
Apache community of open-source software projects,
which provide software products for the public good
Página –121–
122. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Hadoop en la actualidad
q Actualmente Hadoop es un framework muy extendido en
el ámbito empresarial, sobre todo en compañías que
manejan grandes volúmenes de datos. Entre las que
podemos descarta las siguientes empresas:
q Yahoo: La aplicación Yahoo! Search Webmap está
implementado con Hadoop sobre un clúster de mas de
10.000 nodos Linux y la información que produce es la
utilizada por el buscador de Yahoo.
q Facebook: Tiene ha día de hoy el mayor clúster Hadoop
del mundo que almacena hasta 30 peta bytes de
información
q Amazon A9: Se utiliza para la generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
100 nodos
q cada uno.
Página –122–
123. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Hadoop en la actualidad
q The New York Times: Utiliza Hadoop y EC2 (Amazon
Elastic Compute Cloud) para convertir 4 Tera bytes de
imágenes TIFF en imágenes PNG de 800 K para ser
mostradas en la Web en 36 horas.
q Además existen compañías cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuración y despliegue de clústeres
q Hadoop. Además proporciona servicios de consultoría y
formación en estas tecnología. Todo el software que
distribuyen es Open Source.
Página –123–
124. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Distribuciones de Hadoop
Página –124–
125. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Proveedores de Big Data
q Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalización:
disponibilidad, rendimiento, replicas …). Una distribución
muy popular
q Otros ejemplos: MapR, Greenplum,
Hortonworks, …
Página –125–
126. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA PARA MEJORAR LA SEGURIDAD
Página –126–
127. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA PARA MEJORAR LA SEGURIDAD
q La evolución del panorama de amenazas obligará a
mercado a adoptar tecnología analíticas de Big Data para
satisfacer las necesidades de detección y rendimiento. Los
servicios de reputación de amenazas han demostrado su
utilidad para detectar malware, páginas web maliciosas,
spam o ataques der red; el siguiente gran paso serán
nuevos servicios de reputación que permitan identificar
amenazas persistentes avanzadas de manera más rápida
y precisa, y la analítica del Big Data tendrá mucho que
aportar.
Página –127–
128. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA Y SEGURIDAD
q Big Data y la nube podrían reemplazar
a las ‘cajas negras’ de los aviones
q A raíz de la trágica desaparición del vuelo MH370 de
Malaysian Airlines el 8 de marzo de 2014, Malasia pidió a
ITU que elaborara normas para facilitar la transmisión de
datos de vuelo en tiempo real. La solución podría basarse
en Big Data y la nube.
q Los datos de las aeronaves, incluidos los de las cajas
negras, podrían transmitirse en flujo continuo y
almacenarse en centros de datos en tierra. Las
tecnologías de Big podrían extraer y analizar esos datos
sin necesidad de encontrar las cajas negras.
Página –128–
129. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
BIG DATA Y SEGURIDAD
q Todas las aerolíneas comerciales y los aviones privados
están obligados a instalar y utilizar “cajas negras” para
registrar diversos parámetros de vuelo. El registrador de
datos de vuelo está concebido para grabar los datos
operativos de los sistemas del avión, incluida la altitud, la
velocidad, la aceleración vertical, el rumbo y la posición de
los sistemas de control. El registrador de voz de la cabina
de pilotaje graba la voz de la tripulación y los sonidos
dentro de la cabina de pilotaje. Estos equipos de control
dan a los investigadores datos esenciales sobre las causas
de un accidente.
Página –129–
130. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
ANALÍTICA DE BIG DATA
q Big Data y la nube podrían reemplazar a las ‘cajas negras’
de los aviones
q A raíz de la trágica desaparición del vuelo MH370 de
Malaysian Airlines el 8 de marzo, Malasia pidió a ITU que
elabore normas para facilitar la transmisión de datos de
vuelo en tiempo real. La solución podría basarse en Big
Data y la nube.
q “Creemmos que los datos de las aeronaves, incluidos los de las cajas
negras, podrían transmitirse en flujo continuo y almacenarse en
centros de datos en tierra. Insto a la UIT a trabajar con las empresas
privadas para buscar la mejor manera de controlar constantemente
los datos de vuelo y lo que ocurre en la cabina de pilotaje. Con los
adelantos de las TIC actuales deberíamos poder extraer y analizar
esos datos sin necesidad de encontrar las cajas negras”
Página –130–
131. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
ANALÍTICA DE BIG DATA
q Todas las aerolíneas comerciales y los aviones privados
están obligados a instalar y utilizar “cajas negras” para
registrar diversos parámetros de vuelo. El registrador de
datos de vuelo está concebido para grabar los datos operativos
de los sistemas del avión, incluida la altitud, la velocidad, la
aceleración vertical, el rumbo y la posición de los sistemas de
control. El registrador de voz de la cabina de pilotaje graba la
voz de la tripulación y los sonidos dentro de la cabina de
pilotaje. Estos equipos de control dan a los investigadores datos
esenciales sobre las causas de un accidente. “ITU invitará a los
fabricantes de aviónica y aviones, así como a los operadores de
satélites y las aerolíneas, a trabajar sobre nuevas normas para el
rastreo de aeronaves en tiempo real
Página –131–
133. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS (DATA SCIENCE)
Página –133–
134. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q En los pasados 15 años se han realizado
grandes inversiones en infraestructuras para
los negocios, las cuales han mejorado la capacidad de
recolección de los datos en la empresa.
q Virtualmente, todos los aspectos de negocios están ahora
abiertos a la recolección de datos y normalmente
instrumentados para la recolección de los mismos:
operaciones, fabricación, gestión de la cadena de
suministro, comportamiento del cliente, rendimiento de
las campañas de marketing, procedimientos de
workflow, etc.
Página –134–
135. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q La información está ahora ampliamente
disponible en eventos externos de todas las
naturalezas: tendencias de mercado,
noticias de la industria, movimientos de los
competidores, etc.
q Esta amplia disponibilidad de datos ha
conducido al interés crecientes en métodos
de extracción de información y
conocimiento útiles a partir de los datos:
objetivos de la ciencia de datos.
Página –135–
136. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q Con las vastas cantidades de datos ahora
disponibles, las empresas en casi todas las
industrias se centran en la explotación de
los datos para conseguir ventajas
competitivas.
q En el pasado las empresas empleaban equipos de
estadisticos, modeladores y analistas para explorar
conjuntos de datos manualmente; pero el volumen,
velocidad y variedad de los datos han reducido la
capacidad del análisis manual.
q Las técnicas de minería de datos han tomado gran
fuerza para la ciencia de datos
Página –136–
137. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CIENCIA DE DATOS
q Ciencia de datos es la extracción de información
útil de grandes volúmenes de datos. La ciencia de
datos necesita acceder a los datos, a la ingeniería
de datos y a las tecnologías de procesamiento de
datos.
q La Ciencia de Datos es una especialización
creciente que toca muchos de los siguientes áreas:
Computación en nube, big data,
matemáticas, estadística, métodos de
optimización, teoría de negocios y teoría de
ciencias de la computación.
Página –137–
138. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
DISCIPLINAS CLAVE DE DATA SCIENCE
Página –138–
139. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿En qué se está usando Data Science?
q . Actualmente en campos como la economía y las
finanzas (modelos predictivos de bolsa, operaciones
de alta frecuencia), la medicina (seguimiento y
predicción de pandemias, estudios de prevalencia de
enfermedades bajo distintas variables), las
compañías de transportes (para optimizar rutas
aéreas, terrestres, marítimas), compañías
alimenticias (seguimiento de popularidad en redes
sociales, trazabilidad de las ventas),
telecomunicaciones (prevención del fraude,
incremento del “rendimiento” de los clientes), retail
(incremento de las ventas por conocimiento de
hábitos de consumo), etc.
Página –139–
140. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿En qué se está usando Data Science?
q Las redes sociales, por ejemplo, son uno de los
campos dónde más rápido está creciendo esta disciplina
puesto que todas (casi todas) las compañías quieren y
necesitan saber a quiénes les gusta sus productos y a
quiénes no, lo que opinan de ellos, los perfiles de sus
seguidores…
q Estos son sólo algunos ejemplos de uso en algunos
campos, pero existen muchísimos más. El potencial y las
perspectivas de crecimiento de la ciencia de datos son
enormes puesto que los datos no paran de aumentar
exponencialmente y en consecuencia la adquisición del
conocimiento necesario para la toma de decisiones
Página –140–
142. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NECESIDAD DE FORMACIÓN PROFESIONAL
AVANZADA EN CLOUD COMPUTING-BIG
DATA
q El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
deberán cubrir en los próximos cinco años según estadísticas fiables de IDC,
Gartner, Forrester, McKinsey…
q UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de
datos) y además ANALISTAS DE DATOS (formados en
Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)
q Se necesitan certificaciones profesionales en CLOUD
COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE
NEGOCIOS”
Página –142–
143. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
PROFESIONALES DE BIG DATA
q El crecimiento del Big Data ha disparado la
demanda de profesionales especialistas en
el análisis de datos.
q El portal de empleo Indeed.com anunció hace unos meses
que el número de puestos de trabajo relacionados con el
Big Data había crecido en un 15.000% entre los veranos
de 2011 y 2012.
q Las predicciones de McKinsey & Company
sitúan en torno al 50% la brecha entre
demanda y oferta de puestos relacionados
con la analítica en EEUU en 2018
Página –143–
144. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVAS PROFESIONES EN LA
ECONOMÍA Y EMPRESA DIGITAL
q Algunas de las profesiones o roles más demandados son:
q Profesionales de big data : analistas,
ingenieros de datos, consultores…
q Profesionales de ciencia de datos
q Profesionales de CIBERSEGURIDAD
q Profesionales de INTERNET DE LAS
COSAS y de CIUDADES INTELIGENTES
Y DIGITALES.
Página –144–
145. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVOS ROLES PROFESIONALES
Página –145–
146. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVOS ROLES PROFESIONALES
q En el ámbito de la información las nuevas profesiones que
se van introduciendo en las empresas tienen una estrecha
relación con el gestor de datos (data
steward), la gestión de datos, la ciencia de los datos
y la visualización de los datos. Y los perfiles profesionales
que están directamente relacionados con esta nueva
gestión de los datos van desde el bibliotecario, el
archivista y el gestor de datos hasta el analista, el
ingeniero y el periodista de datos
Página –146–
147. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Perfiles necesarios para conseguir
aprovechar las nuevas oportunidades del
Big Data
q Expertos en Cloud Computing
q Expertos en Visualización de datos
q Expertos en Data Science
q Expertos en Big Data
q Expertos en Machine Learning
(Aprendizaje máquina)
Página –147–
148. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Cloud Computing
q Es necesario contar con profesionales especializados en
Cloud Computing. Ellos serán los encargados de liderar la
administración y explotación de las infraestructuras. Las
tendencias tecnologías marcan un arquitectura en la nube
en sus distintas variantes: IaaS, PaaS o SaaS.
q Las tecnologías más extendidas son Amazon Web Services
o Azure de Microsoft, además de plataformas Google
Cloud, BlueMix de IBM o Open Stack. Todo ello para
poder implementar el orquestador más eficiente a la hora
de realizar Continuous Integration y Continuous Delivery
Página –148–
149. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Visualización de datos
q Engloba dos facetas importantes: la extracción de datos a
través de herramientas como MapReduce, Pentaho,
Tableau, etc.. y la aplicación de R sobre esos datos. La
visualización corre a cargo de frameworks de visualización
como d3.js
q Estos profesionales se encargan de diseñar las
visualizaciones, extraer información de grandes
volúmenes de datos, aplicar algoritmos complejos de
visualización científica, definir qué datos son de interés y
aplicarles métricas adecuadas. Además se introduce el
componente de realidad aumentada y simulación con los
datos extraídos.
Página –149–
Expertos en Visualización de
datos
150. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Data Science
q Son los “científicos de los datos” y combinan sus
conocimientos de programación con la estadística y las
matemáticas. En este punto es necesario recurrir a
herramientas que faciliten su trabajo como R y Python
combinándolo con las técnicas de almacenamiento de
datos (bases de datos NoSQL), tratamiento de datos,
análisis, teorías de grafos, técnicas de aprendizaje
(machine learning) y, por último enlazar esos datos con la
visualización.
Página –150–
151. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Expertos en Big Data
q Este perfil es un especialista en uno de los pilares
fundamentales de la gestión de grandes volúmenes de
información: el procesamiento masivo de datos previo al
análisis. Entre las herramientas más destacadas para
realizarlo se encuentran Spark, Hadoop, MapReduce,
Hive, Pentaho o AWS Elastic Map Reduce.
q También hay que tener en cuenta la disponibilidad de
datos en tiempo real utilizando HBase, Cassandra,
Elastic Search, Storm, etc. Combinándolos con técnicas
de visualización como D3.js.
q Este es uno de los perfiles más completos a la hora de
abordar un puesto de experto
Página –151–
152. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniería, diplomados…
q Community Manager, Social Media
Manager y Analista Web y SEO
q Ingeniero de Cloud Computing (En España hay
una universidad privada que inició el curso pasado un grado)
q Ingeniero de negocios digitales (Digital
Business Intelligence)
q Ingeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologías “in-memory”…)
q Analítica de datos (Analytics) y Analítica de
Big Data
Página –152–
154. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL CIENTÍFICO DE DATOS
q EL CIENTÍFICO DE DATOS (Data Scientist). Un
profesional con formación de Sistemas,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.
HBR (Harvard Business Review lo declaró la
profesión “MÁS SEXY del siglo XXI”…)
octubre de 2012 (Los datos el nuevo petróleo/oro
del siglo XXI):
Página –154–
155. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
EL CIENTÍFICO DE DATOS
q Thomas H. Davenport y D.J. Patil, October 2012
q Harvard Business Review. https://hbr.org/
2012/10/data-scientist-the-sexiest-job-of-
the-21st-century/ar/1
q Thomas H. Davenport is a distinguished professor at Babson
College, a research fellow at the MIT Center for Digital
Business, and a senior adviser to Deloitte Analytics. He is at
work on a book about automation in knowledge work.
q D.J. Patil is the data scientist in residence at Greylock
Partners, was formerly the head of data products at LinkedIn,
and is the author of Data Jujitsu: The Art of Turning Data
into Product (O’Reilly Media, 2012).
Página –155–
156. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Gobierno de Estados Unidos nombra
un ‘científico de datos jefe’
q El pasado 18 de febrero, la Casa Blanca publicaba una
nota firmada por su Directora de Tecnología Megan Smith,
anunciando el fichaje de Patil como nuevo
‘Científico de datos jefe de Estados Unidos’.
q En la nota se explicaba que “el presidente Obama ha querido dar
prioridad a la atracción de talento técnico de primera -como el de DJ-
al Gobierno federal para aprovechar el potencial de la tecnología y la
innovación y ayudar así al gobierno a servir mejor al pueblo
americano”.
q Recuerda que Patil ya trabajó, antes de incorporarse al sector
privado, en dos campos relacionados con su nueva responsabilidad:
Página –156–
157. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
El Gobierno de Estados Unidos nombra un
‘científico de datos jefe’
q El objetivo del fichaje de DJ Patil es, en palabras de Megan
Smith, que éste pueda ayudar a diseñar las políticas que
posibiliten que Estados Unidos siga siendo líder en
materia de tecnología e innovación, que maximicen
el retorno a la sociedad de su inversión en datos, y
que posibiliten retener a las mejores mentes de la ciencia de
datos, y a conseguir que se incoporen al servicio
público. Patil también trabajará en la ‘Precision Medicine
Initiative’, destinada a hacer uso de las mejoras en
sanidad y ciencia de datos para proporcionar a los médicos
nuevas herramientas, terapias y conocimientos para saber
qué tratamientos funcionarán mejor con cada paciente, al
tiempo que protege la privacidad del mismo.
Página –157–
158. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
La profesión de científico de datos
q Esta profesión resulta vital para que las organizaciones
puedan analizar y gestionar sus datos para la toma de
mejores decisiones de negocio.
q El deseo de ser científico de datos es una tendencia que se
expande rápidamente por el mundo. Estados Unidos
abandera el liderazgo, Europa y España, ya comenzaron en
2014 y continuan en 2015. Latinoamérica y Colombina
en particular han comenzado a participar en esta
carrera. tecnología.
q El uso de científicos de datos es un hecho contrastado en las
más grandes y reconocidas organizaciones: Google,
Netflix, Facebook, Youtube, Twitter, Square, NBC,
Dow Jones…
q
Página –158–
159. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
“Científico de datos es la
profesión #1 para el año 2015”
q Glassdoor, consultora de referencia en EE.UU. Publicó a
primeros de 2015 un estudio de salarios y destacaba que
el salario promedio de un científico de datos es U$118.709
contra U$64.537 de un programador. Un estudio de
McKinsey predice que para el 2018, los EE.UU. podrían
enfrentar una escasez de 140.000 a 190.000 “personas
con profundas habilidades analíticas”, así como 1,5
millones de “gestores y analistas con el know-how de
utilizar el análisis de grandes datos para tomar decisiones
efectivas”.
Página –159–
160. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
OFERTAS DE EMPLEO
q Según la consultora de analítica empresarial SAS,
Colombia, Brasil, México y Ecuador serán las
principales sedes de creación de científicos de
datos. Las empresas latinoamericanas -pequeñas o
grandes-, si esperan crecer deberán contar, de aquí a dos
años, con al menos un científico de datos. Portales de
empleo como SimplyHired.Com y LinkedIn, han estimado
un sueldo mensual de entre 7000 y 10.000 dólares.
q Se estima que en los próximos 5 años, en América
Latina se suplan unas 300.000 vacantes,
representando un 7.5% de la demanda actual de
estos profesionales.
Página –160–
161. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Una OFERTA MODELO DE TRABAJO
Una oferta de trabajo actual…
Página –161–
162. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LOS PROFESIONALES MÁS
BUSCADOS
q Necesidad de especialistas en:
l Cloud Computing
l Big Data
l Software SaaS
l Aplicaciones para móviles y tabletas
l Programadores para apps móviles
l Consultores de herramientas de business
intelligence y analytics (analítica de
datos / analítica de negocios)
Página –162–
163. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
LOS PROFESIONALES MÁS
BUSCADOS
q Analistas de Big Data
q Científicos de datos (data scientist)
q CDO (Chief Data Officer)
q SEO (Optimización de motores de búsqueda
q CTO (Chief Technology Officer)
q Analistas de datos M2M/Internet de las
cosas
Página –163–
164. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q Aunque un científico de datos aporte grandes ventajas en
temas puntuales en una organización.
Su impacto suele trascender a las más altas esferas y círculos
de decisión. No solo es el pilar desde el que una empresa
construye una estrategia exitosa de negocios basada en la
analítica de alto desempeño, sino que también se ha constituido
en el principal colaborador de los directores para llevarlos a
tomar mejores decisiones empresariales. Estos son algunos de
los aportes específicos que pueden hacer los científicos de datos
en una organización:
q http://www.vanguardia.com/mundo/tecnologia/308034-
colombia-uno-de-los-paises-que-mas-cientificos-de-datos-
tendra
q Página –164–
165. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q 1. Predecir el futuro. Un científico de datos visualiza y
analiza los datos para predecir lo que puede llegar a pasar
en un mercado ante una decisión de la empresa o de sus
competidores.
q 2. Ayudar a tomar mejores decisiones. Los análisis
predictivos de un científico de datos pueden ayudar a un
gerente o presidente de compañía a saber cuándo debe
abrir una nueva operación, qué mercado le puede
convenir y en qué momento debe hacerlo, entre muchas
otras decisiones
Página –165–
166. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q 3. Encaminar los planes de mercadeo. Lanzar un
nuevo producto o crear una promoción es una decisión
que se suele tomar con base en la intuición o lo que ha
funcionado en el pasado. Un científico de datos no solo
recurre al pasado (la inteligencia de negocios) sino que
anticipa el futuro a través del poder predictivo de la
analítica de negocios.
Página –166–
167. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué puede hacer un científico de datos?
q 4. Ayudar a mejorar los niveles de servicio o
atención a ciudadanos. En una empresa o una entidad
pública, saber a ciencia cierta qué quieren los clientes o
ciudadanos es el primer paso para elevar los niveles de
satisfacción. En el caso, por ejemplo, de DJ Patil, el primer
científico de datos de la Casa Blanca, una de sus
principales funciones será la de utilizar los datos como vía
para que el Gobierno pueda ofrecer a los ciudadanos
tratamientos de salud cada vez más personalizados,
desarrollando herramientas clave para ponerlas a
disposición de médicos y hospitales en todo Estados
Unidos.
q
Página –167–
168. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué hace un científico de datos?
q El científico de datos, una de las profesiones mejor
remuneradas en el mundo de la tecnología, es un
individuo especializado en:
q Matemáticas y estadística que muestra un
dominio fluido de la programación y las
ciencias informáticas o de computación, así
como una gran capacidad analítica.
Página –168–
169. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Científico de datos, la profesión del futuro
en Colombia
http://www.rcnradio.com/tecnologia/cientifico-
de-datos-la-profesion-del-futuro-en-colombia/
q El propósito de un científico de datos es,
básicamente, tomar la enorme cantidad de
información que proporciona el Big Data,
procesarla y comunicarla de manera que le sea útil
a las empresas, haciendo que tomen mejores
decisiones de negocio.
Página –169–
170. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Un estudio de MIT Sloan Management Review señala que
para que una empresa sea competente en este ámbito no
basta con contratar a expertos en datos (matemáticos,
estadísticos o ingenieros de datos), sino formar al
conjunto de la plantilla para que todos los departamentos
entiendan qué es el big data y de qué forma puede
ayudar a transformar y optimizar los resultados. Para ello
recomienda:
Página –170–
171. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Buscar talento analítico dentro de la empresa. El
63% de las compañías encuestadas está buscando perfiles
dentro de sus plantillas a los que les interese el big data.
La razón es sencilla: los empleados conocen los entresijos
del negocio y es necesario formarlos para que trabajen
conjuntamente con los matemáticos o estadísticos. “Se
trata de identificar a trabajadores a los que les interese
analizar los datos y ponerlos en valor para que luego
puedan diseñar acciones concretas para mejorar los
resultados”, indica el informe.
Página –171–
172. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q A la hora de fichar a data scientist todas las empresas se
encuentran con el mismo problema; la escasez en el
mercado de estos profesionales. El hecho de poner en
marcha programas formativos tendrá otra consecuencia
positiva: la empresa tendrá el doble de posibilidades de
atraer a estos perfiles, señala el informe. “Normalmente
los científicos de datos prefieren ir a compañías donde el
big data es parte esencial de la estrategia”, indica
Página –172–
173. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Integrar a los científicos de datos. Las empresas
encuestadas ponen más esfuerzos en formar a sus
gestores en big data (49%) que en conseguir que sus
científicos de datos entiendan mejor cómo funciona el
negocio (34%). Error. “Ambos deben acercar posiciones y
entender la importancia del otro lado”, asegura Meco. “A
los científicos de datos no les enseñan en la universidad
formas efectivas de comunicar la utilidad de los datos a
los diferentes departamentos de una empresa, ponen el
foco en aspectos técnicos. Por ello es la propia compañía
la que debe asegurar que haya comunicación y que los
estadísticos no trabajen de forma aislada”, añade
Página –173–
174. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Además de saber interpretar los datos externos a las
compañías, es imprescindible saber analizar los propios y ser
capaz de predecir posibles cambios para reaccionar a tiempo.
q Ejemplo de ello es el Hospital La Fé de Valencia, el
primero que ha implantado modelos predictivos a partir del
big data. Este centro hospitalario está utilizando un programa
de visual analytics de la empresa SAS para mejorar la
asistencia a pacientes crónicos. “Han analizado durante un año
factores como la periodicidad con la que los pacientes acuden al hospital
solicitando un ingreso o durante qué semanas de la enfermedad suelen
agravarse los síntomas. De ahí han extraído patrones y ahora son capaces
de programar con antelación tanto el ingreso de nuevos pacientes como
las recomendaciones médicas pertinentes según avanza la patología”
Página –174–
175. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Otro caso es el de la compañía de seguros Caser.
Fundada en 1942, dio un giro a su cultura empresarial
hace cuatro años para integrar el big data en la toma de
decisiones. De un departamento formado por 12 expertos
en datos que trabajaban “aislados” elaborando informes,
se pasó a un equipo de 21 miembros que se integraron en
diferentes departamentos con el rol claro de analistas de
datos. Además, los 1.200 empleados de la sede de Madrid
recibieron formación para aprender a valorar e interpretar
los gráficos de datos. “No basta con contratar a un par de
matemáticos.
Página –175–
176. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q Desde que el big data es parte esencial en su toma de
decisiones han conseguido reducir un 4,2% la cancelación
de seguros de salud de clientes “de alto valor”, y un 2% la
de seguros del hogar. “El análisis de datos nos permite
identificar patrones de comportamiento de los clientes que
nos abandonan y diseñar acciones a través del
departamento de marketing para anticiparnos a esa
decisión y ofrecer incentivos como una cuota mensual
gratis”. Ahora saben que cuando un cliente pinta todo el
coche hay muchas probabilidades de que lo quiera vender
y, por lo tanto, cancelar el seguro. Rápidamente ponen a
funcionar la maquinaria y les ofrecen algún tipo de
descuento
Página –176–
177. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
FORMACIÓN DE LA PLANTILLA
q En estos casos podemos resaltar la figura del
Científico o Analista de Datos como perfil esencial
para el desarrollo de soluciones de análisis que
extraigan valor de los datos. Además de este
cargo, es necesario introducir otros roles que se
encarguen de la infraestructura y arquitectura de
la solución, así como de la generación de nuevas
oportunidades de servicios basado de Analytics
entre otros
Página –177–
178. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q 1 – Expertos en estadística: desarrollan nuevas teorías
estadísticas para Big Data, que a veces los estadísticos
tradicionales ni siquiera entienden. Son expertos en modelos
estadísticos, diseño experimental, muestreo, agrupación,
reducción de datos, intervalos de confianza, pruebas,
modelado, modelos predictivos y otras técnicas relacionadas.
q 2 – Expertos en matemáticas: la NSA o gente que trabaja
en temas de Big Data en defensa, astrónomos y personal de
investigación que se encarga de la optimización analítica del
negocio (gestión de inventario, optimización de precios,
cadena de suministro, control de calidad, optimización de
rendimiento) de manera que se encarguen de recoger,
analizar y extraer valor de los datos.
Página –178–
179. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q 3 – Expertos en ingeniería de datos, Hadoop,
optimización y arquitectura de base de datos/ memoria/
sistemas de archivos, API, analytics como servicio,
optimización de flujo de datos y ‘data plumbing’.
q 4 – Expertos en el aprendizaje científico o máquina
(learning machine), ciencias de la computación
(algoritmos, complejidad computacional).
Página –179–
180. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q 5 – Expertos en el negocio, la optimización del ROI,
ciencias de la decisión, o los que participan en tareas que
tradicionalmente realizan analistas de negocio en grandes
empresas (diseño dashboards, selección de combinación
métrica y definición métrica, optimización del ROI, diseño
de bases de datos de alto nivel).
q 6 – Expertos en desarrollo de producción de código e
ingeniería de software (conocimiento de los lenguajes de
programación).
q 7 – Expertos en visualización.
q 8 – Expertos en GIS, datos espaciales, datos modelados
por gráficos y bases de datos gráficas
Página –180–
181. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Las categorías de “científico de datos”:
q Gracias al Big Data, surge la figura del científico de
datos, encargado de buscar nuevas fuentes de
información, normalizar de forma automatizada la
información que encuentre y procesar una enorme
cantidad de datos que permitirán obtener una información
final mucho más fiable, así como también analizar nuevas
perspectivas que antes era simplemente imposible
analizar, principalmente por el coste y tiempo que
supondría.
Página –181–
182. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Un científico de datos debe poseer:
1. Matemáticas / estadística.
2. Avanzados conocimientos de programación en
diferentes lenguajes (Java, JavaScript, C/C++, Python, R,
PHP…)
Otras herramientas Open Source: Hadoop, Spark ,
Scala
q 3. Computación
q 4. Analítica
q 5. Conocimiento de un dominio de negocio.
Página –182–
183. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Por ello, ha destacado que lo que se busca ahora es
profesionales con un perfil “más horizontal”, es
decir, lo que ahora se llama ingenieros full-
stack, porque puedan desarrollar en PHP, en Python, en
HTML…
q Y esto debe complementarse con una base
matemática, con el objetivo de que “sepan y puedan
entender códigos matemáticos, algoritmos”, e incluso
tener conocimientos de negocio “para poder entender el
porqué de los servicios que pueden ofrecerse con los
datos”.
Página –183–
184. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Las nuevas tecnologías y el desarrollo del big
data necesitan de profesionales con habilidades
en campos como informática, matemáticas,
estadística, negocios, analítica, ciencias de la
computación, que dominen la programación y sus
diferentes lenguajes. Estos profesionales son los
científicos de datos, y son clave para el mundo
en el que vivimos y es considerada la profesión
del futuro.
Página –184–
185. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Conocimientos específicos del CD (DS)
q Matemáticas y Estadística, pero además se
precisa de diversos conocimientos tecnológicos:
q Bases de datos relacionales, SQL
q Bases de datos no relacionales NoSQL... “en
memoria (in-memory)…
q Lenguajes de programación: R, Python
q Machine Learning
q Programación de altas prestaciones,
programación distribuida, Hadoop…
Página –185–
186. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué diferencia a un científico de datos de
un analista de datos tradicional?
q A diferencia de un analista de datos tradicional, que suele mirar
los datos obtenidos de una única fuente (un CRM por ejemplo),
un científico de datos no sólo podrá extraer y examinar los datos
de múltiples fuentes (Google Analytics, CRMs, páginas web, logs
de aplicaciones, etc), sino que además deberá tener una fuerte
visión de negocio.
q Su trabajo consiste en obtener las respuestas para las
preguntas o problemas de negocio que se planteen en la
empresa, busca los orígenes de datos disponibles, extrae los
que son relevantes y los examina. De su examen obtendrá “el
conocimiento”, lo que proporcionará una ventaja competitiva a la
empresa, siendo además capaz de extraer y transmitir
recomendaciones a los responsables de negocio de la empresa.
Página –186–
187. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
¿Qué habilidades son recomendables que
tenga un científico de datos?
q Como ya hemos indicado, el científico de datos debe
responder a cuestiones de negocio basadas en los datos y
ser capaz de presentarlas de modo efectivo. Por tanto un
científico de datos deberá tener diferentes habilidades y
en campos muy distintos:
Página –187–
188. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Habilidades científicas
q Que le permitan responder a las cuestiones planteadas.
¿Qué proceso seguirá para responder a esas cuestiones?
q Extraer los datos, independientemente de su fuente
(webs, .csv, logs, apis, etc) y de su volumen (Big Data
o Small Data).
q Limpiar los datos, para eliminar aquello que distorsiona los
mismos.
q Procesar los datos usando diferentes métodos estadísticos
(inferencia estadística, modelos de regresión, pruebas de
hipótesis, etc.).
q Diseñar nuevos test o experimentos en caso necesario.
q Visualizar y presentar gráficamente los datos.
Página –188–
189. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Habilidades tecnológico/matemático
q A nivel informático: deberá ser capaz de programar en R y/o
Python para la extracción y limpieza de los datos. Además R
dispone de diferentes paquetes estadísticos que facilitan el análisis
y presentación de los datos. Complementarios:
conocimientos de bases de datos SQL y NoSQL (Cassandra),
Hadoop, Mapreduce, Hive y Pig
q A nivel matemático/estadístico: modelado estadístico,
inferencia estadística, diseño de test, y si queremos ir un paso
más allá, aprendizajes supervisados y no supervisados y
machine learning.
q Para presentación/visualización de los datos: existen
infinidad de herramientas, desde el clásico PowerPoint, pasando
por Tableau, Prezi y otras muchas.
Página –189–
190. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
Habilidades sociales y de negocio
q Habilidades “sociales”
q Que le permitan presentar las conclusiones obtenidas de
manera exitosa a cualquier “nivel” de la organización.
Deberá ser por tanto un buen comunicador capaz de
empatizar con la audiencia.
q Habilidades de “negocio”
q Deberá ser un apasionado del negocio y sus datos,
conocer bien la empresa, sus objetivos, necesidades,
preocupaciones y motivaciones y, por supuesto, conocer
la competencia. Todo ello le proporcionará el contexto
adecuado en el que interpretar los datos.
Página –190–
191. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
La caja de herramientas del
científico de datos
q La Ciencia de Datos se erige en nuestros días como una
profesión multidisciplinar.
q La Ciencia del Dato se erige en nuestros días como una
profesión multidisciplinar en la cual conocimientos
técnicos de diversas áreas se solapan formando un perfil
más propio del Renacimiento que del superespecializado
Siglo XXI.
q Dada la escasez de formación estructurada en la materia,
los científicos de datos se ven obligados a ir coleccionando
conocimientos, habilidades y herramientas que les
permitan desarrollar de forma óptima sus competencias.
Página –191–
192. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CAJA DE HERRAMIENTAS DEL
CIENTÍFICO DE DATOS
Página –192–
q La primera pregunta que surge es qué se utiliza más, si
las herramientas open source o software propietario.
Según la 16ª encuesta de KDnuggets, la mayoría de los
científicos, un 64% utilizan ambas
193. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
CAJA DE HERRAMIENTAS DEL
CIENTÍFICO DE DATOS
Página –193–
194. © Luis Joyanes Aguilar
Pereira, Colombia
20 de agosto, 2015
KDnuggets: Las 10 herramientas más
utilizadas son: www.kdnuggets
q R, lenguaje de programación y entorno de software de
código abierto para programación estadística y entornos
gráficos. Es la más utilizada entre científicos y mineros de
datos lo que implica la existencia de múltiples librerías y
paquetes fácilmente reutilizables.
Página –194–