1. Big Data
EL FUTURO A TRAVÉS DE LOS DATOS
II ASAMBLEA GENERAL DE PLANETIC
16/03/2015
Oscar Corcho
ocorcho@fi.upm.es
@ocorcho
https://www.slideshare.com/ocorcho
2. License
• This work is licensed under the license
CC BY-NC-SA 4.0 International
• http://purl.org/NET/rdflicense/cc-by-nc-sa4.0
• You are free:
• to Share — to copy, distribute and transmit the work
• to Remix — to adapt the work
• Under the following conditions
• Attribution — You must attribute the work by inserting
• “[source Oscar Corcho]” at the footer of each reused slide
• a credits slide stating: “These slides are partially based on
“Big Data” by O. Corcho”
• Non-commercial
• Share-Alike
3. ¿Qué es Big Data?
Fuente: http://www.ibmbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg
4. ¿Qué es Big Data?
Fuente: http://www.philipchircop.com/post/25783275888/seeing-the-full-elephant-its-a-tree-its-a
6. Características de los nichos ecológicos
• Un nicho se entiende como un espectro de
utilización de recursos
• Las especies difieren en la eficiencia de utilización de unos
recursos que varían continuamente.
• Características de un nicho
• Amplitud (rango con que se usan recursos)
• Especies generalistas (amplitud grande – capaces de
utilizar un amplio rango de recursos)
• Especies especialistas (amplitud pequeña – necesitan
una combinación de recursos muy concreta)
• Solapamiento (similitud entre nichos, en el uso de recursos)
• Principio de exclusión competitiva (Gause, 1934).
• Si dos especies coexisten en un ambiente estable, lo hacen
como resultado de la diferenciación de los nichos efectivos.
Fuente: Javier Seoane. Ecología. Unidad Temática 21. Teoría del nicho ecológico
7. ¿Y QUÉ TIENE TODO ESTO
QUE VER CON BIG DATA?
Sí, muy interesante, pero…
8. Nicho Big Data 1. Expertos en HPC e infraestructura
Formación: Informática (Sistemas)
Administración de sistemas
Términos frecuentes en su idioma:
Blades, Infiniband, OpenMPI,
Cabinas de disco, racks, HDF,
TBs, Gflops
Su día a día:
Revisar logs de los sistemas
Asegurar que las colas están activas
Instalar un rack nuevo
¿Qué es el Big Data para ellos?
Término “comercial” para algo que
llevan mucho tiempo haciendo
Ellos sí que saben configurar bien un
cluster Hadoop, y monitorizarlo
Ya les gustaría ver a los que hablan
de Big Data ejecutando procesos de
dinámica de fluidos
9. Nicho Big Data 2. Expertos en bases de datos
Formación: Informática
Administración de BBDD
Términos frecuentes en su idioma:
SQL, NoSQL, Column store
Transacions, Hive,
TBs/PBs/etc, TPS (Transactions per s)
Su día a día:
Optimizar varias consultas
Ejecutar un nuevo benchmark
Diseñar un nuevo optimizador
¿Qué es el Big Data para ellos?
Una nueva oportunidad de trabajar
en algoritmos de optimización
Ellos sí que saben configurar bien
una base de datos
A veces se ríen de los que montan una
solución NoSQL, cuando sus problemas
se resuelven con una BD relacional
10. Nicho Big Data 3. Expertos en Data Mining
Formación: Matemática, Estadística, Física
Informática
Términos frecuentes en su idioma:
Complejidad, algoritmo, p-value,
óptimo, convergencia, precisión,
recall, curva ROC, red bayesiana, R
Su día a día:
Leer un problema nuevo
Escribir unas fórmulas en la pizarra
Comprobar terminación del algoritmo
¿Qué es el Big Data para ellos?
Problemas de siempre aplicados a
muchos más datos y con nuevos retos
Los problemas se resuelven con algo
más que un cluster Hadoop y una
base de datos potente
Se asombran de algunas conclusiones
científicas que leen en la prensa
11. Nicho Big Data 4. Expertos en slow-data
Formación: Informática, Estadística,
Biblioteconomía, Lingüística
Términos frecuentes en su idioma:
Modelo de información, vocabulario,
ontología, calidad del dato,
curación
Su día a día:
Recibir un esquema de base de datos
Hablar con productores y usuarios
Crear consenso y transformar datos
¿Qué es el Big Data para ellos?
En la variedad de estructuras y
formatos está la dificultad
Podemos mezclar datos de diversas
fuentes, pero son conscientes
de que no siempre es posible
Cuando se integran datos heterogéneos
se consiguen más resultados
12. Nicho Big Data 5. Consultores
Formación: Informática, Economía,
…
Términos frecuentes en su idioma:
Modelo de negocio, oportunidades,
Big Data, Data Value Chain,
Hadoop, Spark, R, TBs, GFlops
Su día a día:
Leer un informe sobre Big Data
Hablar con clientes potenciales
Transmitir necesidades a los técnicos
¿Qué es el Big Data para ellos?
Son las 4Vs, y alguna más
Tengo un PPT con mi infraestructura,
una arquitectura, resultados de
proyectos anteriores Big Data, y
puedo usarlo para vender algún
proyecto
13. ¿Nos falta algún nicho ecológico?
• Ya hemos visto varios nichos ecológicos en nuestro
ecosistema de Big Data…
• Todos coexisten
• Existen algunos solapamientos entre ellos
¿Se os ocurre alguno que no haya
considerado?
14. La evolución de una nueva especie: Data Scientist
Formación: Informática+Estadística
+Matemática+Economía+
…
Términos frecuentes en su idioma:
HPC, bases de datos, algoritmos,
harmonización, integración,
Hadoop, Spark, R, TBs, GFlops
Su día a día:
Aprender nueva infraestructura
Programar scripts y ejecutar en Spark
Interpretar los resultados
Instalar nuevo framework
Leer varios artículos científicos
Hacer presentaciones vistosas
Rebatir a los que no entienden todo
lo que Big Data significa
…
15. ¿Sobrevivirán todas las especies?
• Si el concepto de Big Data define un ecosistema…
• ¿Qué especies sobrevivirán?
• ¿Exterminará la super-especie de los Data Scientists al
resto de especies?
• ¿O podrán vivir todos en simbiosis?
¿Cuál es la formación ideal para
los individuos de todas
estas especies?
16. Masters en Data Science, Big Data y similares (I)
Experto en Big Data
Experto en Data Science
18. Masters en Data Science, Big Data y similares (III)
Year 1
• Data handling
• Data analysis
• Advanced data analysis and data management
• Visualization
• Applications
Year 2
19. Formación: ¿lo estamos haciendo bien?
• Seguramente se trata de falta de madurez en el área,
pero los syllabus no parecen completamente
compatibles…
• Tampoco es creíble poder formar en un año a
expertos Data Scientists
• ¿Es mejor saber un poco de todo?
• ¿O separar claramente a las especies de nuestro
ecosistema y especializarlos mucho mejor?
¿Cómo conseguir un ecosistema
sano y estable?
20. Shameless self-promotion
• Strategies for success in the
Digital-Data Revolution
• Separation of concerns
• Intellectual ramps
• Data-intensive knowledge
discovery
• Components and usage
patterns
• Data-intensive engineering
• Development vs enactment
• Data-intensive application
experiences
• In Science
• In Business
¿Qué podemos aprender de lo
que se ha hecho en Data-
Intensive Science?
21. Separation of concerns: tres perfiles diferenciados
• Expertos de dominio
• Conocen los problemas que
quieren resolver
• Conocen el dominio de
aplicación
• Pueden crear workflows
• Data-intensive analysts
• Saben mucho de análisis de
(Big) data
• No necesariamente de la
infraestructura que hay debajo
• No necesariamente todos los
detalles de las aplicaciones
• Data-intensive engineers
• Saben mucho de computación
distribuida/infraestructura/HPC/
clouds/etc.
• Reciben descripción de un
algoritmo y lo pueden
programar más eficientemente
(paralelización)
22. Separation of concerns: tareas muy diferenciadas
[<select=
"1<=day(inp.first.start)<=5",
project="inp">,
<select=
"6<=day(inp.first.start)<=10",
project="inp">,
<select=
"11<=day(inp.first.start)<=15",
project="inp">,
...]
Programmable
Filter
Project
outputs
inp
rules
distrib
"second.fURIASC..."
Sort
outp
data
rule
Sort
outp
data
rule
Sort
outp
data
rule
Sort
outp
data
rule
["first,second"]
Tuple
Burst
outp
input
structcols inputs
Tuple
Burst
outp
input
structcols inputs
Tuple
Burst
outp
input
structcols inputs
Tuple
Burst
outp
input
structcols inputs
De
List opinp
De
List opinp
De
List opinp
De
List opinp
inp
CorrFarm
Diversidad de usuarios y aplicaciones
Complejidad de sistemas
Desarrollo en
un lenguaje de más
alto nivel
Optimización,
despliegue
y ejecución
Facilitando
Varios dominios
Varias herramientas
Varias representaciones de procesos
Varias formas de trabajo
Lenguaje único
Proporcionando
Muchos recursos autónomos
Un mecanismo de ejecución
Una plataforma única
Gateway
Herramientas
Ejecución
Librería de
componentes
EDIM1
23. Un toolset ideal para hacer Big Data
EasyRIDER Platform
Flexible Execution Engine (FEE)
Hardware infrastructure
KNIME Workflow
KNIME
platform
R
server
Data-intensive components
(processing elements, functions)
compiled into
PC
Software
Information
Registry (SIR)
OpenNebula
Fujitsu Global
Cloud Platform
Marketing
analyst
...
enacted in
Game
analyst
Tablet
Other Beneficiaries:
business experts,
data-intensive scientists, etc.
generates
Virtual Execution
Environments (VET)
Data-intensive Software Engineering
Workbench (DSEW)
described in
... ...
Data-intensive
Software Engineers
(incl. KNIME community)
...
Astronomer
24. Conclusiones
• Todos sabemos que hay grandes oportunidades en Big Data
• Para ser realmente productivos necesitamos:
• Crear equipos multidisciplinares con al menos tres roles
(desarrolladores de aplicaciones, data-intensive analysts y data-
intensive engineers)
• Comprender que simplemente por usar Hadoop, Spark o R no
estamos ya haciendo Big Data
• Igual que por usar Java no hacemos necesariamente
orientación a objetos
• Comprender que hay que interpretar bien los resultados,
científicamente
• Comprender la importancia de homogeneizar datasets, para
facilitar su integración (slow-data)
• Seguir trabajando en facilitar las herramientas adecuadas para
desarrollar aplicaciones Big Data
• ¿Oportunidades para hacer proyectos de I+D?
25. Big Data
EL FUTURO A TRAVÉS DE LOS DATOS
II ASAMBLEA GENERAL DE PLANETIC
16/03/2015
Oscar Corcho
ocorcho@fi.upm.es
@ocorcho
https://www.slideshare.com/ocorcho
Editor's Notes
The story of the blind men and an elephant originated in the Indian subcontinent from where it has widely diffused. It has been used to illustrate a range of truths and fallacies; broadly, the parable implies that one's subjective experience can be true, but that such experience is inherently limited by its failure to account for other truths or a totality of truth. At various times the parable has provided insight into the relativism, opaqueness or inexpressible nature of truth, the behavior of experts in fields where there is a deficit or inaccessibility of information, the need for communication, and respect for different perspectives