Sparkling Water

Sparkling Water
Pol Sanz
Oriol Mauri
SIO – URV 2017

Índex
 Introducció a Sparkling Water
 Conceptes Clau
 Data Munging
 Scoring
 Característiques, Spark i H2O
 Cicle de Vida
 Arquitectura i Tractament de Dades
 Casos d'ús
 Exemples d´ús
 Començar amb Sparkling Water
 Conclusions

Introducció
 Spark
 Plataforma open-source optimitzada per gran manegaments de dades (big data)
 H2O
 Producte open-source basat en l'escalabilitat del machine learning i "data science".
 Sparkling Water és el resultat de combinar el millor de les dues tecnologies
 Algoritmes escalables de machine learning amb l'ecosistema i les capacitats d'Spark API
 Suporta Scala, R y Python a través de H20 Flow UI

Data Munging
 Donar forma a un conjunt de dades desordenat, també conegut data wrangling.
 Al realitzar un anàlisi de dades (aplicar un model analític), es seleccionen unes característiques
que han de tenir les dades abans d'aplicar el model
 Totes les operacions que es fan a un conjunt de dades sense procesar per netejarlo, es coneix
com Data munging.
 A vegades, el Data munging crea dades derivades, com identificadors únics o d'altre informació
necessaria.

Scoring
 Técnica per avaluar la probabilitat de que un individu compleixi un objetiu previst
 S'obté de diverses quantitats i qualitats de dades disponibles de l'individu
 Dades socio-demogràfiques, comportaments de compra, respostes anteriors
 Regressió logística, classificacions (falsos positius)
 Exemples
 Determinar la viabilitat d'un client que vol demanar un crèdit (edad, feina, ingresos, préstecs...)
 Millor àrea d'implantació d'una fàbrica en funció de les característiques d'una població (habitants, cicle
de vida, mitjana edad...)

Característiques
Spark
 Eficiencia en memòria
 Rapidesa computacional
 Algoritmes de Machine learning
 Parser, GUI, interficie-R
H20
 API fàcil d'usar (intuïtiva)
 Gran comunitat activa
 Components per la plataforma –
SQL
 Multitenacy

Comparació de Sparkling Water amb Spark
+ H20
 Quin hauria de fer servir?
 Depèn de les necessitats del usuari
 Perquè utilitzar Sparkling Water, i no desenvolupar un model POJO i Spark mateix?
 L'ús esperat de SW es per tenir H20 disponible a dins d'un context Spark.
 Útil per training: es poden aprofitar diferents data conectors, capacitats de munging...
 Un model POJO/MOJO + Spark es suficient per fer scoring
 És necessari quan vols utilitzar algoritmes de H20 en harmonía amb l'ecosistema Spark.

El que ens proporciona Sparkling Water
 Integració de manera transparent de la plataforma de machine learning d' H2O amb
l'ecosistema de Spark
 Ús de les estructures de dades d'H2O (H2O Frame) i algoritmes amb l'API de Spark

Arquitectura de dades: RDD
 Perquè aquesta arquitectura de dades?
 Problema al guardar informació en sistemes distribuits (reutilització, compartiment)
 Processos lents ja que involucren moltes operacions E/S com repliques i serialitzacions
 Solució: Tolerancia a fallades distribuida en memòria dels càlculs
 Resilient Distributed Datasets
 Inmutable
 Particionat
 Tolerant a fallades
 Avaluació dèbil (no estricte ni repetida)
 Persistent

Cicle de vida de Sparkling Water
1. $ spark-submit
2. Spark Worker JVM
3. Spark Executor JVM
4. H2O
5. Main App (Scala)

Tractament de les Dades
2. De Spark RDD a H2O RDD
Dues Copies: a Spark RDD i a H2O Frame
(columnes de dades comprimides sobre les
que operen els algoritmens de H2O)
3. Retorna les prediccions resultants
1. Spark SQL llegeix de Dades origen
(de HDFS a Spark RDD)
Dades a Spark Executor JVM

Casos d'ús – Model building
1. Data source
2. Data munging
3. Modelling
4. Prediction processing

Casos d'us – Data parsing munging
1.Data source
2.Data load / munging /
exploration(Spark + H20)
3. Modelling (H20)

Casos d'us
Stream processing, Off-line Data training
1. Processar dades
2. Exportar el model
3.(binari o codi)
4. Processar el model
5. Fer prediccions

Exemples
• Crear un Model: amb dades meteorològiques i dates de vols per predïr el
retràs d'aquests de Barcelona a Londres
• A partir de twitts, a quina hora twitteja la persona i quins continguts
escriu, saber si aquesta persona està a l'atur o no i quina ideologia
política té
• Mirar si hi ha relació entre el mapa de les persones que escriu missatges
rasistes a les xarxes socials amb el mapa de les colonies del Ku Klux Klan

Requeriments d'ús
 Linux/OS X/Windows
 Java 7+
 Spark 1.6+
 Sparkling Water es desenvolupa en diferents branques paral·leles segons per cada
versió Spark
 Configurar la variable shell SPARK_HOME per a que apunti al directori d'instalació
d'Spark
 export SPARK_HOME="/path/to/spark/installation" .
 export MASTER="local-cluster[3,2,1024]"
 import org.apache.spark.h2o._
val h2oContext = new H2OContext(sc).start()
import h2oContext._

Instal·lar i Executar
 Desenpaquetar el zip
 Configura el SPARK_HOME per la instal·lació del Spark
 Executar la shell:
$ /bin/sparkling-shell

Conclusió
 Sparkling Water és l’eina perfecte per aquelles persones que vulguin iniciarse en
l’àmbit de ‘machine learning’ i ja coneguin l’ecosistema que ofereix Spark per
tractar amb ‘big data’, tot integrat dins d’un sol entorn.
 La comunitat de la plataforma és molt activa, i al ser open-source, el progrés de
Sparkling Water és constant.

Gràcies per la
vostra atenció
Pol Sanz
Oriol Mauri
SIO – URV 2017

Sparkling Water

Recommended

Recommended

More Related Content

Similar to Sparkling Water

Similar to Sparkling Water (20)

Sparkling Water

Editor's Notes