Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Taller: Dplyr + R + Spark = Sparklyr

240 views

Published on

El paquete de R llamado sparklyr facilita el aprendizaje mediante un instalador de Spark que se puede usar dentro de una computadora personal, incluyendo Windows. En este taller los participantes aprenderán a utilizar Spark por medio de R mediante el uso de diferentes técnicas y funciones para transformar datos, crear modelos estadísticos, y programar canales de datos.

Para aquellos que desean realizar las prácticas en vivo durante la sesión, favor de revisar previamente las instrucciones en https://github.com/edgararuiz/datadaymx
Por Edgar Ruíz (RStudio)

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Taller: Dplyr + R + Spark = Sparklyr

  1. 1. Taller: Usando sparklyr Edgar Ruiz 15 de marzo del 2018 @theotheredgar linkedin.com/in/edgararuiz
  2. 2. Ciencia de Datos con R y Spark Origen de Datos Extraer Arreglar Entender Comunicar Bases de Datos Archivos APIs Publicar RStudio Connect HDFS Tablas MLib Spark SQL API R Lago de Datos Entender
  3. 3. La idea principal C�lculos Resultados Extraer datos
  4. 4. Como funciona sparklyr - dplyr - Aprendizaje autom�tico - Extensiones - Inform�tica en cl�ster - Comunicaci�n usando SQL - API extensible - Aprendizaje autom�tico S3 Paquete de Spark Spark Shell Funci�n de R
  5. 5. Opciones para manejar memoria S3 SQLSQL ResultadoResultado S3 SQL Copiar Resultado Opci�n 2 Los datos de cada resultado vienen desde el origen. Copiar los datos en Spark. Los resultados est�n en la memoria. Opci�n 1
  6. 6. Visualizar datos Una funci�n Gr�ficoAgregar Datos locales Datos lejanos
  7. 7. Spark Pipelines (Tuber�a) Estimator ft_dplyr_transformer() ft_binarizer() ft_bucketizer() ft_r_formula() ml_logistic_regression() Transformer ft_dplyr_transformer() ft_binarizer() ft_bucketizer() ft_r_formula() ml_logistic_regression() Spark Pipeline ml_pipeline() Datos de entrenamiento Spark PipelineModel ml_fit()
  8. 8. Links Sitio official de sparklyr: http://spark.rstudio.com/ Sitio official de Spark: http://spark.apache.org/

×