Este documento describe cómo usar R, Tensorflow y Keras para predecir la pérdida de clientes mediante aprendizaje automático. Se leen los datos, se preprocesan eliminando columnas, tratando valores perdidos y transformando variables. Luego se entrena un modelo de redes neuronales usando Keras, se valida midiendo métricas como precisión y se comparten los resultados.
No machine learning algorithm dominates in every domain, but random forests are usually tough to beat by much. And they have some advantages compared to other models. No much input preparation needed, implicit feature selection, fast to train, and ability to visualize the model. While it is easy to get started with random forests, a good understanding of the model is key to get the most of them.
This talk will cover decision trees from theory, to their implementation in scikit-learn. An overview of ensemble methods and bagging will follow, to end up explaining and implementing random forests and see how they compare to other state-of-the-art models.
The talk will have a very practical approach, using examples and real cases to illustrate how to use both decision trees and random forests.
We will see how the simplicity of decision trees, is a key advantage compared to other methods. Unlike black-box methods, or methods tough to represent in multivariate cases, decision trees can easily be visualized, analyzed, and debugged, until we see that our model is behaving as expected. This exercise can increase our understanding of the data and the problem, while making our model perform in the best possible way.
Random Forests can randomize and ensemble decision trees to increase its predictive power, while keeping most of their properties.
The main topics covered will include:
* What are decision trees?
* How decision trees are trained?
* Understanding and debugging decision trees
* Ensemble methods
* Bagging
* Random Forests
* When decision trees and random forests should be used?
* Python implementation with scikit-learn
* Analysis of performance
No machine learning algorithm dominates in every domain, but random forests are usually tough to beat by much. And they have some advantages compared to other models. No much input preparation needed, implicit feature selection, fast to train, and ability to visualize the model. While it is easy to get started with random forests, a good understanding of the model is key to get the most of them.
This talk will cover decision trees from theory, to their implementation in scikit-learn. An overview of ensemble methods and bagging will follow, to end up explaining and implementing random forests and see how they compare to other state-of-the-art models.
The talk will have a very practical approach, using examples and real cases to illustrate how to use both decision trees and random forests.
We will see how the simplicity of decision trees, is a key advantage compared to other methods. Unlike black-box methods, or methods tough to represent in multivariate cases, decision trees can easily be visualized, analyzed, and debugged, until we see that our model is behaving as expected. This exercise can increase our understanding of the data and the problem, while making our model perform in the best possible way.
Random Forests can randomize and ensemble decision trees to increase its predictive power, while keeping most of their properties.
The main topics covered will include:
* What are decision trees?
* How decision trees are trained?
* Understanding and debugging decision trees
* Ensemble methods
* Bagging
* Random Forests
* When decision trees and random forests should be used?
* Python implementation with scikit-learn
* Analysis of performance
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup
Los algoritmos de Machine Learning juegan hoy en día un papel fundamental en el funcionamiento de todo tipo de aplicaciones, desde reconocimiento de imágenes o voz en un teléfono celular hasta los autos autónomos. En esta charla intentaremos explicar qué es Machine Learning, cuáles son los algoritmos de ML mas importantes y cuál es el proceso típico para la construcción y puesta en producción de dichos algoritmos.
¿Cómo mantener tu javascript?: Buenas prácticasjaespinmora
Buenas práctias en el desarrollo de software con javascript. Código limpio, mantenible, escalable, tests,... Charla perteneciente al evento Betabeers Murcia del día 9 de Mayo de 2014
Argentesting 2019 - Machine learning en testing priorizacion de casos de pr...Argentesting
Machine Learning en Testing (Priorización de casos de prueba para una regresión) por Gastón Galera y Lucas Montoya
Sobre la charla:
Dado que el Regression Testing es una tarea común dentro del ciclo de desarrollo del software y debido a que testear todo el sistema no es posible por el costo y tiempo disponible; generalmente nos encontramos en una situación donde sólo un subset termina ejecutándose según la priorización que los mismos tienen o un experto puede darles.
En esta presentación queremos usar la Inteligencia Artificial (supervised machine learning) para que realice la priorización de los TCs y obtener un mejor resultado en el menor tiempo posible.
Vamos a utilizar el algoritmo de Machine Learning (ML) SVM Rank para evaluar y medir la calidad de la priorización realizada.
Nuestro resultado implicará que la técnica basada en ML mejora la detección temprana de fallas en el sistema comparado a uno aleatorio.
Sobre Gastón:
Ingeniero en Sistemas; profesional con más de 11 años de experiencia en el área de calidad principalmente en Testing, con conocimientos de performance, automatización, gestión de equipos e interesado en la investigación. Actualmente se desempeña como Test Lead en el equipo de Validación. Certificado en ISTQB Test Foundation 2010. Sobre Lucas:
Ingeniero de Sistemas. Analista de Pruebas desde el año 2013. Participó en proyectos de diferente índole en las actividades de planificación, diseño y ejecución de ciclos de prueba, reporte y seguimiento de defectos. Certificado en ISTQB Foundation Level y ISTQB Agile Tester.
En esta sesión analizaremos experiencias de la vida real como consultor en trabajos de mejora de rendimiento. Veremos mejores prácticas para la configuración de SQL Server, tips para un mejor T-SQL y un ejercicio de como monitorear mi servidor de base de datos con Performance Counters, un SQL Server Express y un Excel con Power Pivot.
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
La utilización de estructuras de datos adecuadas para cada problema hace que se simplifiquen en gran medida los tiempos de respuestas y la cantidad de cómputo realizada.
Por Nelson González
Más contenido relacionado
Similar a Machine Learning con Tensorflow y R, presentado por RStudio
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup
Los algoritmos de Machine Learning juegan hoy en día un papel fundamental en el funcionamiento de todo tipo de aplicaciones, desde reconocimiento de imágenes o voz en un teléfono celular hasta los autos autónomos. En esta charla intentaremos explicar qué es Machine Learning, cuáles son los algoritmos de ML mas importantes y cuál es el proceso típico para la construcción y puesta en producción de dichos algoritmos.
¿Cómo mantener tu javascript?: Buenas prácticasjaespinmora
Buenas práctias en el desarrollo de software con javascript. Código limpio, mantenible, escalable, tests,... Charla perteneciente al evento Betabeers Murcia del día 9 de Mayo de 2014
Argentesting 2019 - Machine learning en testing priorizacion de casos de pr...Argentesting
Machine Learning en Testing (Priorización de casos de prueba para una regresión) por Gastón Galera y Lucas Montoya
Sobre la charla:
Dado que el Regression Testing es una tarea común dentro del ciclo de desarrollo del software y debido a que testear todo el sistema no es posible por el costo y tiempo disponible; generalmente nos encontramos en una situación donde sólo un subset termina ejecutándose según la priorización que los mismos tienen o un experto puede darles.
En esta presentación queremos usar la Inteligencia Artificial (supervised machine learning) para que realice la priorización de los TCs y obtener un mejor resultado en el menor tiempo posible.
Vamos a utilizar el algoritmo de Machine Learning (ML) SVM Rank para evaluar y medir la calidad de la priorización realizada.
Nuestro resultado implicará que la técnica basada en ML mejora la detección temprana de fallas en el sistema comparado a uno aleatorio.
Sobre Gastón:
Ingeniero en Sistemas; profesional con más de 11 años de experiencia en el área de calidad principalmente en Testing, con conocimientos de performance, automatización, gestión de equipos e interesado en la investigación. Actualmente se desempeña como Test Lead en el equipo de Validación. Certificado en ISTQB Test Foundation 2010. Sobre Lucas:
Ingeniero de Sistemas. Analista de Pruebas desde el año 2013. Participó en proyectos de diferente índole en las actividades de planificación, diseño y ejecución de ciclos de prueba, reporte y seguimiento de defectos. Certificado en ISTQB Foundation Level y ISTQB Agile Tester.
En esta sesión analizaremos experiencias de la vida real como consultor en trabajos de mejora de rendimiento. Veremos mejores prácticas para la configuración de SQL Server, tips para un mejor T-SQL y un ejercicio de como monitorear mi servidor de base de datos con Performance Counters, un SQL Server Express y un Excel con Power Pivot.
Similar a Machine Learning con Tensorflow y R, presentado por RStudio (20)
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
La utilización de estructuras de datos adecuadas para cada problema hace que se simplifiquen en gran medida los tiempos de respuestas y la cantidad de cómputo realizada.
Por Nelson González
Onboarding new members into an engineering team is not easy on anyone. In a short period of time, the new team member is required to be able to bring professional
Por Victoriya Kalmanovich
El secreto para ser un desarrollador SeniorSoftware Guru
En esta charla platicaremos sobre el “secreto” y el camino para llegar a ser un desarrollador Senior, experiencia, consejos y recomendaciones que en estos 8 años
Por René Sandoval
Apache Airflow es una plataforma en la que podemos crear flujos de datos de manera programática, planificarlos y monitorear de manera centralizada.
Por Yesi Díaz
How thick data can improve big data analysis for business:Software Guru
En esta presentación hablaré sobre cómo el Análisis de Datos Gruesos, específicamente el análisis antropológico y semiótico, puede ayudar a mejorar los resultados del Big Data
Por Martin Cuitzeo
CoDi® es la nueva forma de realizar pagos digitales desarrollada por el Banco de México. Por medio de CoDi puedes realizar cobros y pagos desde tu celular, utilizando una cuenta bancaria o de alguna institución financiera, sin comisiones.
Por Cristian Jaramillo
Gestionando la felicidad de los equipos con Management 3.0Software Guru
En las metodologías agiles hablamos de equipos colaborativos, autogestionados y felices. hablamos de lideres serviciales. El management 3.0 nos ayuda a cultivar el mindset correcto, aquel que servirá como el terreno fértil para que la agilidad florezca.
Por Andrea Vélez Cárdenas
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
Hoy por hoy las experiences de usuario pueden ser enriquecidas mediante el uso de Web Components, que son un estándar de la W3C soportado por la mayoría de los navegadores web modernos.
Por Alex Arriaga
Así publicamos las apps de Spotify sin stressSoftware Guru
En Spotify tenemos 1600+ ingenieros, trabajando en 280+ squads. Aún a esta escala, hemos logrado adoptar prácticas que nos han permitido acelerar la forma en que desarrollamos nuestro producto. Presentado por Erick Camacho en SG Virtual Conference 2020
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
he measure of the executive, Peter F. Drucker reminds us, is the ability to "get the right things done." This involves having clarity on what are the right things as well as avoiding what is unproductive. Intelligence, creativity, and knowledge may all be wasted if not put to work on the things that matter.
Presentado por Cristina Nistor en SG Virtual Conference 2020
Acciones de comunidades tech en tiempos del Covid19Software Guru
Acciones de Comunidades Tech en tiempo del COVID-19 es una platica para informar acerca de las acciones que están realizando algunas comunidades de tecnología en México para luchar contra la propagación del COVID-19. Desde análisis de datos, visualizaciones, simulaciones de contagio, etc.
Presentado por Juana Martínez, Adriana Vallejo y Eduardo Ramírez en SG Virtual Conference 2020
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
La charla presenta un modelo claro, generado por la ponente, para atender los niveles desde lo operativo a lo estratégico.
Presentado por Gabriela Salinas en SG Virtual Conference
HPE presenta una competició destinada a estudiants, que busca fomentar habilitats tecnològiques i promoure la innovació en un entorn STEAM (Ciència, Tecnologia, Enginyeria, Arts i Matemàtiques). A través de diverses fases, els equips han de resoldre reptes mensuals basats en àrees com algorísmica, desenvolupament de programari, infraestructures tecnològiques, intel·ligència artificial i altres tecnologies. Els millors equips tenen l'oportunitat de desenvolupar un projecte més gran en una fase presencial final, on han de crear una solució concreta per a un conflicte real relacionat amb la sostenibilitat. Aquesta competició promou la inclusió, la sostenibilitat i l'accessibilitat tecnològica, alineant-se amb els Objectius de Desenvolupament Sostenible de l'ONU.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
KAWARU CONSULTING presenta el projecte amb l'objectiu de permetre als ciutadans realitzar tràmits administratius de manera telemàtica, des de qualsevol lloc i dispositiu, amb seguretat jurídica. Aquesta plataforma redueix els desplaçaments físics i el temps invertit en tràmits, ja que es pot fer tot en línia. A més, proporciona evidències de la correcta realització dels tràmits, garantint-ne la validesa davant d'un jutge si cal. Inicialment concebuda per al Ministeri de Justícia, la plataforma s'ha expandit per adaptar-se a diverses organitzacions i països, oferint una solució flexible i fàcil de desplegar.
2. Tensorflow
❏ Aprendizaje automático y profundo.
❏ Computación de alto desempeño
❏ Librería de código abierto
❏ Variedad de plataformas y dispositivos
Fuente: https://www.tensorflow.org/
3. Keras
❏ Facilita el desarrollo de modelos
❏ Se integra con Tensorflow y otros
❏ El mismo código funciona en CPU o GPU
❏ Redes convolucionales y recurrentes
Fuente: https://github.com/rstudio/keras
11. Análisis original
Ejemplo basado en el artículo: “Deep Learning With Keras To Predict
Customer Churn”, publicado por Matt Dancho.
https://blogs.rstudio.com/tensorflow/posts/2018-01-11-keras-customer-churn/
12. Objetivo
Analizar datos de pérdida de clientes de una compañía de
telecomunicaciones con R, Keras y Tensorflow.
13. Instale TF y Keras desde R
install.packages("tensorflow")
install.packages("keras")
library(keras)
install_tensorflow()
install_keras()
Instale los paquetes de R
Cargue el paquete keras
Instalar TF y Keras
16. Leér datos
# A tibble: 7,043 x 21
customerID gender SeniorCitizen Partner Dependents tenure PhoneService
<chr> <chr> <dbl> <chr> <chr> <dbl> <chr>
1 7590-VHVEG Female 0 Yes No 1 No
2 5575-GNVDE Male 0 No No 34 Yes
3 3668-QPYBK Male 0 No No 2 Yes
4 7795-CFOCW Male 0 No No 45 No
5 9237-HQITU Female 0 No No 2 Yes
6 9305-CDSKC Female 0 No No 8 Yes
7 1452-KIOVK Male 0 No Yes 22 Yes
8 6713-OKOMC Female 0 No No 10 No
9 7892-POOKP Female 0 Yes No 28 Yes
10 6388-TABGU Male 0 No Yes 62 Yes
# ... with 7,033 more rows, and 14 more variables: MultipleLines <chr>
datos_perdimiento <- read_csv("customer_churn.csv")