Successfully reported this slideshow.
Your SlideShare is downloading. ×

TFM sobre Modelos de Aprendizaje Automático en Ecommerce

Ad

Universidad Internacional de La Rioja
Facultad de Empresa, Comunicación y Marketing
Máster Universitario en Inteligencia d...

Ad

Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
2
Resumen
El ecomme...

Ad

Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
3
Abstract
Ecommerc...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 80 Ad
1 of 80 Ad

TFM sobre Modelos de Aprendizaje Automático en Ecommerce

TFM del Máster Universitario de Inteligencia de Negocio de UNIR, edición 2020-2021.

El trabajo versa en la elaboración de 3 modelos de clustering con Gower, RFM y K-means, así como 1 modelo de regresión logística, todo ello con datos provenientes de clientes y pedidos de Prestashop, con otros datos de Google Analytics.

TFM del Máster Universitario de Inteligencia de Negocio de UNIR, edición 2020-2021.

El trabajo versa en la elaboración de 3 modelos de clustering con Gower, RFM y K-means, así como 1 modelo de regresión logística, todo ello con datos provenientes de clientes y pedidos de Prestashop, con otros datos de Google Analytics.

More Related Content

TFM sobre Modelos de Aprendizaje Automático en Ecommerce

  1. 1. Universidad Internacional de La Rioja Facultad de Empresa, Comunicación y Marketing Máster Universitario en Inteligencia de Negocio Métodos de aprendizaje automático para la mejora estratégica de las ventas online Trabajo fin de estudio presentado por: María José Cachón Yáñez Tipo de trabajo: Proyecto de Inteligencia de Negocio Modalidad: Individual Director/a: Richard de Jesús Gil Herrera Fecha: 08/04/2021
  2. 2. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 2 Resumen El ecommerce o comercio electrónico ha experimentado un crecimiento considerable en los últimos años y acentuado debido a la crisis de la COVID-19. Las nuevas tecnologías y el entorno digital han hecho posible acelerar la confianza para comprar online. Este trabajo final de máster (TFM), trata de estudiar cómo desarrollar un proyecto de inteligencia de negocio que mediante modelos de inteligencia artificial permita segmentar clientes, así como determinar aspectos con mayor incidencia en la venta online. Con datos de ecommerce reales, provenientes de Prestashop y Google Analytics principalmente, se han depurado y procesado datos de ventas, clientes y origen de las visitas online para llegar a crear 4 modelos. En primer lugar, 3 modelos diferentes de segmentación de clientes, muy útiles para mejorar la tanto la segmentación de clientes como personalizar campañas y/o promociones. El cuarto modelo orientado a predecir el peso de las distintas características de las visitas a la Web, que acaban en compra y con capacidad de predicción individual que agregaría mucho valor a cualquier ecommerce. La conclusión principal versa sobre como estos análisis puede mejorar la toma de decisiones y su trascendente impacto estratégico tanto de conocimiento del cliente final como en la prescripción de acciones que maximizarán las ventas. Palabras clave: comercio electrónico, tiendas online, ecommerce, optimización de la conversión
  3. 3. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 3 Abstract Ecommerce or electronic commerce has experienced considerable growth in recent years and has been accentuated by the COVID-19 crisis. New technologies and the digital environment have made it possible to accelerate the confidence to buy online. This final master’s thesis (TFM) aims to study how to develop a business intelligence project that, through artificial intelligence models, allows for the segmentation of customers, as well as determining aspects with the greatest impact on online sales. With real e-commerce data, mainly from Prestashop and Google Analytics, we have debugged and processed data on sales, customers and origin of online visits to create 4 models. Firstly, 3 different customer segmentation models, very useful to improve customer segmentation and personalize campaigns and/or promotions. The fourth model oriented to predict the weight of the different characteristics of the visits to the Web, which end in purchase and with individual predictive capacity that would add much value to any ecommerce. The main conclusion is about how these analyses can improve decision making and their transcendent strategic impact both in terms of knowledge of the end customer and in the prescription of actions that will maximize sales. Keywords: e-commerce, online shops, ecommerce, conversion optimization
  4. 4. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 4 Índice de contenidos Introducción.............................................................................................................................. 9 1.1. Descripción del proyecto........................................................................................... 9 1.1.1. La importancia de la segmentación de clientes ................................................ 9 1.1.2. Evolución del ecommerce en España .............................................................. 12 1.1.3. Factores que influyen en la conversión........................................................... 16 1.1.4. Principales tecnologías usadas para crear una tienda online.......................... 23 1.2. Principal problema identificado y justificación del proyecto .................................. 24 1.3. Objetivos del TFE..................................................................................................... 25 1.3.1. Objetivos generales......................................................................................... 25 1.3.2. Objetivos específicos....................................................................................... 25 2. Alcance y planificación..................................................................................................... 26 2.1. Fase de descubrimiento: evaluación del entorno actual ........................................ 26 2.1.1. Información deseada....................................................................................... 26 2.1.2. Información actual: deficiencias y soluciones alternativas ............................. 26 2.1.3. Habilidades analíticas actuales........................................................................ 28 2.2. Fase de análisis: identificación de gaps................................................................... 29 2.2.1. Capacidad de los informes actuales ................................................................ 29 2.2.2. Proveedores de tecnología necesarias............................................................ 29 2.2.3. Cronología, costes y recursos humanos implicados........................................ 30 2.3. Fase de recomendaciones: alcance y prioridades................................................... 30 3. Análisis y definición.......................................................................................................... 31 3.1. Análisis preliminar de los datos a utilizar................................................................ 31 3.1.1. Descripción de datos....................................................................................... 31 3.2. Análisis histórico y/o limpieza de datos .................................................................. 43 3.3. Modelado propuesto............................................................................................... 44 3.3.1. Disimilitud Gower............................................................................................ 44 3.3.2. RFM Analysis ................................................................................................... 47 3.3.1. RFM Analysis + K-means.................................................................................. 48 3.3.2. Regresión logística........................................................................................... 49 4. Construcción, prueba, implementación y despliegue...................................................... 52 4.1. Construcción del modelo Gower............................................................................. 52 4.1.1. Estimación del modelo.................................................................................... 52 4.1.2. Resultado......................................................................................................... 52 4.2. Construcción del modelo RFM ................................................................................ 57 4.2.1. Estimación del modelo.................................................................................... 57 4.2.2. Resultado......................................................................................................... 58 4.3. Construcción del modelo RFM usando K-means para clustering............................ 60 4.3.1. Estimación del modelo.................................................................................... 60 4.3.2. Resultado......................................................................................................... 60 4.4. Construcción del modelo LOGIT.............................................................................. 64 4.4.1. Estimación del modelo.................................................................................... 64 4.4.2. Resultado......................................................................................................... 64 5. Cronograma del proyecto................................................................................................ 67 5.1. Swimlane de Inteligencia de negocio y gestión del proyecto ................................. 67 5.2. Swimlane de datos, bases de datos e integración de datos.................................... 67
  5. 5. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 5 5.3. Swimlane de la infraestructura ............................................................................... 68 6. Conclusiones.................................................................................................................... 68 7. Limitaciones y prospectiva............................................................................................... 70 Bibliografía .............................................................................................................................. 72 Anexo A................................................................................................................................... 78
  6. 6. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 6 Índice de figuras Figura 1. Evolución de compradores online en España........................................................... 12 Figura 2. Ramas con mayor negocio online durante covid ..................................................... 14 Figura 4. Perfil de compradores y frecuencia de compras...................................................... 14 Figura 5. Perfil de compradores y gasto promedio................................................................. 15 Figura 6. Perfil de compradores y dispositivos........................................................................ 15 Figura 7. Drivers de compra.................................................................................................... 16 Figura 8. Razones para no comprar online.............................................................................. 17 Figura 9. Conversión por sector en 2019 y 2020..................................................................... 18 Figura 10. Evolución de la conversión en España.................................................................... 18 Figura 11. Razones de abandono de carritos .......................................................................... 19 Figura 12. Conversión de usuarios nuevos vs recurrentes...................................................... 20 Figura 14. Conversión por canales y antigüedad .................................................................... 21 Figura 15. Conversión por dispositivos ................................................................................... 21 Figura 16. Conversión por navegadores.................................................................................. 22 Figura 17. CMS usados en España........................................................................................... 24 Figura 18: Datos, información y conocimiento ....................................................................... 27 Figura 19: Estado de los pedidos de la BBDD1........................................................................ 32 Figura 20: Estado de los pedidos de la BBDD2........................................................................ 33 Figura 21: Conversión cliente nuevo vs recurrente................................................................. 35 Figura 22: Pedidos por género ................................................................................................ 36 Figura 23: Pedidos por extensión de email ............................................................................. 36 Figura 24: Métodos de pago ................................................................................................... 37 Figura 25: Rangos de importe de los pedidos ......................................................................... 37 Figura 26: Rangos de importe de los pedidos ......................................................................... 38 Figura 27: Pedidos por meses ................................................................................................. 38 Figura 28: Pedidos por días..................................................................................................... 39 Figura 29: Pedidos por horas................................................................................................... 39 Figura 30: Pedidos por tipo de usuario ................................................................................... 40 Figura 31: Pedidos por rango del importe............................................................................... 40 Figura 32: Pedidos por método de pago................................................................................. 41 Figura 33: Pedidos por método de pago................................................................................. 41 Figura 34: Pedidos por método de pago................................................................................. 42 Figura 35: Pedidos por fuente de tráfico................................................................................. 42 Figura 36: Pedidos por navegador .......................................................................................... 43 Figura 37: Pedidos por dispositivo .......................................................................................... 43 Figura 38: Elección de variables modelo Gower ..................................................................... 44 Figura 39: Elección de variables modelo RFM......................................................................... 44 Figura 40: Elección de variables modelo logit......................................................................... 44 Figura 41: Dividir dataset modelo Gower ............................................................................... 45 Figura 42: Transformar a factor modelo Gower ..................................................................... 46 Figura 42: Coeficiente silhouette modelo Gower ................................................................... 46 Figura 43: Estimar clústeres modelo Gower ........................................................................... 46 Figura 44: Scoring modelo RFM .............................................................................................. 48 Figura 44: Determinar clústeres RFM+K-means...................................................................... 49 Figura 45: Asignar valores RFM+K-means............................................................................... 49
  7. 7. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 7 Figura 46: Visualizar clústeres RFM+K-means......................................................................... 49 Figura 47: Implementación modelo logit................................................................................ 50 Figura 48: Estimación modelo logit......................................................................................... 51 Figura 49: Estimación modelo logit......................................................................................... 51 Figura 50: Disimilitud de Gower.............................................................................................. 52 Figura 51: Clústeres óptimos modelo Gower.......................................................................... 53 Figura 52: Visualización de Clústeres Gower .......................................................................... 53 Figura 53: Comparativa de clústeres de la variable Día .......................................................... 54 Figura 54: Comparativa de clústeres de la variable Hora........................................................ 54 Figura 55: Comparativa de clústeres de la variable Mes......................................................... 55 Figura 56: Variables del clúster 1 ............................................................................................ 56 Figura 57: Variables del clúster 2 ............................................................................................ 56 Figura 58: Variables del clúster 3 ............................................................................................ 57 Figura 59: Scoring estático modelo RFM................................................................................. 58 Figura 60: Visualización modelo RFM ..................................................................................... 58 Figura 61: Distribución de compras por segmento ................................................................. 59 Figura 62: Distribución de compras por segmento ................................................................. 60 Figura 63: Número de clústeres óptimos para el modelo K-means........................................ 61 Figura 64: Visualización del número de clústeres óptimos para el modelo K-means............. 61 Figura 65: I Características del clúster 1.................................................................................. 62 Figura 66. II Características del clúster 1................................................................................. 62 Figura 67. I Características del clúster 2.................................................................................. 63 Figura 68. II Características del clúster 2................................................................................. 63 Figura 69. Resultado del modelo logit..................................................................................... 64 Figura 70. Significatividad de coeficientes. ............................................................................. 65 Figura 71. Matriz de confusión del modelo logit..................................................................... 66 Figura 72. Predicción individual del modelo logit. .................................................................. 66
  8. 8. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 8 Índice de tablas Tabla 1. Facturación anual del ecommerce en España............................................................ 13 Tabla 2. Tasa de conversión por sector y dispositivo en España............................................. 22 Tabla 3. Tasa de conversión por sector y día de la semana .................................................... 23 Tabla 4. Licencias Softwares.................................................................................................... 30 Tabla 5. Cronograma............................................................................................................... 30 Tabla 6. Variables para el modelo Gower ............................................................................... 52 Tabla 7. Variables para el modelo RFM................................................................................... 57 Tabla 8. Segmentos de clientes para el Modelo RFM ............................................................. 59 Tabla 9. Variables para el modelo RFM................................................................................... 60 Tabla 10. Variables para el modelo logit................................................................................. 64
  9. 9. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 9 Introducción El crecimiento del ecommerce es imparable, incluso ante una pandemia mundial que ha paralizado muchos sectores empresariales con dependencia al offline físico tradicional y que también ha provocado una redistribución en los hábitos online de los usuarios, que han tenido impacto positivos y negativos en muchos sectores. Estudiar a fondo las compras en tiendas online pasa a ser un análisis estratégico de gran valor para los negocios, ya que podrán estar en capacidad de segmentar y priorizar sus decisiones, además de predecir qué aspectos intervienen en la venta final, de cara a mejorar competitivamente. Por tanto, este documento constituye un análisis y reflexión empresarial que trata de indagar en métodos de aprendizaje automático, como el clustering y la regresión, ambos como palanca de maximización de las ventas online, de cara principalmente a ofrecer aprendizajes y aplicaciones prácticas para negocios que quieren mejorar sus ventas online, además de una vía muy fructífera de segmentar sus audiencias y públicos objetivos, e incluso, hacer predicciones individuales sobre ventas de un grupo de características. 1.1.Descripción del proyecto Para reflexionar sobre la importancia de la segmentación de clientes y de la evolución del comercio electrónico en España, se han desarrollado distintos conceptos, además de analizar varios estudios que reflejan el gran estado que atraviesa la disciplina del ecommerce, reflejo del papel clave que juega a nivel empresarial. 1.1.1. La importancia de la segmentación de clientes La segmentación de clientes es el proceso de separar a los clientes en grupos en función de su comportamiento o de la recopilación de otros atributos. Los grupos deben ser homogéneos dentro de sí mismos y también, deberían ser heterogéneos entre sí. El objetivo general de este proceso es identificar la base de clientes de alto valor, es decir, los clientes que tienen el mayor potencial de crecimiento o son los más rentables para el negocio. La información obtenida a partir de la segmentación de los clientes se utiliza para desarrollar campañas de marketing a medida y para diseñar la estrategia y la planificación general de marketing.
  10. 10. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 10 Una consideración clave para una empresa sería, si debe o no segmentar a sus clientes y cómo realizar el proceso de segmentación. Esto dependerá de la filosofía de la empresa y del tipo de producto o servicio que ofrezca. El tipo de criterio de segmentación que se siga creará una gran diferencia en la forma en que la empresa opera y formula su estrategia. Una empresa puede no tener segmentos, es decir, trata a todos sus clientes de manera similar, no hay diferenciación por lo que las campañas de marketing son masivas. En cambio, otras empresas tienen 1, 2 o más segmentos, lo cual implica que están enfocándose en grupos y haciendo distintas campañas y otras gestiones, para cada uno de ellos. Una vez que la empresa ha identificado su perfil de clientes y el número de segmentos en los que quiere centrarse, tiene que decidir los factores en los que se basará para segmentar a sus clientes. En el caso de proyectos ecommerce B2C (business to consumer), algunos de esos factores pueden ser: - Datos demográficos: Edad, sexo, educación, etnia, ingresos, empleo, aficiones, etc. - Recencia, Frecuencia y Monetario (RFM): Periodo de tiempo de la última transacción, la frecuencia con la que el cliente realiza transacciones y el valor monetario total del comercio. - Comportamiento: Comportamiento de compra anterior, preferencias de marca, acontecimientos de la vida, etc. - Personal: Creencias, personalidad, estilo de vida, intereses personales, motivación, prioridades, etc. - Geográficos: País, código postal, condiciones climáticas, diferenciación por área urbana/rural, accesibilidad a los mercados, etc. 1.1.1.1. Ley Pareto y segmentación En el caso de una pequeña empresa, la base de clientes suele ser bastante reducida y se puede llegar a ella de forma individual. Sin embargo, a medida que la empresa crece, no podrá llegar del mismo modo a todos y cada uno de los clientes. En este punto, la empresa tendrá que utilizar un enfoque basado en datos para construir una estrategia adecuada.
  11. 11. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 11 Para una tienda de tamaño medio o grande (Khandelwal, 2021), también es imperativo que invierta no sólo en la adquisición de nuevos clientes, sino también en la retención de clientes. Muchas empresas obtienen la mayor parte de sus ingresos del segmento de clientes más valiosos. Dado que los recursos de los que dispone una empresa son limitados, es crucial encontrar a estos clientes y dirigirse a ellos, como también es importante encontrar a los que están inactivos o que corren un alto riesgo de perder el contacto con la empresa, para poder responder a sus intereses y expectativas, de cara a reactivarlos con campañas personalizadas. Para ello, las empresas utilizan la técnica de la segmentación de clientes. El principio de Pareto, utilizado con frecuencia en los negocios y la economía, puede aplicarse también a la comprensión del flujo de ingresos de una empresa. Según el principio de Pareto, el 80% de los resultados son consecuencia del 20% de todas las causas de un acontecimiento (Khandelwal, 2021). Se puede decir que el 20% de los clientes aportan el 80% de los ingresos totales de una empresa, por eso es importante encontrar a este conjunto de personas haciendo análisis específicos. 1.1.1.2. Segmentación de clientes La segmentación de clientes tiene muchas ventajas potenciales ya que, ayuda a una empresa a desarrollar una estrategia eficaz para dirigirse a sus clientes, lo cual tiene un impacto directo en: - el ciclo de desarrollo del producto - la gestión de presupuestos - el contenido promocional dirigido a los clientes. Por ejemplo, una empresa puede fabricar un producto de gama alta, un producto económico o un producto alternativo barato, en función de si el producto está destinado a sus clientes de mayor rendimiento, a los compradores frecuentes o al segmento de clientes de bajo valor. También puede afinar las características del producto para satisfacer las necesidades específicas de sus clientes.
  12. 12. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 12 La segmentación de los clientes también puede ayudar a una empresa a entender en qué se parecen sus clientes, qué es importante para ellos y qué no lo es. A menudo, esta información puede utilizarse para desarrollar contenidos relevantes personalizados para diferentes bases de clientes. Muchos estudios han descubierto que los clientes aprecian esa atención individualizada y son más propensos a responder y comprar el producto, también llegan a respetar la marca y a sentirse vinculados a ella. Esto, sin duda, puede dar a la empresa una gran ventaja sobre sus competidores. Por último, esta técnica también puede ser utilizada por las empresas para: - probar los precios de sus diferentes productos - mejorar el servicio al cliente - realizar ventas adicionales y cruzadas de otros productos o servicios. 1.1.2. Evolución del ecommerce en España Respecto a la evolución del ecommerce en España, se va a tratar de analizar los aspectos clave que hacen de este canal digital, uno de los más rentables y potentes Algunos aspectos que reseñar en el contexto del ecommerce en España, como se puede observar en la figura 1, se centran en: - Evolución de compradores y facturación - Hábitos de compra: sectores, gasto medio, dispositivos - El proceso de compra: motivaciones, influencias, métodos de pago Figura 1. Evolución de compradores online en España Fuente: (IAB SPAIN, 2020)
  13. 13. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 13 Por un lado, el porcentaje de usuarios en España que cada año confían en el canal online para hacer sus compras oscila entre un 67% y 73% (IAB SPAIN, 2020), datos que no han empeorado con la irrupción de la pandemia, que mantienen una evolución estable e incluso, creciente. Unido a esto, como se muestra en la tabla 1, el ecommerce se encuentra en un momento de crecimiento titánico respecto a facturación en España en los últimos 20 años (CNMC, 2021), dato que correlaciona perfectamente con la cifra de compradores. Tabla 1. Facturación anual del ecommerce en España1 2001 127 2005 1.547 2010 7.317 2015 20.000 2017 30.000 02018 39.243 2019 48.800 Fuente: (CNMC, 2021) Respecto a la pandemia en si, tal y como se desprende de la figura 2, sectores asociados a turismo y viajes han sufrido auténticos desplomes en su facturación (CNMCData, 2021), sin embargo, en el otro lado se encuentran sectores como supermercados o marcas de ropa, que, en algunos casos, han llegado a duplicar su facturación, como se puede comprobar.
  14. 14. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 14 Figura 2. Ramas con mayor negocio online durante covid Fuente: (CNMCData, 2021) Respecto a aspectos relativos a hábitos de los compradores, la figura 4 muestra que mitad de los usuarios compra al menos 1 vez cada 15 o 30 días (IAB SPAIN, 2020) en ciertos espectros de edad la frecuencia de compra se va a 3,5 al mes, datos superiores a años anteriores. Respecto al gasto efectuado, la cantidad promedia asciende a 68€ por persona en cada compra (IAB SPAIN, 2020) Figura 4. Perfil de compradores y frecuencia de compras Fuente: (IAB SPAIN, 2020) Por último, respecto a los dispositivos utilizados por los compradores online, en las figuras 5 y 6 se destaca un insight de valor relacionado con la edad: de 55 a 70 años confían más en el ordenador, los de menor edad hacen que crezca el uso del Smartphone para comprar.
  15. 15. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 15 Figura 5. Perfil de compradores y gasto promedio Fuente: (IAB SPAIN, 2020) Figura 6. Perfil de compradores y dispositivos Fuente: (IAB SPAIN, 2020) Con este repaso al panorama nacional relativo al ecommerce, se puede confirmar la gran salud que goza el canal y la importancia de trazar modelos que ayuden a las empresas a optimizar sus tiendas online para vender más.
  16. 16. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 16 1.1.3. Factores que influyen en la conversión 1.1.3.1. Aspectos generales Otro punto clave para entender el trabajo pasa por realizar un análisis previo qué permita clarificar aquellos factores o aspectos que son fundamentales para que un usuario haga una compra en una tienda online. Por un lado, como se ve en la figura 7, existen distintos drivers (IAB SPAIN, 2020) entre los que destacan la existencia de ofertas, la confianza en el sitio o marca, el precio o el plazo de entrega del pedido. Figura 7. Drivers de compra Fuente: (IAB SPAIN, 2020) La percepción sobre los plazos de entrega aceptables se sitúa en 3,4 días (IAB SPAIN, 2020), lo que supone un verdadero reto respecto a las estrategias de operaciones y logística de las compañías. De manera adicional, cabe destacar que 3 de cada 4 compradores busca información y finaliza la transacción en el canal online, por lo que el contenido encontrado en la red es fundamental para ayudar a tomar la decisión. Otro detalle interesante radica en medios que pueden influenciar la compra, como puede ser la presencia en buscadores o marketplace, e incluso, el estado de la página web de la marca, con la información recabada, la compra final puede acabar online u offline (IAB SPAIN, 2020). Sin embargo, si se lleva a cabo un análisis más prematuro, se puede ahondar en aquellos motivos o razones para no comprar en el canal online, lo cual también puede ser ilustrativo
  17. 17. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 17 de los miedos y motivaciones de los compradores que les empujan a no dar el paso a comprar a través de internet, en un estudio realizado por el INE (INE, 2020) Figura 8. Razones para no comprar online Fuente: (INE, 2020) A pesar de ser un estudio anterior a la pandemia, la naturaleza humana se deja ver en los motivos para desconfiar: amantes de lo tangible, miedo a la inseguridad, falta de conocimientos u otros. Asimismo, de cara a tener unas cifras de referencia respecto a conversión por sector, tanto el estudio de la IAB (IAB SPAIN, 2020) como el efectuado por Flat101 (Flat 101, 2019) ponen de relieve datos para tener un rango de tasas de conversión del que poder comparar y mejorar. En el caso del estudio de IAB (IAB SPAIN, 2020), se puede observar en la figura 9 la comparación semestral entre 2019 y 2020, pandemia incluida, en cuyas cifras destaca un repunte creciente de la conversión en el sector de la comida a domicilio.
  18. 18. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 18 Figura 9. Conversión por sector en 2019 y 2020 Fuente: (IAB SPAIN, 2020) En el caso del estudio de Flat101 (Flat 101, 2019) como se refleja en la figura 10, el evolutivo de años anteriores sobre la tasa de conversión general, de todos los sitios analizados en su estudio, se puede observar una contracción de la conversión en un 4% de 2018 a 2019. Figura 10. Evolución de la conversión en España Fuente: (Flat 101, 2019) Por último, mencionar otro punto importante en ecommerce: el abandono de los carritos de la compra. ¿Por qué un usuario que ya ha añadido los productos para comprarlos finalmente abandona? (Baymard, 2020)
  19. 19. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 19 Este será, sin duda, un aspecto de gran impacto para la conversión de la tienda online, por lo que merece la pena tenerlo en cuenta, tal y como se desprende de la figura 11 Figura 11. Razones de abandono de carritos Fuente: (Baymard, 2020) Sin duda se antoja revelador: - Costes extras demasiado altos - Obligar a los usuarios a crear una cuenta en el sitio web, para comprar - Entrega muy tardía - Proceso de compra largo o complejo - Desconfianza en la seguridad del sitio - Errores del sitio 1.1.3.2. Usuarios nuevos vs recurrente Un aspecto fundamental para la conversión es identificar si los compradores son usuarios recurrentes o usuarios nuevos, como se refleja en la figura 12.
  20. 20. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 20 Figura 12. Conversión de usuarios nuevos vs recurrentes Fuente: (Flat 101, 2019) Este hecho impacta de forma directa en la lealtad y acciones relativas a propiciar que los usuarios vuelvan a la tienda, siempre y cuando los productos ofertados tengan esa naturaleza. 1.1.3.3. Canales En la figura 13, la distribución de la conversión respecto a los canales deja claro que el canal orgánico sigue siendo el que lidera los proyectos de ecommerce españoles. Figura 13. Conversión por canales Fuente: (Flat 101, 2019) 1.1.3.4. Antigüedad Otro elemento de valor es considerar la antigüedad que tiene el proyecto dado que la conversión también estará influida por los años que lleve activo, en la figura 14 se muestra el impacto de la antigüedad en los canales.
  21. 21. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 21 Figura 14. Conversión por canales y antigüedad Fuente: (Flat 101, 2019) Este dato muestra que en los primeros años los canales de pago son más fuertes y una vez se estabiliza el proyecto, se invierte la captación de tráfico hacia el canal orgánico, por la naturaleza del impacto de acciones a corto o a largo plazo, de cada estrategia. 1.1.3.5. Dispositivos En la figura 15 se puede observar la información relativa a los dispositivos, donde se extrae que el ordenador sigue liderando la conversión, aunque el dispositivo móvil es el único que sigue creciendo año a año. Figura 15. Conversión por dispositivos Fuente: (Flat 101, 2019) 1.1.3.6. Navegadores y sistemas operativos Otro factor que afecta a la conversión y a cómo se visualiza la tienda online es el navegador, y en segunda instancia, el sistema operativo que utiliza el usuario. En la figura 16 se resumen los datos de eficiencia de la conversión desde el punto de vista del navegador.
  22. 22. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 22 Figura 16. Conversión por navegadores Fuente: (Flat 101, 2019) 1.1.3.7. Sector Como dato sectorial, también se puede usar como referencia el estudio mencionado (Flat 101, 2019), para tener una idea de la tasa de conversión que cada sector ostenta, en promedio, resumido en la tabla 2. Tabla 2. Tasa de conversión por sector y dispositivo en España Fuente: (Flat 101, 2019)
  23. 23. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 23 1.1.3.8. Días de la semana Del mismo modo, la conversión sectorial segmentada por día de la semana puede ser de ayuda para el análisis y usarse como referencia. En la tabla 3 se puede acceder a los datos de conversión por día de la semana y por actividad. Tabla 3. Tasa de conversión por sector y día de la semana Fuente: (Flat 101, 2019) 1.1.4. Principales tecnologías usadas para crear una tienda online Un CMS (por sus siglas en inglés Content Management Systems), es una plataforma que permite crear contenidos para páginas web sin una gran dependencia de conocimientos avanzados de programación, algo que permite que una mayor facilidad de uso y de administración (ecommerce-nation.es, 2018) Normalmente la elección del CMS es una de las decisiones más importantes para una tienda online, e implica distintas cuestiones que hay que abordar: • Escalabilidad • Interfaz accesible e intuitiva • Compatibilidad • Optimizado para motores de búsqueda
  24. 24. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 24 • Seguridad • Soporte En España, los datos aportados por Builtwith (builtwith.com, 2021) ponen de manifiesto aquellas opciones más usadas y las múltiples opciones que existen, resumidas en la figura 17. Figura 17. CMS usados en España Fuente: (builtwith.com, 2021) 1.2.Principal problema identificado y justificación del proyecto Dada la situación de crecimiento que se arrastra en el área de comercio electrónico en España, las pocas barreras de entrada que existen en el ecommerce y el gran auge que ha supuesto de forma indirecta el confinamiento producto de la pandemia, los negocios han de seguir esforzándose por mejorar su rendimiento a. nivel de ventas en un entorno restringido y de alta competencia. El proyecto planteado consiste en 2 líneas claras de aplicación de aprendizaje automático en ecommerce: - Comparar distintos métodos de clustering que ayude a llevar a cabo segmentaciones útiles que puedan potenciar un negocio, ya sea enfocando mejor promociones y campañas de marketing, como identificando los segmentos de usuarios más valiosos
  25. 25. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 25 para el negocio, con el fin último de incrementar o maximizar las ventas de cualquier tienda por el canal online. - Llevar a cabo un modelo de regresión logit múltiple, para ahondar en los factores o características que mayor peso tienen en la compra final. En ese sentido, se ha solicitado información cualitativa y cuantitativa a distintas empresas españolas que han cedido sus datos de ventas y clientes online para que, a través de técnicas de inteligencia de negocio, puedan extraerse realidades demostrables que intervengan en la generación de estrategias de marketing, segmentación u optimización del canal digital, análisis predictivos y que tengan impacto en la cuenta de resultados. Estos datos comprenden, entre otros: - Datos de tráfico: visitas, sesiones nuevas, tiempo en página, rebote - Datos de comercio electrónico: tasa de conversión, transacciones, ingresos - Datos de clientes: nombre, método de pago, ciudad, género, nº de pedidos - Datos de pedidos: estado del pedido, importe, gastos de envío La selección y estudio de sitios de comercio electrónico, será heterogéneo lo cual implicaría un proceso de análisis más pormenorizado y del que se podrán extraer análisis secundarios 1.3.Objetivos del TFE 1.3.1. Objetivos generales El objetivo principal del presente TFM es desarrollar un proyecto de inteligencia de negocio qué permita segmentar pedidos y clientes acorde a los factores que por técnica de inteligencia artificial, se determiné que tengan más peso en la conversión final de los clientes. Se pretende que este TFM sirva como una herramienta de toma de decisiones que puedan utilizar las empresas para maximizar sus estrategias de ventas. 1.3.2. Objetivos específicos - Estudiar los datos actuales de la empresa y analizar sus pros y contras. - Analizar los datos de que dispone la empresa y validar qué datos se necesitan para poder implementar el modelo de Inteligencia de Negocio. - Analizar los aspectos que intervienen en la venta online de las empresas con tiendas online.
  26. 26. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 26 - Proponer distintos modelos de segmentación de clientes como parámetros de distinción que permita realizar evaluaciones rápidas de los clientes y diseñar estrategias personalizadas. - Proponer un modelo de datos que permita hacer predicciones acerca de los factores que más impactan en la venta final en tiendas online. 2. Alcance y planificación 2.1.Fase de descubrimiento: evaluación del entorno actual 2.1.1. Información deseada Este trabajo tiene como cometido dos puntos clave: - Lograr definir modelos de clusterización para distintos ecommerce, de cara a una mejor toma de decisiones en campañas de marketing, en perfilado de público objetivo. - Lograr definir al menos un modelo de regresión para distintos ecommerce, de cara a una mejor priorización de esfuerzos orientados a maximizar las ventas. Para conseguirlo, en ambos casos, se ha de utilizar un proceso de limpieza de los datos, se han de fusionar distintas fuentes de datos para enriquecer los datasets y se han de comparar los resultados de cada modelo, cuando ha sido posible. 2.1.2. Información actual: deficiencias y soluciones alternativas En la actualidad, los datos obtenidos a partir de las empresas colaboradoras proceden de dos fuentes principales: Google Analytics y Prestashop. Pero la extracción de estos presenta varias debilidades o deficiencias que se enumeran a continuación: - Los datos de Google Analytics accesibles a través de la plataforma no son granulares por lo que no se puede llegar a los datos a nivel de sesión, tan solo se puede llegar a datos agregados por minutos. La única alternativa valida a ésto, hubiese sido conectar Google Analytics a Google BigQuery para ir volcando la información a diario y poder segmentar hasta el nivel de la visita. - Asimismo, solo aquellos ecommerce que han implementado enhanced ecommerce en Google Analytics podrán disfrutar de métricas específicas de productos y otras agrupaciones por nombre de producto, categoría, sku, etc.
  27. 27. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 27 - Los datos que proporciona Prestashop a nivel de pedidos están comprendidos entre dos fechas, por lo que no se dispone del historial completo de pedidos ni tampoco de pedidos a nivel cliente. - Los pedidos de los clientes solo pueden ser descargados de forma individual, por lo que a pesar de contar con un dataset que fusiona información de pedidos e información de clientes, el análisis no incluye los artículos comprados por los clientes, aspecto que es una limitación a la hora de testar modelos de recomendación y otras reglas de asociación. - La integración entre ambos tipos de datos no siempre es posible por lo que no en todos los casos se puede trazar un análisis conjunto del origen de la visita, la fuente, el tiempo que pasó en el sitio web, las páginas que visitó, con el pedido realizado, su importe, etc. De hecho, solo en uno de los conjuntos de datos recibido existe trazabilidad entre datos de Prestashop y Google Analytics, al contar con un sistema de recopilación de datos propio y un CRM que enriquece la extracción. En este sentido, se considera una debilidad contar con una configuración estándar de ambas herramientas y se entiende una limitación para el alcance de los análisis previstos, cualquier ecommerce dispuesto a explotar sus datos y extraer conocimiento de estos (Sinnexus, n/d) debe considerar una infraestructura tecnológica que responda a una estrategia de explotación inteligente y eficiente de los datos. Como solución alternativa se plantea proponer a las empresas de aquellos ecommerce sujetos del análisis implementar y configurar ambas fuentes de datos convenientemente de forma que la inteligencia de negocio pueda actuar como un factor estratégico y propiciando una ventaja competitiva. Figura 18: Datos, información y conocimiento Fuente: (Sinnexus, n/d)
  28. 28. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 28 2.1.3. Habilidades analíticas actuales Se ha hecho uso de 2 bases de datos de ecommerce diferentes - La BBDD1, compuesta de dos datasets: o Clientes (86.633 registros) § ID Cliente § Tratamiento (de aquí se extrae el género) § Nombre y apellidos § Correo electrónico (de aquí se extrae la extensión de dominio) § Ventas § Suscripción a boletín (si o no) § Fecha de alta o Pedidos (22.631 registros) § ID Pedido § Referencia del pedido § Cliente nuevo (si o no) § Nombre y apellidos § Importe del pedido § Método de pago § Compra finalizada (si o no) § Estado del pedido § Fecha del pedido - La BBDD2, compuesta de dos datasets: o Pedidos (9.268 registros) § Id § Referencia § Nuevo cliente § Nombre cliente § Importe pedido § Pago § Estado § Fecha
  29. 29. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 29 o Analítica (4.948 registros) § Referencia § Fuente/Medio § Navegador § Categoría de dispositivo 2.2. Fase de análisis: identificación de gaps 2.2.1. Capacidad de los informes actuales Como ya se ha mencionado existe una desvinculación de fuentes que hace menos eficiente la explotación de datos y se puede entender e interpretar este hecho como una oportunidad para implantar infraestructuras basadas en análisis de datos y más concretamente, orientadas a explotar la inteligencia de datos de todas las fuentes mencionadas. De cara a su extracción y fusión, se hace necesario el uso de bases de datos que faciliten el acceso, procesamiento y descarga de datos. Por otro lado, los datos proporcionados por la plataforma de ecommerce Prestashop tampoco son tratados ni enriquecidos de ningún modo, por lo que se deben procesar para limpiar duplicidades, campos vacíos y otras incongruencias. En concreto, aquellas observaciones que, no podían reclasificarse de ningún modo, han sido eliminados para evitar discrepancias. 2.2.2. Proveedores de tecnología necesarias Para la realización del estudio y presente trabajo se hace necesario el uso de tecnologías de índole estadístico como es RStudio, cuyo fin es llevar a cabo análisis estadísticos y visualización de datos a través de gráficas. Asimismo, como se ve en la tabla 4, se hacen uso de herramientas complementarias que actuarán como apoyo a RStudio, para las pruebas de extracción de datos con Google Analytics, como Query Explorer de Google, así como Genderize para terminar de inferir los géneros a partir de los nombres.
  30. 30. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 30 Tabla 4. Licencias Softwares SOFTWARE PRECIO DE LICENCIA PROVEEDOR R STUDIO Software libre No aplica Prestashop Versión gratuita Prestashop Genderize.io 10$ Genderize.io Google Analytics Versión gratuita Google Google Query Explorer Versión gratuita Google 2.2.3. Cronología, costes y recursos humanos implicados Las fases llevadas a cabo a grandes rasgos son las que se detallan en la tabla 5, una descomposición del problema por tareas principales, para acotar la ejecución y avanzar de forma progresiva. Tabla 5. Cronograma HITO W1 W2 W3 W4 W5 Recopilación de datos Transformación / Exploración Limpieza Evaluación Modelos Testeo Modelos 2.3.Fase de recomendaciones: alcance y prioridades Los ecommerce participantes recibirán los resultados de los análisis llevados a cabo en este trabajo como agradecimiento por colaborar cediendo sus datos para este estudio. El alcance de este proyecto es: - Realizar un modelo de clusterización mediante Disimilitud de Gower, aportando el dataset limpio y trabajado, de cara a obtener los clústeres óptimos y poder analizar las características de cada uno. Este modelo se realizará con la BBDD1. - Realizar un análisis RFM (recency, frequency and monetary), de cara a definir los segmentos de negocio en base a los datos de los pedidos. Este modelo se realizará con la BBDD1. - Realizar un modelo de RFM pero con segmentación basada en K-Means para valorar los resultados en comparación con los anteriores métodos. Este modelo se realizará con la BBDD1.
  31. 31. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 31 - Realizar un modelo de regresión logística para estudiar el grado de afectación en las ventas, de los distintos factores o atributos. Este modelo se realizará con la BBDD2. En resumen, los 3 primeros modelos basados en técnicas clúster, se llevarán a cabo con la BBDD1, por existir un mayor número de registros y características susceptibles de ser clusterizadas. El último modelo se realizará con la BBDD2 en la que se cuenta con características del tráfico como el dispositivo o el navegador, aspectos que pueden incidir en la conversión como ya se ha explicado en la introducción del trabajo. 3. Análisis y definición 3.1.Análisis preliminar de los datos a utilizar El análisis concienzudo de los datos ofrece una visión profunda y global de los mismos, así como pone de relieve la distribución de estos cuando estudiamos los estadísticos habituales. Para los 4 modelos previstos se usarán 2 bases de datos: - La base de datos de partida que se usará para los 3 primeros modelos consta de 2 ficheros: Clientes (86.633 registros) y Pedidos (22.631 registros) de las cuales se infiere la variable “Converted” que establece con un valor binario (tomando valor 1 si la compra se ha realizado o y valor 0 de lo contrario). Los Pedidos son del último año y los datos de Clientes son históricos, es decir, desde que existe el ecommerce. - Para el último modelo, de regresión, se tomará una base de datos de 4948 pedidos de los que también se conocen datos adicionales (canal de la visita, navegador, dispositivo,etc.). En este análisis preliminar, se hace referencia también a aquellas variables creadas nuevas a partir de las existentes en los datos de origen 3.1.1. Descripción de datos A continuación, se hace una descripción más certera de los datos, de cara a poner un punto de partida al dataset antes de iniciar los modelados.
  32. 32. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 32 3.1.1.1. Variable dependiente Se considera la variable dependiente si un pedido ha llegado a buen término o no, por tanto la variable “Converted” se categoriza como 1, para las compras finalizadas y como 0, para las compras que no se han realizado (incluye este aspecto devoluciones o faltas de stock). Para la BBDD1 la distribución de los pedidos sigue el siguiente patrón: Figura 19: Estado de los pedidos de la BBDD1 Para la BBDD2 la distribución de los pedidos sigue el siguiente patrón:
  33. 33. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 33 Figura 20: Estado de los pedidos de la BBDD2 3.1.1.2. Variables independientes Entre las variables independientes que contribuirán a construir los modelos, se encuentran tanto variables categóricas como numéricas. 3.1.1.2.1. Variables categóricas Las variables categóricas son aquellas cuyos valores corresponden con categorías por lo que se indica cuáles estarán presentes en el estudio. Para la BBDD1: ORIGINALES - ClienteID - PedidoID - Referencia Pedido - Tratamiento - Nuevo - Nombre - Apellidos
  34. 34. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 34 - Email - Método de pago - Estado - Boletín - Fecha Alta Cliente - Fecha Pedido TRANSFORMADAS - Nombre corto - Género - Extensión del email - Mes del pedido - Día del pedido - Hora del pedido - Rango de importe - Rango de antigüedad Para la BBDD2: - ClienteID - Referencia Pedido - Nuevo - Inicial de Nombre y apellidos - Método de pago - Estado - Fecha Pedido - Fuente/Medio - Navegador - Dispositivo TRANSFORMADAS - Día de la semana del pedido - Hora del pedido - Rango de importe - Fuente
  35. 35. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 35 3.1.1.2.2. Variables continuas Para ambas bases de datos, la variable continua es: - Importe TRANSFORMADAS - Años de antigüedad 3.1.1.3. Principales insights identificados en el análisis inicial El análisis inicial ha arrojado distintos puntos clave que se enumeran y explican a continuación para las 2 bases de datos utilizadas. Para la BBDD1: - Cliente nuevo: esta variable representa un valor binario que indica si el pedido lo ha realizado un cliente existente o uno nuevo. La figura 21 representa el estado o punto de partida de las ventas con esta característica donde se puede observar un 37% de compras provenientes de usuarios nuevos, frente a un 61% de clientes ya existentes Figura 21: Conversión cliente nuevo vs recurrente - Género: esta variable representada en la figura 22, se ha categorizado en 3 posibles valores Male, Female y Unknown, utilizando el campo de origen “Tratamiento”, en el que aparece qué tratamiento quiere recibir el cliente en comunicaciones (Sr., Sra, etc.), se ha hecho un segundo filtro utilizando el software generize.io de cara a inferir el género en la gran cantidad de nombres en los que no existía tratamiento.
  36. 36. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 36 La distribución de pedidos basada en el género deja entrever una estadística bastante contundente: Figura 22: Pedidos por género - Extensión de email: de cara a explorar nuevas variables se ha extraído la extensión del correo electrónico por si esta información fuera susceptible de tener algún peso específico en los modelos y clusterizaciones. Se observa en la figura 23 que, de partida, la gran mayoría de correos provienen de los proveedores habituales como Gmail, Hotmail, Yahoo! y el resto son ya dominios personalizados. Figura 23: Pedidos por extensión de email - Método de pago: representado en la figura 24, grafica la forma de pago que ha utilizado el cliente a todos los niveles, por lo que pueden existir métodos
  37. 37. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 37 fraccionados o a plazos, carritos de la compra virtuales o incluso pagos en efectivo que se recogen en tienda. También es interesante observar métodos que están en el final de la lista como Bizum o PayPal, lo cual puede ser una pista del tipo de usuario que visita esta tienda y su relación con la tecnología. Figura 24: Métodos de pago - Importe: para ilustrar como se distribuyen los importes de los pedidos a lo largo de todo el dataset se puede observar la figura 25, donde se ha construido una variable que genera rangos para tratar de visualizar mejor los datos. El gráfico deja intuir dónde en qué importes se concentran los pedidos, siendo los pedidos hasta 100 euros los mayoritarios. Figura 25: Rangos de importe de los pedidos - Suscripción al boletín: un aspecto que a priori no tiene por qué incidir en la compra es la suscripción al boletín, no obstante, se ha añadido esta característica para
  38. 38. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 38 estudiarla junto al resto mostrada en la figura 26 y ver si tiene alguna incidencia. Los no suscritos pueden ser clientes nuevos o no, por lo que es interesante considerar la inclusión de la variable en el espectro general de datos que el modelo analizará. Figura 26: Rangos de importe de los pedidos - Pedidos por meses: al tratarse de un dataset predominantemente de ventas, el gráfico de la figura 27 muestra en qué meses existe mayor actividad de pedidos, diferenciando la conversión y la no conversión, señalando el gráfico que abril es en el que más pedidos no se han finalizado. También se observa una mayor incidencia de ventas en dos bloques de meses: los meses de noviembre y diciembre, por un lado, y los de mayo, junio y julio por otro. La temática de la tienda puede ser un condicionante para este comportamiento. Figura 27: Pedidos por meses
  39. 39. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 39 - Pedidos por días: el análisis aterrizado a periodicidad semanal deja entrever algo que se puede presuponer: mayores ventas de lunes a viernes. La figura 28 muestra que en fin de semana se observa una menor actividad en lo que se refiere a pedidos. Figura 28: Pedidos por días - Pedidos por horas: llegar a segmentar los pedidos por periodicidad horaria deja observar tendencias que pueden ser de gran ayuda para llevar a cabo segmentaciones y enfocar campañas a las horas apropiadas. El gráfico de la figura 29 muestra una mayor tracción durante la jornada laboral, desde las 10 hasta las 19 horas se concentra la mayor parte de pedidos, observando el total de ventas del dataset. Figura 29: Pedidos por horas
  40. 40. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 40 Para la BBDD2: - Cliente nuevo: esta variable representada en la figura 30, muestra si el pedido lo ha realizado un cliente existente o uno nuevo. El punto de partida de las ventas con esta característica muestra más de un 87% de compras provenientes de usuarios nuevos. Figura 30: Pedidos por tipo de usuario - Rango de importe de pedidos: la figura 31 muestra en qué rangos se concentran los importes de los pedidos, por lo que se puede observar que la muestra nos deja casi un 70% de pedidos inferiores a 70€. Figura 31: Pedidos por rango del importe
  41. 41. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 41 - Método de pago: en la figura 32 se muestra con qué métodos de pago se han realizado los pedidos y se puede observar que las observaciones se concentran en Redsys, Adyen, PayPal, Bizum y Pagantis, como métodos más usados. Figura 32: Pedidos por método de pago - Día de la semana: la periodicidad semanal deja entrever mayores ventas de lunes a miércoles. La figura 33 refleja que en fin de semana se observa una menor actividad en lo que se refiere a pedidos, incluyendo jueves y viernes. Figura 33: Pedidos por método de pago
  42. 42. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 42 - Hora del día: el gráfico de la figura 34 muestra una mayor tracción a las 11 y 12 de la mañana, seguido de horarios entre las 17:00 y las 20:00. Una buena lectura de estos datos puede ayudar a hacer campañas flash en esas franjas. Figura 34: Pedidos por método de pago - Fuente por la que llegó a la tienda: según la figura 35, el canal que predomina en las compras realizadas es el de Buscadores, el 53% viene de anuncios de texto y el 18% de resultados orgánicos del buscador. Por detrás le siguen canales como el directo o el de referidos Figura 35: Pedidos por fuente de tráfico - Navegador utilizado: respecto al navegador desde el que llegan a la tienda online, en la figura 36 se puede observar que Chrome y Safari son los que concentran más del 75% de pedidos.
  43. 43. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 43 Figura 36: Pedidos por navegador - Dispositivo utilizado: respecto al dispositivo desde el que llegan a la tienda y compran, según la figura 37, el Mobile supera el 60% y desktop es de casi un 32%, dejando un porcentaje residual a las tabletas. Figura 37: Pedidos por dispositivo 3.2.Análisis histórico y/o limpieza de datos Partiendo de la BBDD1, los pedidos comprenden entre mayo de 2020 a mayo de 2021, se procedió a elegir las variables que van a ser incluidas en cada modelo. Así, para el cálculo de disimilitudes de Gower fueron las variables que se muestran en el código de R de la figura 38.
  44. 44. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 44 Figura 38: Elección de variables modelo Gower Para ambos análisis RFM, en la figura 39 se muestran las variables. Figura 39: Elección de variables modelo RFM Partiendo de la BBDD2, los pedidos comprenden entre enero de 2020 a mayo de 2021, se procedió a elegir las variables que van a ser incluidas en el modelo logit, tal como muestra la figura 40. Figura 40: Elección de variables modelo logit 3.3.Modelado propuesto 3.3.1. Disimilitud Gower La distancia es una medida numérica para medir la proximidad o la similitud entre observaciones. Existen muchas métricas de distancia, y una de ellas es bastante útil para el proyecto: la distancia de Gower (Filaire, towardsdatascience.com, 2018).
  45. 45. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 45 Esta distancia se calcula como la media de las disimilitudes parciales entre observaciones, donde cada disimilitud parcial (la distancia de Gower) se sitúa entre 0 y 1. Por otro lado, el cálculo de las disimilitudes parciales depende del tipo de variable introducida en el modelo a evaluar, esto implica que se hará una estandarización específica a cada característica: - Para variables numéricas, la disimilitud parcial es la relación entre la diferencia absoluta de las observaciones y el rango máximo de todas las observaciones. - Para una característica cualitativa la disimilitud parcial es igual a 1 sólo si las observaciones y_i e y_j tienen un valor diferente. En caso contrario, es igual a cero. El componente necesario para llevar a cabo este modelo es el coeficiente silhouette, que se encarga de contrastar la distancia media a los elementos del mismo clúster con la distancia media a los elementos de otros clústeres. Los objetos con un valor de silueta alto se consideran bien agrupados, mientras que los objetos con un valor bajo pueden ser valores atípicos. 3.3.1.1. Implementación Para implementar el modelo se han seguido los siguientes pasos: - Dividir el dataset para evitar problemas de computación Figura 41: Dividir dataset modelo Gower - Transformar las variables categóricas a factor y ejecutar el modelo
  46. 46. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 46 Figura 42: Transformar a factor modelo Gower - Coeficiente silhouette para identificar el número de clúster óptimo Figura 42: Coeficiente silhouette modelo Gower - Estimación del número de clúster Figura 43: Estimar clústeres modelo Gower
  47. 47. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 47 3.3.2. RFM Analysis El análisis RFM (recencia, frecuencia, monetario) una técnica basada en el comportamiento de los compradores, que se utiliza para segmentar a los clientes examinando su historial de transacciones (Wicaksono, 2019). Como por ejemplo: - cuanto más reciente es la compra, más receptivo es el cliente a las promociones - cuanto más frecuente es la compra del cliente, más comprometido y satisfecho está - el valor monetario diferencia a los que gastan mucho de los que compran poco 3.3.2.1. Implementación A continuación se explica cómo se calcula la puntuación del RFM para cada cliente: - Se asigna una puntuación de recurrencia a cada cliente en función de la fecha de la compra más reciente. La puntuación se genera agrupando los valores de recurrencia en un número de categorías (por defecto es 5). Por ejemplo, si se utilizan cuatro categorías, los clientes con las fechas de compra más recientes reciben una clasificación de recencia de 4, y aquellos con fechas de compra en el pasado lejano reciben una clasificación de recencia de 1. - La clasificación de la frecuencia se asigna de forma similar. A los clientes con alta frecuencia de compra se les asigna una puntuación más alta (4 o 5) y a los de menor frecuencia se les asigna una puntuación de 1. - La puntuación monetaria se asigna en función de los ingresos totales generados por el cliente en el periodo considerado para el análisis. A los clientes con mayores ingresos/importe de los pedidos se les asigna una puntuación más alta, mientras que a los que tienen menores ingresos se les asigna una puntuación de 1. - Se genera una cuarta puntuación, la puntuación RFM, que es simplemente las tres puntuaciones individuales concatenadas en un único valor. Los clientes con las puntuaciones RFM más altas son los más propensos a responder a una oferta. Para el presente proyecto se utiliza RStudio para llevar a cabo el análisis.
  48. 48. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 48 Figura 44: Scoring modelo RFM 3.3.1. RFM Analysis + K-means Este modelo persigue el mismo método que el explicado en el punto anterior pero añade una innovación: los clústeres se calcularán usando la técnica del K-means (G, 2020) K-means es un algoritmo de aprendizaje automático no supervisado (clusterización) que hace agrupamientos o clústeres basándose en sus características. Esto lo lleva a cabo usando la mínima suma de distancias cuadráticas entre los objetivos y el centro de su clúster. Los pasos que sigue este modelo son: - Se elige el número de clústeres y con ello, se establecen los centros de cada grupo. - Cada objeto u observación es asignado al centro que esté más próximo a él. - El centro de cada grupo se actualiza con un nuevo centro, usando la posición promedia de los objetos del grupo. Para calcular la segmentación RFM usando K-means, se mantienen los valores de recencia, frecuencia y monetario del modelo RFM, pero se hace uso de un método de identificación del número de clústeres óptimo, para que sea el modelo el que determine las agrupaciones y no un scoring estático. De este modo, cada clúster representa el centro de los datos pertenecientes a cada clúster, siendo un método que es sensible a valores extremos o también conocidos como outliers (Bagnato, 2020). 3.3.1.1. Implementación Se hace uso de la librería Factoextra para los siguientes pasos: - Partiendo del dataset ya procesado para el análisis RFM, se omite el scoring y se ha de determinar el número de clústeres, con distintos métodos nos salen entre 2 y 4 clústeres como valores posibles, pero son 2 los grupos óptimos.
  49. 49. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 49 Figura 44: Determinar clústeres RFM+K-means - Utilizar la función K-means para asignar los resultados a cada agrupación Figura 45: Asignar valores RFM+K-means - Visualizar los clústeres gráficamente Figura 46: Visualizar clústeres RFM+K-means - Se agrupan los segmentos para obtener las métricas RFM por cada clúster - Se asigna el clúster a los datos originales para poder agrupar las características - Se visualizan las características de cada grupo - Se comparan características entre grupos para identificar los segmentos de cara a definir campañas personalizadas 3.3.2. Regresión logística La Regresión Logística (Rodrigo, 2016), es un modelo de aprendizaje supervisado que permite estimar la probabilidad de una variable cualitativa binaria en función de una o varias variables continuas o categóricas. O dicho de otra forma, permite predecir el resultado de una variable categórica o binaria (0 o 1) en función de otras que actúan como predictores.
  50. 50. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 50 Para calcular la regresión logística, se lleva a cabo el procesamiento y limpieza de los datos para que todas las variables tengan la clase oportuna y no existan valores NA. 3.3.2.1. Implementación La implementación del modelo incluye los siguientes pasos: - Limpieza de datos para su posterior procesamiento - Análisis descriptivo u visualización de las variables que se utilizarán para tener un punto de partida respecto a las ventas producidas en el dataset. Figura 47: Implementación modelo logit
  51. 51. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 51 - El modelo logit se prueba en dos direcciones: o usando todas las variables disponibles en el dataset y luego eliminando una a una para ver qué modelos son más representativos y tienen una accuracy mayor o usando pocas variables y probando a añadir más, para testar qué combinación de variables devuelve una accuracy mayor. En la figura 48 se indican los pasos seguidos con la estimación de mayor accuracy Figura 48: Estimación modelo logit - Prueba individual del modelo con datos nuevos para obtener un porcentaje de probabilidad de ventas, para las características añadidas en el predictor. Figura 49: Estimación modelo logit
  52. 52. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 52 4. Construcción, prueba, implementación y despliegue En este punto se desarrolla la fase de construcción, prueba e implementación de los modelos, de cara a obtener los resultados esperados según los datos de cada una de las bases de datos. Se desarrollarán los modelos de Gower, RFM, RFM con clusterización con K- means y el modelo de regresión logística. 4.1.Construcción del modelo Gower 4.1.1. Estimación del modelo Para la construcción del modelo se utilizó la base de datos transformada previamente y se utilizaron tanto variables categóricas como numéricas. Tabla 6. Variables para el modelo Gower VARIABLE TIPO Cliente_Nuevo Cliente nuevo si o no Boletín Suscrito si o no Método_Pago Forma de pagar Género Male, Female o Unknown Ext_Mail Extensión del email Mes_pedido En qué mes se hizo el pedido Día_pedido En qué día de la semana se hizo el pedido Hora_pedido A qué hora se hizo el pedido Rango_antig Rango de antigüedad en años Rango_importe Rango de importe de la compra Cliente Cliente si o no 4.1.2. Resultado El modelo efectuado sobre el dataset train ofrece el output que se refleja en la figura 50. Figura 50: Disimilitud de Gower A través del cual , como se ve en la figura 51, se han seleccionado 3 clústeres
  53. 53. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 53 Figura 51: Clústeres óptimos modelo Gower Cuyo resultado se puede ver en la figura 52, una visualización con las observaciones clasificadas en 3 clústeres Figura 52: Visualización de Clústeres Gower Ahora comparando las características, se puede observar donde están las diferencias respecto a clientes y son datos susceptibles de ser utilizados en campañas de segmentación, retención y fidelización: - Día en el que se realiza la compra: de la figura 53 se puede extraer de estos resultados que el clúster 1 está formado por compras mayoritariamente de los jueves, el clúster 2 de los martes, el clúster 3 de los lunes
  54. 54. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 54 Figura 53: Comparativa de clústeres de la variable Día - Hora en la que se realiza la compra: de la figura 54 se puede extraer de estos resultados que el clúster 1 está formado por compras mayoritariamente a las 13:00, el clúster 2 corresponde a las 12:00, el clúster 3 destaca por compras a las 17:00 Figura 54: Comparativa de clústeres de la variable Hora - Mes en el que se realiza la compra: el clúster 1 está formado por compras mayoritariamente en mayo, el clúster 2 corresponde a julio, el clúster 3 destaca por compras en diciembre, tal como refleja la figura 55.
  55. 55. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 55 Figura 55: Comparativa de clústeres de la variable Mes Ahora, analizando las características por grupo, se puede observar donde están las oportunidades susceptibles de ser utilizados en campañas específicas: - Clúster 1: de la figura 56 se extrae que clientes que ya han comprado anteriormente, suscritos a la newsletter, son mayoría hombres que al menos llevan 1 año registrados. Los importes de las compras se concentran más en importes hasta 100 euros. La gran mayoría de usuarios utilizan Gmail como servicio de mail.
  56. 56. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 56 Figura 56: Variables del clúster 1 - Clúster 2: la figura 57 muestra clientes que ya han comprado anteriormente, no están suscritos a la newsletter, mayoría hombres que llevan 10 años registrados. Los importes de las compras se concentran más en importes hasta 50 euros. La gran mayoría de usuarios utilizan Hotmail como servicio de mail. Figura 57: Variables del clúster 2 - Clúster 3: la figura 58 refleja clientes nuevos, no habían comprado anteriormente, no están suscritos a la newsletter, mayoría hombres que llevan menos de 1 año registrados. Los importes de las compras se concentran más en importes hasta 50 euros. La gran mayoría de usuarios utilizan Gmail como servicio de mail.
  57. 57. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 57 Figura 58: Variables del clúster 3 4.2.CONSTRUCCIÓN DEL MODELO RFM 4.2.1. Estimación del modelo Para la construcción del modelo se utiliza la base de datos transformada previamente y se se utilizan tan solo las variables que se indican a continuación: Tabla 7. Variables para el modelo RFM VARIABLE TIPO ClienteID Identificador de Cliente PedidoID Identificador de Pedido Importe Importe del pedido Fecha_Pedido Fecha en la que se hizo el pedido Además de esto, el modelo necesita incorporar la fecha presente para hacer los cálculos de recencia y frecuencia a partir de las fechas de los pedidos. Por otra parte, una vez se calculan los scoring para cada criterio del modelo, se deben establecer los valores altos y bajos para su posterior segmentación en distintos clústeres.
  58. 58. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 58 Figura 59: Scoring estático modelo RFM 4.2.2. Resultado Una vez conducido el análisis RFM se obtiene, mediante funciones de visualización, un resumen de los distintos atributos del modelo y su posterior clusterización. Por ejemplo, un gráfico tipo heatmap que representa frecuencia, recencia y valor monetario Figura 60: Visualización modelo RFM
  59. 59. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 59 El modelo también enfrenta las distintas métricas para ver su relación gráficamente que pueden ser consultadas en el anexo A. Respecto a los clústeres, se han calculado en base a las puntuaciones obtenidas en el paso anterior y con ellos, se puede clasificar los distintos segmentos: Tabla 8. Segmentos de clientes para el Modelo RFM Segmento ¿Cómo son? Champions Compran recientemente, compran a menudo y gastan lo máximo Loyal Customers Gastan buen dinero. Responden a las promociones Potential Loyalist Clientes recientes, gastan una buena cantidad, compran más de una vez New Customers Compra recientemente, pero no a menudo Promising Compradores recientes, pero no han gastado mucho Need Attention Valores de recencia, frecuencia y monetarios por encima de la media About to sleep Valores de recencia, frecuencia y monetarios por debajo de la media At risk Gastaba mucho dinero, compraba a menudo, pero hace mucho tiempo Can’t lose them Hizo grandes compras y a menudo, pero hace mucho tiempo Hibernating Gastan poco, baja frecuencia, compraron hace mucho tiempo Lost Puntuaciones de recencia, frecuencia y monetarias más bajas Others Otras casuísticas Una vez hecho el recuento de pedidos de cada segmento, el negocio ya cuenta con una información clave del estado de sus ventas, para poder trabajar en maximizarlas atacando a los distintos segmentos. Figura 61: Distribución de compras por segmento
  60. 60. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 60 4.3.Construcción del modelo RFM usando K-means para clustering 4.3.1. Estimación del modelo Para la construcción del modelo se utilizó la misma base de datos transformada previamente con las variables que se indican a continuación: Tabla 9. Variables para el modelo RFM VARIABLE TIPO ClienteID Identificador de Cliente PedidoID Identificador de Pedido Importe Importe del pedido Fecha_Pedido Fecha del pedido Además de esto, el modelo necesita incorporar la fecha presente para hacer los cálculos de recencia y frecuencia a partir de las fechas de los pedidos. Por otra parte, en vez de calcular los scoring para cada criterio, en esta variante se utiliza el modelo K-Means que indicará los clústeres óptimos y se podrá comparar con el modelo anterior. 4.3.2. Resultado El modelo se ha construido sobre los datos numéricos del RFM score, para calcular los clústeres con técnicas no supervisadas, tal y como se ve en la figura 62, donde se puede repasar el código R utilizado. Figura 62: Distribución de compras por segmento El número de clústeres óptimos identificados y visualizados en la figura 63, finalmente son 2
  61. 61. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 61 Figura 63: Número de clústeres óptimos para el modelo K-means La visualización de los clústeres de la figura 64, diferenciada con color, deja más clara la agrupación que hace el modelo Figura 64: Visualización del número de clústeres óptimos para el modelo K-means Los principales resultados obtenidos tras inspeccionar las características del dataset en cada clúster:
  62. 62. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 62 - Clúster 1: tal y como reflejan las figuras 65 y 66, predominan clientes nuevos, pero la presencia de clientes antiguos es también elevada. Se observan usuarios no registrados en el boletín de la empresa, mayoritariamente de género masculino, usuarios de Gmail, con gastos en sus compras más habituales inferiores a 50€, realizadas en su mayoría a través de PayPal. Son clientes con menos de 1 año de antigüedad, cuyas compras se concentran en mayo y diciembre. Figura 65: I Características del clúster 1. Figura 66. II Características del clúster 1.
  63. 63. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 63 - Clúster 2: en las figuras 67 y 68 se puede observar que en este clúster predominan clientes nuevos, pero la presencia de clientes antiguos es también elevada. Se observan usuarios en su mayoría no registrados en el boletín de la empresa, género masculino en su mayoría, usuarios de Hotmail, con gastos en sus compras más habituales entre 50€ y 100€, realizadas en su mayoría a través de la pasarela de pago del ecommerce. Son clientes entre 5 y más de 10 años de antigüedad, cuyas compras también se concentran en mayo y diciembre. Figura 67. I Características del clúster 2. Figura 68. II Características del clúster 2.
  64. 64. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 64 4.4.CONSTRUCCIÓN DEL MODELO LOGIT 4.4.1. Estimación del modelo Para la construcción del modelo se utilizó la BBDD2 transformada previamente y se utilizaron tanto variables categóricas como numéricas. Tabla 10. Variables para el modelo logit VARIABLE TIPO Nuevo Cliente nuevo si o no Pago Forma de pagar Día_pedido En qué día de la semana se hizo el pedido Hora_pedido A qué hora se hizo el pedido Rango_importe Rango de importe de la compra Cliente Cliente si o no Fuente Canal digital por el que accede a comprar Navegador Navegador utilizado para comprar Dispositivo Dispositivo utilizado para comprar 4.4.2. Resultado Después de llevar a cabo el desarrollo del modelo se puede visualizar en la figura 69 el resumen de la regresión y sus principales residuos: Figura 69. Resultado del modelo logit. Respecto a los coeficientes se observa significatividad en varias variables en el output del modelo accesible en la figura 70.
  65. 65. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 65 Figura 70. Significatividad de coeficientes. La lectura o interpretación que puede realizarse es la siguiente: - Cliente Nuevo SI: los clientes nuevos tienen más probabilidad de compra que los antiguos - Pago Contra Reembolso: el pago contra reembolso tiene impacto negativo en la compra final, es más probable que se realice la compra con otros métodos. - Fuente Direct: el tráfico directo tiene menos probabilidades de comprar - Fuente Landing: el tráfico desde Landing tiene menos probabilidades de comprar - Fuente Organic: el tráfico SEO tiene más probabilidades de comprar - Fuente Referral: el tráfico referral tiene menos probabilidades de comprar - Dispositivo Mobile: el tráfico desde mobile tiene más probabilidades de comprar Comparar la distribución de compradores con la que clasifica el modelo, deja ver que existen pocas observaciones mal clasificadas, a través de la matriz de confusión, esto indica que el modelo puede ser bueno.
  66. 66. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 66 El nivel de Accuracy alcanzado por el modelo es de 97,59%, como se puede ver en la figura 71, con el detalle de la matriz de confusión. Figura 71. Matriz de confusión del modelo logit. Por último, en la figura 72 cabe destacar el poder de predicción individual que puede tener el modelo para explorar las probabilidades de compra de un grupo de características en concreto. Figura 72. Predicción individual del modelo logit.
  67. 67. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 67 La interpretación del resultado sería el siguiente: “Los usuarios nuevos que han accedido a la tienda a través de un anuncio de Google Ads, con el dispositivo Tablet, y que han elegido el método de pago Contra Reembolso, tienen un 66,10% de probabilidades de finalizar la compra.” 5. Cronograma del proyecto 5.1.Swimlane de Inteligencia de negocio y gestión del proyecto El desarrollador del proyecto asociado al TFM, ha tenido reuniones con los dueños de los distintos ecommerce que han cedido sus datos para los análisis, de cara a perfilar el actual trabajo como posible herramienta de segmentación y creación de campañas más enfocadas. Las actividades llevadas a cabo en esta fase comprenden: - Planificación de recursos - Resolución de problemas - Comunicación entre las partes y coordinación entre personas involucradas Asimismo, se llevará a cabo un documento de conclusiones consensuado entre ambas partes, que actuará como resumen ejecutivo de los análisis realizados, los objetivos cubiertos, los tiempos estimados y las conclusiones de negocio, para que el propietario del ecommerce pueda identificar con claridad los segmentos y las posibles acciones de marketing disponibles. 5.2.Swimlane de datos, bases de datos e integración de datos La extracción de datos y sus diferentes fuentes se llevará a cabo de estas formas: - Accediendo a Google Analytics
  68. 68. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 68 - Accediendo a datos de Pedidos y Clientes en el backend de Prestashop - Los proporcionarán los dueños de ecommerce Posteriormente a su modelado, se entregarán: - Datos de pedidos con clusterización por el método 1 - Datos de pedidos con clusterización por el método 2 - Datos de pedidos con clusterización por el método 3 - Documento de conclusiones, con insights y next steps para campañas de marketing 5.3.Swimlane de la infraestructura En esta fase se revisa y se verifica que se cuentan con todas las herramientas y licencias necesarias para llevar a cabo el proyecto, incluso accesos a internet para descargar la información: - Herramienta de análisis de datos: RStudio 1.4.1103 sobre R-4.0.4 - Herramienta de búsqueda y documentación: Google, Medium, DataCamp 6. Conclusiones Para cualquier tienda online o ecommerce, utilice el sistema o la tecnología que sea, es de vital importancia el análisis de datos. Por un lado tener la capacidad de segmentar a los clientes, le coloca en una posición aventajada para tomar decisiones. Por otro lado, estar en disposición de analizar qué factores intervienen en la compra final para tratar de potenciarlos, es otro aspecto que puede influir de manera directa en la priorización de acciones de mejora y por ende, en la obtención de resultados. El reto que presenta este proyecto es utilizar los datos de ecommerce para poder tomar mejores decisiones en dos direcciones: enfocar mejor las campañas de marketing para los distintos tipos de clientes y optimizar esfuerzos en aquellas características que tienen impacto en la venta final. Cualquier director de marketing o dueño de un ecommerce podrá tomar mejores decisiones con el conocimiento que aportan los modelos presentados, siempre y cuando la recopilación
  69. 69. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 69 e integración de datos tenga una trazabilidad en los distintos activos o herramientas de datos (datos del CMS, datos de Google Analytics, datos de CRM, etc.) Como objetivo principal del presente TFM se propuso desarrollar un proyecto de inteligencia de negocio qué permita segmentar pedidos y clientes acorde a los factores que, determinen los aspectos que tengan más peso en la conversión final de los clientes. En ese sentido, se han analizado los datos e informes actuales, constatando que una de las dos empresas colaboradoras no tiene ningún tipo de integración entre sus datos y la segunda, se encuentra en un punto muy básico de integración de estos. De hecho, ambas empresas disponen de datos de calidad que les permitirían crear integraciones más estratégicas, incluso dar pasos para construir sus propios data warehouses. A propósito de dicho objetivo, se ha realizado una segmentación de clientes aplicando técnicas de aprendizaje no supervisado basado en primer lugar, en el modelo de disimilitud de Gower y otro modelo basado en K-means. Como resultado, el primero modelo ha arrojado 3 clústeres con diferentes características y el segundo, 2 clústeres. Asimismo, Se ha realizado un modelo adicional de segmentación que no usa aprendizaje automático sino un sistema de scoring centrado en cuándo se hacen las compras, cuánto se gastan y con qué frecuencia hacen las compras. Como resultado se ha obtenido una clasificación de clientes por su potencial de valor para la compañía, identificando segmentos que están próximos a perder su lealtad u otros cuya inactividad refleja el nulo retorno que ofrecen a nivel de negocio. Para los tres modelos de segmentación, se considera que la incorporación de la información sobre los clústeres pudiese permitir a las empresas a analizar diferencias entre segmentos y trabajar en su retención o aumento de satisfacción, así como en la maximización de beneficios, creando campañas personalizadas de mayor valor. Asimismo, se ha logrado un modelo de regresión logística que identifica qué factores tienen mayor peso en la compra final. Sin duda, entender qué canales, dispositivos o navegadores son determinantes en la conversión final, basando el modelo en datos pasados, da una idea de rendimiento de la conversión, para priorizar o hacer más fuerza en aquellos factores que inciden en la compra. Como resultado, este modelo ofrece una interpretabilidad muy alta, pudiendo utilizarse como una herramienta de predicción individual de alto valor para la
  70. 70. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 70 empresa, además de poder potenciar aquella combinación de variables que mejor funcionan en la conversión final. Ambos grupos de modelos se convierten en sendas herramientas que permiten orientar el negocio a la maximización de ventas, una usando la segmentación y otra usando la priorización. En cualquiera de las dos, una tienda online que abrace estas técnicas, será más efectiva, tendrá menores costes y hará un uso de los datos inteligente, puesto que se estará enfocando en personalizar la experiencia de sus distintos clientes, por un lado, y por otro, estará haciendo hincapié en lo que ya funciona en su tienda para amplificarlo sin modificar significativamente sus costes. 7. Limitaciones y prospectiva Una vez finalizado el trabajo y analizando los aspectos desarrollados, se establecen las principales limitaciones halladas: 1. La descarga de datos ha sido manual y no ha existido ninguna extensión, API o aplicativo que facilite o posibilite la automatización de la descarga o su almacenamiento en bases de datos que actúen como Data Warehouse 2. No disponer de los mismos tipos de datos para proyectos de ecommerce diferentes. Esto significa que no existe una cultura del dato en todas las organizaciones y a la hora de extraer los datos de distintas fuentes, existe una dificultad añadida si no hay un trabajo previo de las empresas por llegar a la granularidad necesaria de los datos. 3. Idealmente se hace necesario un desarrollo en el gestor de contenidos o CMS, que posibilite integrar los datos de clientes y pedidos, con los datos de Google Analytics con Ecommerce Mejorado, así como otros datos adicionales como pueden ser los existentes en un CRM. Esa trazabilidad posibilitará la automatización o el volcado periódico a bases de datos como BigQuery. 4. La cantidad de datos que se disponen de los clientes y los pedidos también puede actuar como una limitación o hándicap ya que, los análisis posteriores pueden perder profundidad y no dar una información más rica, si se cuentan con datos básicos (nombre, importe, fecha de pedido) que si se ha conseguido ampliar mínimamente (género, antigüedad como cliente, edad, etc.).
  71. 71. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 71 5. La existencia de características de datos poco balanceados puede hacer menos útiles ciertos segmentos, es decir, si el perfil de usuarios de una característica mayoritaria, dicha característica no será del todo importante para agrupar. Ejemplo: 95% de usuarios de género masculino. Con una implementación similar a la indicada en el punto anterior, los siguientes pasos de estos análisis pueden ser: a. Automatización de los análisis b. Creación de distintos Dashboards dinámicos enfocados a distintos departamentos de las organizaciones c. Incorporar análisis basados en Forecast, para tener una herramienta predictiva y que permita activar medidas de minimización de costes y/o de maximización de ingresos. Por último, resaltar que los proyectos de Inteligencia de Negocio son una oportunidad para la mejora tanto en beneficio como en posicionamiento en el mercado de los ecommerce. Es una forma de adaptarse a las tendencias y patrones de los usuarios, así como en adoptar novedades tecnológicas, de la forma más eficiente posible, respecto a la gran cantidad de datos que se generan constantemente.
  72. 72. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 72 BIBLIOGRAFÍA Bagnato, J. I. (2 de Junio de 2020). aprendemachinelearning.com. Obtenido de aprendemachinelearning.com: https://www.aprendemachinelearning.com/deteccion-de-outliers-en-python- anomalia/ Baymard. (20 de Diciembre de 2020). baymard.com. Obtenido de baymard.com: https://baymard.com/lists/cart-abandonment-rate Beck, M. (16 de Diciembre de 2019). Can You Predict If a Customer Will Make a Purchase on a Website? Obtenido de towardsdatascience.com: https://towardsdatascience.com/can-you-predict-if-a-customer-will-make-a- purchase-on-a-website-e6843ec264ae Bello, E. (1 de Marzo de 2021). iebschool.com. Obtenido de iebschool.com: https://www.iebschool.com/blog/que-es-un-cms-e-commerce/ Bow, C. (11 de Octubre de 2018). An introduction to regression analysis for marketers. Obtenido de blog.markgrowth.com: https://blog.markgrowth.com/an-introduction- to-regression-analysis-for-marketers-e4ece9dce43a Bow, C. (10 de Marzo de 2018). E-Commerce EDA and segmentation with R. Obtenido de kaggle.com: https://www.kaggle.com/chrisbow/e-commerce-eda-and-segmentation- with-r builtwith.com. (12 de Julio de 2021). builtwith.com. Obtenido de builtwith.com: https://trends.builtwith.com/shop/country/Spain chaudhury, j. (20 de Julio de 2020). Linear Regression on Ecommerce Customer Dataset. Obtenido de medium.com: https://medium.com/@jayramchaudhury20/linear- regression-on-ecommerce-customer-dataset-752bce43e0de CNMC. (1 de Abril de 2021). Disponibles datos telecomunicaciones de abril 2021 . Obtenido de data.cnmc.es: http://data.cnmc.es/datagraph/ CNMCData. (8 de Enero de 2021). El comercio electrónico superó en España los 12.000 millones de euros en el segundo trimestre de 2020. Obtenido de cnmc.es: https://www.cnmc.es/prensa/ecommerce-2T-20210108
  73. 73. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 73 comunica-web.com. (2 de Julio de 2020). Plataformas ecommerce más utilizadas en España (2020). Obtenido de comunica-web.com: https://comunica- web.com/blog/marketing-digital/plataformas-ecommerce/ DataFlair Team. (26 de Septiembre de 2017). Predictive and Descriptive Analytics in R – Grasp the entire concept thoroughly! Obtenido de data-flair.training: https://data- flair.training/blogs/r-predictive-and-descriptive-analytics/ ecommerce-nation.es. (4 de Diciembre de 2018). ecommerce-nation.es. Obtenido de ecommerce-nation.es: https://www.ecommerce-nation.es/todo-lo-que-necesitas- saber-para-elegir-tu-cms-para-ecommerce/ Filaire, T. (16 de Julio de 2018). Clustering on mixed type data. Obtenido de towardsdatascience.com/: https://towardsdatascience.com/clustering-on-mixed- type-data-8bbd0a2569c3 Filaire, T. (16 de Julio de 2018). towardsdatascience.com. Obtenido de towardsdatascience.com: https://towardsdatascience.com/clustering-on-mixed- type-data-8bbd0a2569c3 Flat 101. (12 de Diciembre de 2019). flat101.es. Obtenido de flat101.es: https://www.flat101.es/estudio-sobre-la-conversion-en-negocios-digitales- espanoles-2019/ G, D. (28 de Septiembre de 2020). rpubs.com. Obtenido de rpubs.com: https://rpubs.com/DessiG/671942 Gaggin, A. (s.f.). Applying machine learning to sales prediction . Obtenido de rstudio: https://rstudio-pubs- static.s3.amazonaws.com/105869_f6e7f8d4e0434c40bd939a3d1e792af9.html Garcés, E. (25 de Marzo de 2019). Data Science & Machine Learning with Google Analytics. Obtenido de linkedin.com: https://www.linkedin.com/pulse/data-science-machine- learning-google-analytics-part-1-eduardo-garc%C3%A9s/ Gondaliya, A. (14 de Enero de 2015). Predictive analysis in eCommerce part-3 . Obtenido de r-bloggers.com: https://www.r-bloggers.com/2015/01/predictive-analysis-in- ecommerce-part-3/amp/ Granda, X. (17 de Diciembre de 2019). e-Commerce Purchase Prediction . Obtenido de nycdatascience.com: https://nycdatascience.com/blog/student-works/e-commerce- purchase-prediction/
  74. 74. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 74 Guntupalli, N. (27 de Enero de 2018). Predicting Conversion of Website Users in R. Obtenido de rpubs.com: https://rpubs.com/neerajkumar990/353129 Herviawan, M. H. (31 de Octubre de 2017). Customer Segmentation using RFM Analysis (R). Obtenido de kaggle.com: https://www.kaggle.com/hendraherviawan/customer- segmentation-using-rfm-analysis-r Hong, F. (21 de Octubre de 2015). Machine learning on Google Analytics (part 2). Obtenido de liip.ch: https://www.liip.ch/en/blog/8160 IAB SPAIN. (15 de Julio de 2020). PRESENTACIÓN ONLINE DEL ESTUDIO ANUAL DE ECOMMERCE 2020. Obtenido de iabspain.es: https://iabspain.es/presentacion- online-del-estudio-anual-de-ecommerce-2020/ INE. (1 de Junio de 2020). ine.es. Obtenido de ine.es: https://www.ine.es/ss/Satellite?L=es_ES&c=INECifrasINE_C&cid=1259952923622&p =1254735116567&pagename=ProductosYServicios%2FINECifrasINE_C%2FPYSDetalle CifrasINE Jain, S. (05 de Marzo de 2019). Clustering using categorical data. Obtenido de kaggle.com: https://www.kaggle.com/general/19741 Jalalian, S. (17 de Agosto de 2019). Prediction of Online Shopper’s Intention . Obtenido de fsocietysj.com: https://fsocietysj.com/prediction-of-online-shoppers-intention/ Josue, A. (31 de Enero de 2020). PREDICTIONS OF A COMPANY’S FUTURE SALES USING LINEAR REGRESSION. Obtenido de rpubs.com: https://rpubs.com/Josue90/predict_sales Kassambara, A. (17 de 10 de 2018). PARTITIONAL CLUSTERING IN R: THE ESSENTIALS. Obtenido de datanovia.com: https://www.datanovia.com/en/lessons/k-medoids-in- r-algorithm-and-practical-examples/ Kassambara, A. (2 de Junio de 2020). K-MEANS CLUSTERING VISUALIZATION IN R: STEP BY STEP GUIDE. Obtenido de datanovia.com: https://www.datanovia.com/en/blog/k- means-clustering-visualization-in-r-step-by-step-guide/ Khandelwal, R. (3 de Enero de 2021). Customer Segmentation in Online Retail. Obtenido de towardsdatascience.com: https://towardsdatascience.com/customer-segmentation- in-online-retail-1fc707a6f9e6

×