Este documento resume conceptos clave sobre datos desbalanceados y técnicas para abordarlos. Explica que los datos desbalanceados ocurren cuando una clase predomina sobre la otra y provee ejemplos como fraude y anomalías. Luego describe estrategias como oversampling y undersampling, así como algoritmos como random forest y redes neuronales, para lidiar con datos desbalanceados. Finalmente, propone algunos proyectos de detección como vehículos autónomos vs particulares y usuarios propensos a usar tarjetas de crédito.
3. ermartin@plainconcepts.com
Software Development Engineer en Plain Concepts con experiencia en
multitud de campos relacionados con la analítica avanzada, Big Data,
modelos predictivos e Inteligencia Artificial. Apasionado del análisis de
datos y de los insights que se pueden obtener de ellos así como las
últimas tecnologías y algoritmos para explotarlos.
Eric Martín
Software Development Engineer
5. Datos Desbalanceados
• Datos desbalanceados: Una clase predomina sobre la otra
• Ejemplos de datos desbalanceados: Fraude, Anomalías…
¿Qué son los datos desbalanceados?
6. Datos Desbalanceados
• Kaggle Dataset
• The datasets contains transactions made by credit cards in September 2013 by european
cardholders. This dataset presents transactions that occurred in two days, where we have 492
frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds)
account for 0.172% of all transactions.
• Análisis exploratorio
Talk is cheap, show me the code
No lo cuento, lo hago
8. Datos desbalanceados: Métricas
• Fraudes 0.172% por lo que si digo que todas están bien acierto 100 -0.172 = 99.828%
• Accuracy no dice nada!!
• ¿Qué métrica debemos usar en este problema?
1𝑀 50
250 250
1𝑀 1000
150 350
9. Datos desbalanceados: Métricas
• No lo sabemos!!!!
• Tenemos que ver el sentido de ‘negocio’:
• Encontrar un fraude evita perdidas de 1500$ de media
• Comprobar un fraude cuesta en promedio 30$
• Precisión
• Recall
• F-beta score
𝑆𝑐𝑜𝑟𝑒 = 𝑇𝑃 ∗ 1500 − (𝐹𝑃) ∗ 30
(Mas alto mejor)
16. Algoritmos
• Algoritmos compuestos de algoritmos mas sencillos
• Típicamente mejoran score y ayudan a reducir la sobre-optimización
• Random Forest
• AdaBoost
Ensemble
17. Algoritmos
• Red simple con 3 capas densas activación = Relu
• Activación a la salida sigmoid (clasificación)
Redes Neuronales