SlideShare a Scribd company logo
1 of 31
Unbalanced data: Same
algorithms different
techniques
ORGANIZATION
Thank you!
ermartin@plainconcepts.com
Software Development Engineer en Plain Concepts con experiencia en
multitud de campos relacionados con la analítica avanzada, Big Data,
modelos predictivos e Inteligencia Artificial. Apasionado del análisis de
datos y de los insights que se pueden obtener de ellos así como las
últimas tecnologías y algoritmos para explotarlos.
Eric Martín
Software Development Engineer
Datos desbalanceados
Datos Desbalanceados
• Datos desbalanceados: Una clase predomina sobre la otra
• Ejemplos de datos desbalanceados: Fraude, Anomalías…
¿Qué son los datos desbalanceados?
Datos Desbalanceados
• Kaggle Dataset
• The datasets contains transactions made by credit cards in September 2013 by european
cardholders. This dataset presents transactions that occurred in two days, where we have 492
frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds)
account for 0.172% of all transactions.
• Análisis exploratorio
Talk is cheap, show me the code
No lo cuento, lo hago
Notebook!!
Datos desbalanceados: Métricas
• Fraudes 0.172% por lo que si digo que todas están bien acierto 100 -0.172 = 99.828%
• Accuracy no dice nada!!
• ¿Qué métrica debemos usar en este problema?
1𝑀 50
250 250
1𝑀 1000
150 350
Datos desbalanceados: Métricas
• No lo sabemos!!!!
• Tenemos que ver el sentido de ‘negocio’:
• Encontrar un fraude evita perdidas de 1500$ de media
• Comprobar un fraude cuesta en promedio 30$
• Precisión
• Recall
• F-beta score
𝑆𝑐𝑜𝑟𝑒 = 𝑇𝑃 ∗ 1500 − (𝐹𝑃) ∗ 30
(Mas alto mejor)
Notebook!!
Técnicas
Estrategias: Over Sampling
• CLASS WEIGHT
• SMOTE: Synthetic Minority Over-Sampling Technique
• ADASYN: Adaptive Synthetic
Estrategias: Under Sampling
• DELETE ZEROS
• Condensed KNN
• Instance Hardness Threshold: Estimators
Notebook!!
Algoritmos
Algoritmos
• Algoritmos compuestos de algoritmos mas sencillos
• Típicamente mejoran score y ayudan a reducir la sobre-optimización
• Random Forest
• AdaBoost
Ensemble
Algoritmos
• Red simple con 3 capas densas activación = Relu
• Activación a la salida sigmoid (clasificación)
Redes Neuronales
Notebook!!
EForest
EForest – Recordatorio Random Forest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
EForest – Recordatorio Random Forest
F1 F2 F3 … … … FN Y
1.5 25 False … 0.185 ???
1
1
0
1
Majority Vote
EForest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
EForest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
EForest
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2 1 0 1 1
3 1 1 1 0
4 0 1 0 1
5 0 0 0 0
6 1 0 1 0
7 0 1 0 1
8 0 1 0 1
9 1 0 1 1
10 1 1 0 0
11 0 1 0 1
12 0 0 1 0
13 1 0 1 1
14 1 1 0 1
15 1 1 0 1
16 0 0 1 0
17 0 1 0 1
18 1 0 0 0
EForest: Vector vs Agregado
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2 1 0 1 1
3 1 1 1 0
4 0 1 0 1
5 0 0 0 0
6 1 0 1 0
7 0 1 0 1
8 0 1 0 1
Agg Y
1 2 1
2 2 1
3 3 0
4 0 1
5 1 0
6 2 0
7 1 1
8 1 1
EForest: Proyectos
• Detección autónomos vs particulares
• Usuarios propensos a usar tarjetas de crédito
Notebook!!
Conclusiones
Questions & Answers
Una cosa más:
Challenge
time!!!
Kahoot.it
¿Cuánto sabes de IA,
ML y Big Data?
https://play.kahoot.it/#/lobby?quizId=e5984d86-88fb-49cc-
aacc-4baaec119496
Thanks and …
See you soon!
Thanks also to the organization
Without whom this would not have been posible.

More Related Content

More from Plain Concepts

R y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosR y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosPlain Concepts
 
Video kills the radio star: e-mail is crap and needed disruption
 Video kills the radio star: e-mail is crap and needed disruption Video kills the radio star: e-mail is crap and needed disruption
Video kills the radio star: e-mail is crap and needed disruptionPlain Concepts
 
Cómo redefinir tu organización con IA
Cómo redefinir tu organización con IACómo redefinir tu organización con IA
Cómo redefinir tu organización con IAPlain Concepts
 
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelinesDx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelinesPlain Concepts
 
¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humanoPlain Concepts
 
Inteligencia artificial para detectar el cáncer de mama
Inteligencia artificial para  detectar el cáncer de mamaInteligencia artificial para  detectar el cáncer de mama
Inteligencia artificial para detectar el cáncer de mamaPlain Concepts
 
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?Plain Concepts
 
Cognitive Services en acción
Cognitive Services en acciónCognitive Services en acción
Cognitive Services en acciónPlain Concepts
 
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...Plain Concepts
 
What if AI was your daughter?
What if AI was your daughter?What if AI was your daughter?
What if AI was your daughter?Plain Concepts
 
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...Plain Concepts
 
Revolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IARevolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IAPlain Concepts
 
Recuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleoRecuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleoPlain Concepts
 
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT EdgeLa nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT EdgePlain Concepts
 
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native ScriptDotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native ScriptPlain Concepts
 
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...Plain Concepts
 
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...Plain Concepts
 
El camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - IntroductionEl camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - IntroductionPlain Concepts
 
El camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AIEl camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AIPlain Concepts
 

More from Plain Concepts (20)

R y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosR y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntos
 
Video kills the radio star: e-mail is crap and needed disruption
 Video kills the radio star: e-mail is crap and needed disruption Video kills the radio star: e-mail is crap and needed disruption
Video kills the radio star: e-mail is crap and needed disruption
 
Cómo redefinir tu organización con IA
Cómo redefinir tu organización con IACómo redefinir tu organización con IA
Cómo redefinir tu organización con IA
 
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelinesDx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
 
¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano
 
Inteligencia artificial para detectar el cáncer de mama
Inteligencia artificial para  detectar el cáncer de mamaInteligencia artificial para  detectar el cáncer de mama
Inteligencia artificial para detectar el cáncer de mama
 
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
 
Cognitive Services en acción
Cognitive Services en acciónCognitive Services en acción
Cognitive Services en acción
 
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
 
What if AI was your daughter?
What if AI was your daughter?What if AI was your daughter?
What if AI was your daughter?
 
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
 
Revolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IARevolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IA
 
IA Score en InfoJobs
IA Score en InfoJobsIA Score en InfoJobs
IA Score en InfoJobs
 
Recuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleoRecuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleo
 
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT EdgeLa nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
 
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native ScriptDotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
 
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
 
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
 
El camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - IntroductionEl camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - Introduction
 
El camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AIEl camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AI
 

Recently uploaded

El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..RobertoGumucio2
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 

Recently uploaded (20)

El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 

Unbalanced data: Same algorithms different techniques

  • 1. Unbalanced data: Same algorithms different techniques
  • 3. ermartin@plainconcepts.com Software Development Engineer en Plain Concepts con experiencia en multitud de campos relacionados con la analítica avanzada, Big Data, modelos predictivos e Inteligencia Artificial. Apasionado del análisis de datos y de los insights que se pueden obtener de ellos así como las últimas tecnologías y algoritmos para explotarlos. Eric Martín Software Development Engineer
  • 5. Datos Desbalanceados • Datos desbalanceados: Una clase predomina sobre la otra • Ejemplos de datos desbalanceados: Fraude, Anomalías… ¿Qué son los datos desbalanceados?
  • 6. Datos Desbalanceados • Kaggle Dataset • The datasets contains transactions made by credit cards in September 2013 by european cardholders. This dataset presents transactions that occurred in two days, where we have 492 frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds) account for 0.172% of all transactions. • Análisis exploratorio Talk is cheap, show me the code No lo cuento, lo hago
  • 8. Datos desbalanceados: Métricas • Fraudes 0.172% por lo que si digo que todas están bien acierto 100 -0.172 = 99.828% • Accuracy no dice nada!! • ¿Qué métrica debemos usar en este problema? 1𝑀 50 250 250 1𝑀 1000 150 350
  • 9. Datos desbalanceados: Métricas • No lo sabemos!!!! • Tenemos que ver el sentido de ‘negocio’: • Encontrar un fraude evita perdidas de 1500$ de media • Comprobar un fraude cuesta en promedio 30$ • Precisión • Recall • F-beta score 𝑆𝑐𝑜𝑟𝑒 = 𝑇𝑃 ∗ 1500 − (𝐹𝑃) ∗ 30 (Mas alto mejor)
  • 12. Estrategias: Over Sampling • CLASS WEIGHT • SMOTE: Synthetic Minority Over-Sampling Technique • ADASYN: Adaptive Synthetic
  • 13. Estrategias: Under Sampling • DELETE ZEROS • Condensed KNN • Instance Hardness Threshold: Estimators
  • 16. Algoritmos • Algoritmos compuestos de algoritmos mas sencillos • Típicamente mejoran score y ayudan a reducir la sobre-optimización • Random Forest • AdaBoost Ensemble
  • 17. Algoritmos • Red simple con 3 capas densas activación = Relu • Activación a la salida sigmoid (clasificación) Redes Neuronales
  • 20. EForest – Recordatorio Random Forest F1 F2 F3 … … … FN Y 1 1.2 25 True … 0.185 1 2 3.4 55 False … 0.211 1 3 2.2 58 True … 0.171 0 4 4.0 34 True … 0.132 1 5 1.1 63 True … 0.652 0 6 0.7 61 False … 0.153 0 7 3.3 12 False … 0.477 1 8 3.1 23 True … 0.311 1 9 1.2 29 False … 0.171 1 10 3.4 45 True … 0.132 0 11 2.1 55 True … 0.652 1 12 1.7 19 False … 0.189 0 13 3.3 12 False … 0.477 1 14 3.1 23 True … 0.311 1 15 1.2 29 False … 0.171 1 16 2.2 58 True … 0.171 0 17 4.0 34 True … 0.132 1 18 1.1 63 True … 0.652 0
  • 21. EForest – Recordatorio Random Forest F1 F2 F3 … … … FN Y 1.5 25 False … 0.185 ??? 1 1 0 1 Majority Vote
  • 22. EForest F1 F2 F3 … … … FN Y 1 1.2 25 True … 0.185 1 2 3.4 55 False … 0.211 1 3 2.2 58 True … 0.171 0 4 4.0 34 True … 0.132 1 5 1.1 63 True … 0.652 0 6 0.7 61 False … 0.153 0 7 3.3 12 False … 0.477 1 8 3.1 23 True … 0.311 1 9 1.2 29 False … 0.171 1 10 3.4 45 True … 0.132 0 11 2.1 55 True … 0.652 1 12 1.7 19 False … 0.189 0 13 3.3 12 False … 0.477 1 14 3.1 23 True … 0.311 1 15 1.2 29 False … 0.171 1 16 2.2 58 True … 0.171 0 17 4.0 34 True … 0.132 1 18 1.1 63 True … 0.652 0
  • 23. EForest F1 F2 F3 … … … FN Y 1 1.2 25 True … 0.185 1 2 3.4 55 False … 0.211 1 3 2.2 58 True … 0.171 0 4 4.0 34 True … 0.132 1 5 1.1 63 True … 0.652 0 6 0.7 61 False … 0.153 0 7 3.3 12 False … 0.477 1 8 3.1 23 True … 0.311 1 9 1.2 29 False … 0.171 1 10 3.4 45 True … 0.132 0 11 2.1 55 True … 0.652 1 12 1.7 19 False … 0.189 0 13 3.3 12 False … 0.477 1 14 3.1 23 True … 0.311 1 15 1.2 29 False … 0.171 1 16 2.2 58 True … 0.171 0 17 4.0 34 True … 0.132 1 18 1.1 63 True … 0.652 0 Tree1 Tree2 Tree3 Y 1 1 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
  • 24. EForest Tree1 Tree2 Tree3 Y 1 1 1 0 1 2 1 0 1 1 3 1 1 1 0 4 0 1 0 1 5 0 0 0 0 6 1 0 1 0 7 0 1 0 1 8 0 1 0 1 9 1 0 1 1 10 1 1 0 0 11 0 1 0 1 12 0 0 1 0 13 1 0 1 1 14 1 1 0 1 15 1 1 0 1 16 0 0 1 0 17 0 1 0 1 18 1 0 0 0
  • 25. EForest: Vector vs Agregado Tree1 Tree2 Tree3 Y 1 1 1 0 1 2 1 0 1 1 3 1 1 1 0 4 0 1 0 1 5 0 0 0 0 6 1 0 1 0 7 0 1 0 1 8 0 1 0 1 Agg Y 1 2 1 2 2 1 3 3 0 4 0 1 5 1 0 6 2 0 7 1 1 8 1 1
  • 26. EForest: Proyectos • Detección autónomos vs particulares • Usuarios propensos a usar tarjetas de crédito
  • 30. Una cosa más: Challenge time!!! Kahoot.it ¿Cuánto sabes de IA, ML y Big Data? https://play.kahoot.it/#/lobby?quizId=e5984d86-88fb-49cc- aacc-4baaec119496
  • 31. Thanks and … See you soon! Thanks also to the organization Without whom this would not have been posible.