Successfully reported this slideshow.                                                                           Upcoming SlideShare
×

# RKHS, teoría y aplicaciones con machine learning

733 views

Published on

La idea de la plática es hacer un recorrido sobre los RKHS, (Reproducing Kernel Hilbert Spaces) que son el corazón de las máquinas de soporte vectorial, los cuales están unidas por el “Kernel Trick”, el truco favorito de los Científicos de Datos.
Por Alonso Baranda

Published in: Technology
• Full Name
Comment goes here.

Are you sure you want to Yes No • Be the first to comment

### RKHS, teoría y aplicaciones con machine learning

2. 2. Introducción SVM La idea de esta plática es presentar modelos de clasiﬁcación y regresión provenientes de Machine Learning llamadas máquinas de soporte vectorial (SVM) Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
3. 3. Introducción SVM La idea de esta plática es presentar modelos de clasiﬁcación y regresión provenientes de Machine Learning llamadas máquinas de soporte vectorial (SVM) Originalmente las SVM fueron desarrolladas para clasiﬁcación binaria, posteriormente se extendió la teoría para poder hacer hacer regresión y clasiﬁcación con M > 2 clases Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
4. 4. Introducción SVM La idea de esta plática es presentar modelos de clasiﬁcación y regresión provenientes de Machine Learning llamadas máquinas de soporte vectorial (SVM) Originalmente las SVM fueron desarrolladas para clasiﬁcación binaria, posteriormente se extendió la teoría para poder hacer hacer regresión y clasiﬁcación con M > 2 clases La idea empírica de las SVM, en el caso de clasiﬁcación, consiste en transformar (mapear) un conjunto de datos de entrenamiento XN×p ⊂ X, a un espacio H, la dimensión de H es por lo general mucho mayor a p, incluso puede ser inﬁnita. En este espacio se buscan fronteras de desición lineales π(H,v,b) := {w ∈ H : v, w H + b = 0}, para clasiﬁcar los datos Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
5. 5. Nociones Geométricas Hiperplano Óptimo de Separación Deﬁnición (Hiperplano) Sean β, p vectores en Rn con β = 0. Sea π := {x ∈ Rn : β · (x − p) = 0} (1) π es llamado el hiperplano que pasa por p ortogonal a β y β es llamado un vector normal al hiperplano π Deﬁnición (Conjunto Linealmente Separable) Sea XN×p una matriz con entradas reales y yi ∈ {1, −1} la clase del i–ésimo dato. Decimos que XN×p es linealmente separable si existen β ∈ Rp y β0 ∈ R tales que para 1 ≤ i ≤ N se cumple yi (xi · β + β0) > 0 (2) Alonso Baranda Lozada 13 de marzo de 2018 2 / 42
6. 6. Nociones Geométricas Hiperplano Óptimo de Separación Figura : Tenemos que yi (xi · β + β0) > 0 para 1 ≤ i ≤ N. El plano π representado por β · x + β0 = 0 separa linealmente a los datos de manera perfecta Alonso Baranda Lozada 13 de marzo de 2018 3 / 42
7. 7. Nociones Geométricas Hiperplano Óptimo de Separación La SVM en su forma más simple, es decir, en el caso linealmente separable se deﬁne como el siguiente problema de Optimización Convexa sup β∈Rp,β0∈R M sujeto a yi β (xi · β + β0) ≥ M, 1 ≤ i ≤ N (3) el cual es equivalente a ínfβ∈Rp,β0∈R 1 2 β 2 sujeto a yi (xi · β + β0) ≥ 1, 1 ≤ i ≤ N (4) La solucion se obtiene por medio del problema Dual de optimización convexa (utilizamos KKT) y está dado por: g∗ = sup α1,...,αN ,αi ≥0 − 1 2 N i=1 N k=1 (αi αkyi yk) (xi · xk) + N i=1 αi (5) Alonso Baranda Lozada 13 de marzo de 2018 4 / 42
8. 8. Nociones Geométricas Hiperplano Óptimo de Separación En (5), las restricciones son α = (α1, . . . αN) ∈ RN , αi ≥ 0, 1 ≤ i ≤ N, (6) N i=1 αi yi = 0 (7) Recuperamos β0 de las restricciones KKT y a β de la siguiente manera: β = N i=1 αi yi xi (8) ambos resultan únicos. Gran parte de los αi son cero, aquellos xi para los cuales αi > 0 son llamados Vectores Soporte, pues contribuyen en la combinación lineal para expresar el vector normal β del plano óptimo de separación en la ecuación (8), ver ﬁgura (2) Alonso Baranda Lozada 13 de marzo de 2018 5 / 42
9. 9. Nociones Geométricas Hiperplano Óptimo de Separación Figura : El valor M∗ de (3) equivale al valor 1 β∗ de (4). Los puntos azules + y − son vectores soporte y π0 es llamado el Hiperplano Óptimo de Separación Alonso Baranda Lozada 13 de marzo de 2018 6 / 42
10. 10. Nociones Geométricas Generalización del Caso No Separable Cuando el conjunto de datos NO es linealmente separable se plantea el siguiente problema de optimización convexa con penalizaciones f ∗ = ínfβ∈Rp,β0∈R,ξ∈RN 1 2 β 2 + C N i=1 ξi sujeto a yi (β · xi + β0) ≥ 1 − ξi , ξi ≥ 0, 1 ≤ i ≤ N (9) donde C es una constante positiva pre–establecida, que penaliza los errores, y su solución está dada por g∗ = sup 0≤(α,µ)∈R2N − 1 2 N i=1 N k=1 (αi αkyi yk) (xi · xk) + N i=1 αi (10) Alonso Baranda Lozada 13 de marzo de 2018 7 / 42
11. 11. Nociones Geométricas Generalización del Caso No Separable La solución anterior es analíticamente idéntica a 5, salvo por las restricciones que toman la forma: 0 ≤ αi ≤ C, 1 ≤ i ≤ N (11) N i=1 αi yi = 0, (12) Recuperamos a β0 de las restricciones KKT y a β de la misma manera, es decir, como en (8), ambos resultan ser únicos. Geométricamente la solución de 9 se muestra en la ﬁgura (3) Alonso Baranda Lozada 13 de marzo de 2018 8 / 42
12. 12. Nociones Geométricas Generalización del Caso No Separable Figura : Los puntos azules representan vectores soporte o valores para los cuales ξi > 0 Alonso Baranda Lozada 13 de marzo de 2018 9 / 42
13. 13. Nociones Geométricas Generalización del Caso No Separable Finalmente si x es una observación nueva, es decir, independiente a la muestra en entrenamiento, la clasiﬁcamos al la clase {1, −1} de la siguiente manera: y(x) = sign (β∗ · x + β∗ 0) Brevario Cultural: En el célebre artículo, Support Vector Networks (Machine Learning, 20, 273-297, 1995), Vapnik y Cortes introducen la Generalización del Caso No Separable, ver ecuación 9, el cual extiende el marco teórico de las SVM. Previamente solo existía el caso para conjuntos de datos linealmente separables, en este artículo se extienden las SVM al caso no separable Alonso Baranda Lozada 13 de marzo de 2018 10 / 42
14. 14. Máquinas de Soporte Vectorial Transformaciones del Espacio Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq dada por φ (x) = (φ1(x), . . . , φq(x)) (13) entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una Transformación del Espacio. En donde podemos aplicar los resultados del Hiperplano Óptimo de Separación o su Generalización ! Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
15. 15. Máquinas de Soporte Vectorial Transformaciones del Espacio Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq dada por φ (x) = (φ1(x), . . . , φq(x)) (13) entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una Transformación del Espacio. En donde podemos aplicar los resultados del Hiperplano Óptimo de Separación o su Generalización ! Figura : Ejemplo juguete, dos espirales simulados y posteriormente transformados. Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
16. 16. Máquinas de Soporte Vectorial Truco del Kernel Si deﬁnimos k : Rp × Rp → R dada por k x, x = φ(x) · φ(x ) (14) entonces la clasiﬁcación de una nueva observación x se puede calcular como y(x) = sign N i=1 αi yi k (xi , x) + β0 (15) La clasiﬁcación (15) es llamada una asignación de una máquina de soporte vectorial Las ecuaciones (14) y (15) tienen un signiﬁcado profundo, nos dicen que la transformación del espacio φ pasa a ser irrelevante si podemos encontrar k de manera que k (x, x ) = φ(x) · φ(x ) para todo x, x ∈ Rp, está propiedad es llamada Truco del Kernel Alonso Baranda Lozada 13 de marzo de 2018 12 / 42
17. 17. Máquinas de Soporte Vectorial Truco del Kernel El truco del kernel lo podremos extender (como su nombre lo indica) a funciones k mas generales, llamadas kernels. Existe una teoría robusta donde (15) es únicamente un caso particular de un problema de regularización mucho más general en un espacio de Hilbert de funciones llamado RKHS Alonso Baranda Lozada 13 de marzo de 2018 13 / 42
18. 18. Fundamentos Matemáticos El objetivo de esta sección es mostrar el camino y los conceptos necesarios para demostrar el Truco del Kernel, lo cual se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
19. 19. Fundamentos Matemáticos El objetivo de esta sección es mostrar el camino y los conceptos necesarios para demostrar el Truco del Kernel, lo cual se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
20. 20. Fundamentos Matemáticos Espacios de Hilbert Para hablar de SVM de manera formal necesitamos un Espacio donde trabajar. Los espacios donde viven las SVM son espacios de Hilbert, espacios que no tienen agujeros y que están provistos de una geometría, inducida por su producto interior Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
21. 21. Fundamentos Matemáticos Espacios de Hilbert Para hablar de SVM de manera formal necesitamos un Espacio donde trabajar. Los espacios donde viven las SVM son espacios de Hilbert, espacios que no tienen agujeros y que están provistos de una geometría, inducida por su producto interior Deﬁnición (Espacio de Hilbert) Un espacio de Hilbert H es un espacio vectorial completo con la métrica inducida por su producto interior ·, · H, es decir, con la siguiente métrica ρ(x, y) = x − y H = x − y, x − y 1 2 H Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
22. 22. Fundamentos Matemáticos Kernels Para entender las SVM requerimos tres nociones de kernel; una de naturaleza geométrica, otra analítica y otra práctica Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
23. 23. Fundamentos Matemáticos Kernels Para entender las SVM requerimos tres nociones de kernel; una de naturaleza geométrica, otra analítica y otra práctica Deﬁnición (Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada kernel si existe un espacio de Hilbert real H y una función φ: X → H tal que para todo x, y ∈ X, se tiene k (x, y) = φ(x), φ(y) H (16) Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
24. 24. Fundamentos Matemáticos Kernels Para entender las SVM requerimos tres nociones de kernel; una de naturaleza geométrica, otra analítica y otra práctica Deﬁnición (Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada kernel si existe un espacio de Hilbert real H y una función φ: X → H tal que para todo x, y ∈ X, se tiene k (x, y) = φ(x), φ(y) H (16) Esta deﬁnición es la mejor para entender las SVM Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
25. 25. Fundamentos Matemáticos Kernels Deﬁnición (Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones f : X → R. Una función k : X × X → R es llamada una kernel réplica de H si satisface: 1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H (k (·, x) ∈ H ∀x ∈ X). 2 Se cumple la propiedad de réplica: ∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x) Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
26. 26. Fundamentos Matemáticos Kernels Deﬁnición (Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones f : X → R. Una función k : X × X → R es llamada una kernel réplica de H si satisface: 1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H (k (·, x) ∈ H ∀x ∈ X). 2 Se cumple la propiedad de réplica: ∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x) La noción analítica se utiliza para construir y caracterizar los espacios RKHS Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
27. 27. Fundamentos Matemáticos Kernels Deﬁnición (Kernel simétrico deﬁnido semi–positivo (KSPD) - Práctica) Sea k una función simétrica, k : X × X → R. Decimos que k es un Kernel simétrico deﬁnido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1, ∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple n i=1 n j=1 ai aj k (xi , xj ) ≥ 0 (17) Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
28. 28. Fundamentos Matemáticos Kernels Deﬁnición (Kernel simétrico deﬁnido semi–positivo (KSPD) - Práctica) Sea k una función simétrica, k : X × X → R. Decimos que k es un Kernel simétrico deﬁnido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1, ∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple n i=1 n j=1 ai aj k (xi , xj ) ≥ 0 (17) La deﬁnición práctica, nos ayudará a dicernir si una función k es un kernel o no Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
29. 29. Fundamentos Matemáticos Kernels El siguiente diagrama de implicaciones nos dice como demostrar una deﬁnición a partir de la otra Alonso Baranda Lozada 13 de marzo de 2018 19 / 42
30. 30. Fundamentos Matemáticos Espacios RKHS Intuitivamente los espcaios RKHS son espacios de funciones que se comportan bien en el sentido de proximidad, si dos funciones estan próximas, sus evaluaciones puntuales también lo harán Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
31. 31. Fundamentos Matemáticos Espacios RKHS Intuitivamente los espcaios RKHS son espacios de funciones que se comportan bien en el sentido de proximidad, si dos funciones estan próximas, sus evaluaciones puntuales también lo harán Deﬁnición (Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de funciones f : X → R. Para x ∈ X ﬁjo, sea δx : H → R dada por δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
32. 32. Fundamentos Matemáticos Espacios RKHS Intuitivamente los espcaios RKHS son espacios de funciones que se comportan bien en el sentido de proximidad, si dos funciones estan próximas, sus evaluaciones puntuales también lo harán Deﬁnición (Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de funciones f : X → R. Para x ∈ X ﬁjo, sea δx : H → R dada por δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac Deﬁnición (RKHS) Sea H un espacio de Hilbert de funciones f : X → R. Decimos que H es un RKHS si para toda x ∈ X, la funcional de evaluación de Dirac δx es continua Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
33. 33. Fundamentos Matemáticos Espacios RKHS El Teorema de Caracterización muestra la relación que guardan los espacios RKHS con la noción de kernel y el Teorema de Moore–Aronszajn construye un espacio que es lugar donde viven las SVM Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
34. 34. Fundamentos Matemáticos Espacios RKHS El Teorema de Caracterización muestra la relación que guardan los espacios RKHS con la noción de kernel y el Teorema de Moore–Aronszajn construye un espacio que es lugar donde viven las SVM Teorema (Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H admite un Kernel Réplica Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
35. 35. Fundamentos Matemáticos Espacios RKHS El Teorema de Caracterización muestra la relación que guardan los espacios RKHS con la noción de kernel y el Teorema de Moore–Aronszajn construye un espacio que es lugar donde viven las SVM Teorema (Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H admite un Kernel Réplica Teorema Moore–Aronszajn Sea k : X × X → R un KSPD, entonces existe un único RKHS, H ⊆ RX , para el cual k es kernel Réplica Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
36. 36. Fundamentos Matemáticos Espacios RKHS Las SVM son un caso particular del siguiente teorema, el cual aﬁrma que las soluciones de una minimización de una funcional de riesgo en un RKHS son combinaciones lineales de la muestra de entrenamiento Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
37. 37. Fundamentos Matemáticos Espacios RKHS Las SVM son un caso particular del siguiente teorema, el cual aﬁrma que las soluciones de una minimización de una funcional de riesgo en un RKHS son combinaciones lineales de la muestra de entrenamiento Teorema (Teorema de Representación) Sea k : X × X → R un KSPD y H el RKHS asociado a k. Sean S = (x1, y1) , . . . , (xm, ym) ⊆ X × R, una muestra de entrenamiento, c : X × R2 m → R ∪ {∞} una función de penalización, g : [0, ∞) → R una función no decreciente, el problema de regularización ínfh∈Hc [(x1, y1, h(x1)) , . . . , (xm, ym, h(xm)))] + g ( h H) , puede ser resuelto considerando únicamente funciones f con la siguiente representación f (·) = m i=1 αi k(·, xi ) Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
38. 38. Fundamentos Matemáticos Espacios RKHS El Lema de Equivalencia, expresa el problema de optimización de SVM (caso no separable), como un método de penalización Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
39. 39. Fundamentos Matemáticos Espacios RKHS El Lema de Equivalencia, expresa el problema de optimización de SVM (caso no separable), como un método de penalización Lema (Equivalencia de SVM) El problema de optimización ínfβ∈Rp,b∈R N i=1 [1 − yi (β · xi + b)]+ + λ 2 β 2 (18) con λ = 1 C , es equivalente al problema de optimización de SVM (caso no separable) 1 C ínfβ∈Rp,b∈R,ξ∈RN C N i=1 ξi + 1 2 β 2 sujeto a ξi ≥ 0, ξi ≥ 1 − yi (β · xi + b) , 1 ≤ i ≤ N Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
40. 40. Fundamentos Matemáticos Espacios RKHS El truco del kernel expresa a las SVM como un problema de regularización en un RKHS Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
41. 41. Fundamentos Matemáticos Espacios RKHS El truco del kernel expresa a las SVM como un problema de regularización en un RKHS Teorema (Truco del Kernel) Sea k un KSPD en Rp, (k : Rp × Rp → R) y H el RKHS asociado a k. Entonces el problema de regularización Cínff ∈H,b∈R N i=1 (1 − yi (f (xi ) + b))+ + λ 2 f 2 H (19) con λ = 1 C es equivalente a solucionar g∗ = sup α∈RN + N i=1 αi − 1 2 N i,j=1 αi αj yi yj Kij (20) sujeto a 0 ≤ αi ≤ C (1 ≤ i ≤ N) y N i=1 αi yi = 0 Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
42. 42. Fundamentos Matemáticos Espacios RKHS El tour que acabamos de hacer se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
43. 43. Fundamentos Matemáticos Espacios RKHS El tour que acabamos de hacer se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
44. 44. Fundamentos Matemáticos Conclusiones SVM A partir de la deﬁnición geométrica de Kernel se puede demostrar que la frontera de desición, resulta ser un hiperplano en H: πH,β,b := {w ∈ H : φ(β), w H + b = 0}, donde β = N i=1 α∗ i y∗ i xi , la frontera de desición en el espacio original por lo general, no es lineal Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
45. 45. Fundamentos Matemáticos Conclusiones SVM A partir de la deﬁnición geométrica de Kernel se puede demostrar que la frontera de desición, resulta ser un hiperplano en H: πH,β,b := {w ∈ H : φ(β), w H + b = 0}, donde β = N i=1 α∗ i y∗ i xi , la frontera de desición en el espacio original por lo general, no es lineal La clasiﬁcación para una nueva observación x queda dada por f (x) = sign N i=1 αi yi k (xi , x) + b Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
46. 46. Fundamentos Matemáticos Conclusiones SVM A partir de la deﬁnición geométrica de Kernel se puede demostrar que la frontera de desición, resulta ser un hiperplano en H: πH,β,b := {w ∈ H : φ(β), w H + b = 0}, donde β = N i=1 α∗ i y∗ i xi , la frontera de desición en el espacio original por lo general, no es lineal La clasiﬁcación para una nueva observación x queda dada por f (x) = sign N i=1 αi yi k (xi , x) + b La grandeza del truco del kernel radica en que φ y H pasan a ser de cierta manera irrelevantes, su información está contenida en el kernel k Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
47. 47. Fundamentos Matemáticos Bonus ! Regresión SVM Introducimos la función de pérdida de Vapnik, ε–insensible que penaliza |y − f (x)|ε := (|y − f (x)| − ε)+ por predecir f (x) cuando el verdadero valor es y, su nombre se debe a que errores menores en valor absoluto a ε no son penalizados Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
48. 48. Fundamentos Matemáticos Bonus ! Regresión SVM Introducimos la función de pérdida de Vapnik, ε–insensible que penaliza |y − f (x)|ε := (|y − f (x)| − ε)+ por predecir f (x) cuando el verdadero valor es y, su nombre se debe a que errores menores en valor absoluto a ε no son penalizados La regresión SVM es el caso particular del teorema de representación aplicado a la función de pérdida de Vapnik, es decir «ınf f ∈H,b∈R C N i=1 (|yi − (f (xi ) + b)| − ε)+ + 1 2 f 2 Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
49. 49. Calibración y Validación Calibración En modelos estadísticos paramétricos de regresión (vía máxima verosimilitud) los parámetros estimados γ = (θ1, . . . , θd ) son por lo general únicos, encontramos γ que maximiza una función de verosimilitud Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
50. 50. Calibración y Validación Calibración En modelos estadísticos paramétricos de regresión (vía máxima verosimilitud) los parámetros estimados γ = (θ1, . . . , θd ) son por lo general únicos, encontramos γ que maximiza una función de verosimilitud Este no es el caso de SVM, cada estimación de una SVM se realiza con parámetros γ = (C, θ1, . . . , θd ) ﬁjos, aquí C es el parámetro de penalización y (θ1, . . . , θd ) los parámetros intrínsecos del kernel Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
51. 51. Calibración y Validación Calibración Para calibrar una SVM se utiliza Calibración Cruzada. Dada una muestra X se separa disjuntamente en dos muestras, desarrollo D y validación V , con X = D V Se considera un subconjunto ﬁnito del espacio de parámetros Γ = {γ1, . . . , γt}, de tal manera que al correr la SVM con todos los γi ∈ Γ sepamos que combinaciones de parámetros dan buenos resultados tanto en desarrollo como en validación Se escoge el parámetro γi ∈ Γ que haya mostrado buenos resultados tanto en desarrollo como en validación, se busca que el parámetro γi sea parsimonioso/intuitivo Alonso Baranda Lozada 13 de marzo de 2018 29 / 42
52. 52. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasiﬁcación binaria son los siguientes: • Tasa de error de clasiﬁcación (error rate) Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
53. 53. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasiﬁcación binaria son los siguientes: • Tasa de error de clasiﬁcación (error rate) • Estadístico KS muestral Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
54. 54. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasiﬁcación binaria son los siguientes: • Tasa de error de clasiﬁcación (error rate) • Estadístico KS muestral • Estadístico Gini muestral Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
55. 55. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasiﬁcación binaria son los siguientes: • Tasa de error de clasiﬁcación (error rate) • Estadístico KS muestral • Estadístico Gini muestral • Curvas CAP y ROC y sus estadísticos Accuracy Ratio y AUROC Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
56. 56. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
57. 57. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
58. 58. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial • k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
59. 59. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial • k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano • k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
60. 60. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial • k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano • k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial • k(x, x ) = tanh(θx · x + c), es el kernel tangente hiperbólico Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
62. 62. Clasiﬁcación Tablero Ajedrez Planteamiento Problema Problema de Clasiﬁcación en un Tablero de Ajedrez Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de validación V ⊂ C de tamaño M2 , dada por V = {x = (i, j)/M : 1 ≤ i, j ≤ M}, suponiendo que k = 8, deseamos encontrar una SVM mediante calibración cruzada que genere buena clasiﬁcación tanto en D como en V . Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
63. 63. Clasiﬁcación Tablero Ajedrez Planteamiento Problema Problema de Clasiﬁcación en un Tablero de Ajedrez Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de validación V ⊂ C de tamaño M2 , dada por V = {x = (i, j)/M : 1 ≤ i, j ≤ M}, suponiendo que k = 8, deseamos encontrar una SVM mediante calibración cruzada que genere buena clasiﬁcación tanto en D como en V . Utilizaremos RStudio y la librería kernlab para solucionar el problema Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
64. 64. Clasiﬁcación Tablero Ajedrez Solución del Problema Observaciones Pertinentes (a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo Alonso Baranda Lozada 13 de marzo de 2018 34 / 42