La idea de la plática es hacer un recorrido sobre los RKHS, (Reproducing Kernel Hilbert Spaces) que son el corazón de las máquinas de soporte vectorial, los cuales están unidas por el “Kernel Trick”, el truco favorito de los Científicos de Datos.
Por Alonso Baranda
Universidad Técnica Particular de Loja
Ciclo Académico Abril Agosto 2011
Carrera:Ciencias de la Computación
Docente: Ing. Ricardo Blacio Maldonado
Ciclo: Segundo
Bimestre: Primero
Conceptos fundamentales del Álgebra.
Ecuaciones y desigualdades.
Funciones y gráficas.
Funciones polinomiales y racionales.
Funciones exponenciales y logarítmicas.
contiene una amplia explicacion a temas complicados para algunos estudiates, eniendo ejemplos que ayudan a que se tengauna mejor comprension de los temas asi como de sus aplicaciones
Curso introductorio a las herramientas matemáticas básicas para finanzas. En este material se cubren temas de precálculo, sistemas lineales y matemáticas discretas.
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
La utilización de estructuras de datos adecuadas para cada problema hace que se simplifiquen en gran medida los tiempos de respuestas y la cantidad de cómputo realizada.
Por Nelson González
Onboarding new members into an engineering team is not easy on anyone. In a short period of time, the new team member is required to be able to bring professional
Por Victoriya Kalmanovich
El secreto para ser un desarrollador SeniorSoftware Guru
En esta charla platicaremos sobre el “secreto” y el camino para llegar a ser un desarrollador Senior, experiencia, consejos y recomendaciones que en estos 8 años
Por René Sandoval
Apache Airflow es una plataforma en la que podemos crear flujos de datos de manera programática, planificarlos y monitorear de manera centralizada.
Por Yesi Díaz
How thick data can improve big data analysis for business:Software Guru
En esta presentación hablaré sobre cómo el Análisis de Datos Gruesos, específicamente el análisis antropológico y semiótico, puede ayudar a mejorar los resultados del Big Data
Por Martin Cuitzeo
CoDi® es la nueva forma de realizar pagos digitales desarrollada por el Banco de México. Por medio de CoDi puedes realizar cobros y pagos desde tu celular, utilizando una cuenta bancaria o de alguna institución financiera, sin comisiones.
Por Cristian Jaramillo
Gestionando la felicidad de los equipos con Management 3.0Software Guru
En las metodologías agiles hablamos de equipos colaborativos, autogestionados y felices. hablamos de lideres serviciales. El management 3.0 nos ayuda a cultivar el mindset correcto, aquel que servirá como el terreno fértil para que la agilidad florezca.
Por Andrea Vélez Cárdenas
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
Hoy por hoy las experiences de usuario pueden ser enriquecidas mediante el uso de Web Components, que son un estándar de la W3C soportado por la mayoría de los navegadores web modernos.
Por Alex Arriaga
Así publicamos las apps de Spotify sin stressSoftware Guru
En Spotify tenemos 1600+ ingenieros, trabajando en 280+ squads. Aún a esta escala, hemos logrado adoptar prácticas que nos han permitido acelerar la forma en que desarrollamos nuestro producto. Presentado por Erick Camacho en SG Virtual Conference 2020
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
he measure of the executive, Peter F. Drucker reminds us, is the ability to "get the right things done." This involves having clarity on what are the right things as well as avoiding what is unproductive. Intelligence, creativity, and knowledge may all be wasted if not put to work on the things that matter.
Presentado por Cristina Nistor en SG Virtual Conference 2020
Acciones de comunidades tech en tiempos del Covid19Software Guru
Acciones de Comunidades Tech en tiempo del COVID-19 es una platica para informar acerca de las acciones que están realizando algunas comunidades de tecnología en México para luchar contra la propagación del COVID-19. Desde análisis de datos, visualizaciones, simulaciones de contagio, etc.
Presentado por Juana Martínez, Adriana Vallejo y Eduardo Ramírez en SG Virtual Conference 2020
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
La charla presenta un modelo claro, generado por la ponente, para atender los niveles desde lo operativo a lo estratégico.
Presentado por Gabriela Salinas en SG Virtual Conference
Catalogo General Electrodomesticos Teka Distribuidor Oficial Amado Salvador V...AMADO SALVADOR
El catálogo general de electrodomésticos Teka presenta una amplia gama de productos de alta calidad y diseño innovador. Como distribuidor oficial Teka, Amado Salvador ofrece soluciones en electrodomésticos Teka que destacan por su tecnología avanzada y durabilidad. Este catálogo incluye una selección exhaustiva de productos Teka que cumplen con los más altos estándares del mercado, consolidando a Amado Salvador como el distribuidor oficial Teka.
Explora las diversas categorías de electrodomésticos Teka en este catálogo, cada una diseñada para satisfacer las necesidades de cualquier hogar. Amado Salvador, como distribuidor oficial Teka, garantiza que cada producto de Teka se distingue por su excelente calidad y diseño moderno.
Amado Salvador, distribuidor oficial Teka en Valencia. La calidad y el diseño de los electrodomésticos Teka se reflejan en cada página del catálogo, ofreciendo opciones que van desde hornos, placas de cocina, campanas extractoras hasta frigoríficos y lavavajillas. Este catálogo es una herramienta esencial para inspirarse y encontrar electrodomésticos de alta calidad que se adaptan a cualquier proyecto de diseño.
En Amado Salvador somos distribuidor oficial Teka en Valencia y ponemos atu disposición acceso directo a los mejores productos de Teka. Explora este catálogo y encuentra la inspiración y los electrodomésticos necesarios para equipar tu hogar con la garantía y calidad que solo un distribuidor oficial Teka puede ofrecer.
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial ValenciaAMADO SALVADOR
Descubra el catálogo completo de buzones BTV, una marca líder en la fabricación de buzones y cajas fuertes para los sectores de ferretería, bricolaje y seguridad. Como distribuidor oficial de BTV, Amado Salvador se enorgullece de presentar esta amplia selección de productos diseñados para satisfacer las necesidades de seguridad y funcionalidad en cualquier entorno.
Descubra una variedad de buzones residenciales, comerciales y corporativos, cada uno construido con los más altos estándares de calidad y durabilidad. Desde modelos clásicos hasta diseños modernos, los buzones BTV ofrecen una combinación perfecta de estilo y resistencia, garantizando la protección de su correspondencia en todo momento.
Amado Salvador, se compromete a ofrecer productos de primera clase respaldados por un servicio excepcional al cliente. Como distribuidor oficial de BTV, entendemos la importancia de la seguridad y la tranquilidad para nuestros clientes. Por eso, trabajamos en colaboración con BTV para brindarle acceso a los mejores productos del mercado.
Explore el catálogo de buzones ahora y encuentre la solución perfecta para sus necesidades de correo y seguridad. Confíe en Amado Salvador y BTV para proporcionarle buzones de calidad excepcional que cumplan y superen sus expectativas.
HPE presenta una competició destinada a estudiants, que busca fomentar habilitats tecnològiques i promoure la innovació en un entorn STEAM (Ciència, Tecnologia, Enginyeria, Arts i Matemàtiques). A través de diverses fases, els equips han de resoldre reptes mensuals basats en àrees com algorísmica, desenvolupament de programari, infraestructures tecnològiques, intel·ligència artificial i altres tecnologies. Els millors equips tenen l'oportunitat de desenvolupar un projecte més gran en una fase presencial final, on han de crear una solució concreta per a un conflicte real relacionat amb la sostenibilitat. Aquesta competició promou la inclusió, la sostenibilitat i l'accessibilitat tecnològica, alineant-se amb els Objectius de Desenvolupament Sostenible de l'ONU.
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaAMADO SALVADOR
Descubre el catálogo general de la gama de productos de refrigeración del fabricante de electrodomésticos Miele, presentado por Amado Salvador distribuidor oficial Miele en Valencia. Como distribuidor oficial de electrodomésticos Miele, Amado Salvador ofrece una amplia selección de refrigeradores, congeladores y soluciones de refrigeración de alta calidad, resistencia y diseño superior de esta marca.
La gama de productos de Miele se caracteriza por su innovación tecnológica y eficiencia energética, garantizando que cada electrodoméstico no solo cumpla con las expectativas, sino que las supere. Los refrigeradores Miele están diseñados para ofrecer un rendimiento óptimo y una conservación perfecta de los alimentos, con características avanzadas como la tecnología de enfriamiento Dynamic Cooling, sistemas de almacenamiento flexible y acabados premium.
En este catálogo, encontrarás detalles sobre los distintos modelos de refrigeradores y congeladores Miele, incluyendo sus especificaciones técnicas, características destacadas y beneficios para el usuario. Amado Salvador, como distribuidor oficial de electrodomésticos Miele, garantiza que todos los productos cumplen con los más altos estándares de calidad y durabilidad.
Explora el catálogo completo y encuentra el refrigerador Miele perfecto para tu hogar con Amado Salvador, el distribuidor oficial de electrodomésticos Miele.
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor OficialAMADO SALVADOR
Explora el catálogo completo de cajas fuertes BTV, disponible a través de Amado Salvador, distribuidor oficial de BTV. Este catálogo presenta una amplia variedad de cajas fuertes, cada una diseñada con la más alta calidad para ofrecer la máxima seguridad y satisfacer las diversas necesidades de protección de nuestros clientes.
En Amado Salvador, como distribuidor oficial de BTV, ofrecemos productos que destacan por su innovación, durabilidad y robustez. Las cajas fuertes BTV son reconocidas por su eficiencia en la protección contra robos, incendios y otros riesgos, lo que las convierte en una opción ideal tanto para uso doméstico como comercial.
Amado Salvador, distribuidor oficial BTV, asegura que cada producto cumpla con los más estrictos estándares de calidad y seguridad. Al adquirir una caja fuerte a través de Amado Salvador, distribuidor oficial BTV, los clientes pueden tener la tranquilidad de que están obteniendo una solución confiable y duradera para la protección de sus pertenencias.
Este catálogo incluye detalles técnicos, características y opciones de personalización de cada modelo de caja fuerte BTV. Desde cajas fuertes empotrables hasta modelos de alta seguridad, Amado Salvador, como distribuidor oficial de BTV, tiene la solución perfecta para cualquier necesidad de seguridad. No pierdas la oportunidad de conocer todos los beneficios y características de las cajas fuertes BTV y protege lo que más valoras con la calidad y seguridad que solo BTV y Amado Salvador, distribuidor oficial BTV, pueden ofrecerte.
Informe DATA & IA 2024 Primera encuesta sobre el uso de IA en las empresas pe...
RKHS, teoría y aplicaciones con machine learning
1. RKHS, Teoría y Aplicaciones
con Machine Learning
Alonso Baranda Lozada
alonsobaranda@ciencias.unam.mx
alonso.baranda@tcs.com
https://sg.com.mx/dataday
#DataDayMxUsuario: Alonso Baranda Lozada
2. Introducción SVM
La idea de esta plática es presentar modelos de clasificación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
3. Introducción SVM
La idea de esta plática es presentar modelos de clasificación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Originalmente las SVM fueron desarrolladas para clasificación binaria,
posteriormente se extendió la teoría para poder hacer hacer
regresión y clasificación con M > 2 clases
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
4. Introducción SVM
La idea de esta plática es presentar modelos de clasificación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Originalmente las SVM fueron desarrolladas para clasificación binaria,
posteriormente se extendió la teoría para poder hacer hacer
regresión y clasificación con M > 2 clases
La idea empírica de las SVM, en el caso de clasificación, consiste en
transformar (mapear) un conjunto de datos de entrenamiento
XN×p ⊂ X, a un espacio H, la dimensión de H es por lo general
mucho mayor a p, incluso puede ser infinita. En este espacio se buscan
fronteras de desición lineales
π(H,v,b) := {w ∈ H : v, w H + b = 0},
para clasificar los datos
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
5. Nociones Geométricas Hiperplano Óptimo de Separación
Definición
(Hiperplano) Sean β, p vectores en Rn con β = 0. Sea
π := {x ∈ Rn
: β · (x − p) = 0} (1)
π es llamado el hiperplano que pasa por p ortogonal a β y β es llamado un
vector normal al hiperplano π
Definición
(Conjunto Linealmente Separable) Sea XN×p una matriz con entradas
reales y yi ∈ {1, −1} la clase del i–ésimo dato. Decimos que XN×p es
linealmente separable si existen β ∈ Rp y β0 ∈ R tales que para 1 ≤ i ≤ N
se cumple
yi (xi · β + β0) > 0 (2)
Alonso Baranda Lozada 13 de marzo de 2018 2 / 42
6. Nociones Geométricas Hiperplano Óptimo de Separación
Figura : Tenemos que yi (xi · β + β0) > 0 para 1 ≤ i ≤ N. El plano π
representado por β · x + β0 = 0 separa linealmente a los datos de manera perfecta
Alonso Baranda Lozada 13 de marzo de 2018 3 / 42
7. Nociones Geométricas Hiperplano Óptimo de Separación
La SVM en su forma más simple, es decir, en el caso linealmente
separable se define como el siguiente problema de Optimización
Convexa
sup
β∈Rp,β0∈R
M sujeto a
yi
β
(xi · β + β0) ≥ M, 1 ≤ i ≤ N (3)
el cual es equivalente a
ínfβ∈Rp,β0∈R
1
2
β 2
sujeto a yi (xi · β + β0) ≥ 1, 1 ≤ i ≤ N (4)
La solucion se obtiene por medio del problema Dual de optimización
convexa (utilizamos KKT) y está dado por:
g∗
= sup
α1,...,αN ,αi ≥0
−
1
2
N
i=1
N
k=1
(αi αkyi yk) (xi · xk) +
N
i=1
αi (5)
Alonso Baranda Lozada 13 de marzo de 2018 4 / 42
8. Nociones Geométricas Hiperplano Óptimo de Separación
En (5), las restricciones son
α = (α1, . . . αN) ∈ RN
, αi ≥ 0, 1 ≤ i ≤ N, (6)
N
i=1
αi yi = 0 (7)
Recuperamos β0 de las restricciones KKT y a β de la siguiente manera:
β =
N
i=1
αi yi xi (8)
ambos resultan únicos. Gran parte de los αi son cero, aquellos xi para los
cuales αi > 0 son llamados Vectores Soporte, pues contribuyen en la
combinación lineal para expresar el vector normal β del plano
óptimo de separación en la ecuación (8), ver figura (2)
Alonso Baranda Lozada 13 de marzo de 2018 5 / 42
9. Nociones Geométricas Hiperplano Óptimo de Separación
Figura : El valor M∗
de (3) equivale al valor 1
β∗ de (4). Los puntos azules + y
− son vectores soporte y π0 es llamado el Hiperplano Óptimo de Separación
Alonso Baranda Lozada 13 de marzo de 2018 6 / 42
10. Nociones Geométricas Generalización del Caso No Separable
Cuando el conjunto de datos NO es linealmente separable se plantea
el siguiente problema de optimización convexa con penalizaciones
f ∗
= ínfβ∈Rp,β0∈R,ξ∈RN
1
2
β 2
+ C
N
i=1
ξi sujeto a
yi (β · xi + β0) ≥ 1 − ξi , ξi ≥ 0, 1 ≤ i ≤ N (9)
donde C es una constante positiva pre–establecida, que penaliza los
errores, y su solución está dada por
g∗
= sup
0≤(α,µ)∈R2N
−
1
2
N
i=1
N
k=1
(αi αkyi yk) (xi · xk) +
N
i=1
αi (10)
Alonso Baranda Lozada 13 de marzo de 2018 7 / 42
11. Nociones Geométricas Generalización del Caso No Separable
La solución anterior es analíticamente idéntica a 5, salvo por las
restricciones que toman la forma:
0 ≤ αi ≤ C, 1 ≤ i ≤ N (11)
N
i=1
αi yi = 0, (12)
Recuperamos a β0 de las restricciones KKT y a β de la misma manera, es
decir, como en (8), ambos resultan ser únicos. Geométricamente la
solución de 9 se muestra en la figura (3)
Alonso Baranda Lozada 13 de marzo de 2018 8 / 42
12. Nociones Geométricas Generalización del Caso No Separable
Figura : Los puntos azules representan vectores soporte o valores para los cuales
ξi > 0
Alonso Baranda Lozada 13 de marzo de 2018 9 / 42
13. Nociones Geométricas Generalización del Caso No Separable
Finalmente si x es una observación nueva, es decir, independiente a la
muestra en entrenamiento, la clasificamos al la clase {1, −1} de la
siguiente manera:
y(x) = sign (β∗
· x + β∗
0)
Brevario Cultural: En el célebre artículo, Support Vector Networks
(Machine Learning, 20, 273-297, 1995), Vapnik y Cortes introducen
la Generalización del Caso No Separable, ver ecuación 9, el cual
extiende el marco teórico de las SVM. Previamente solo existía el caso
para conjuntos de datos linealmente separables, en este artículo se
extienden las SVM al caso no separable
Alonso Baranda Lozada 13 de marzo de 2018 10 / 42
14. Máquinas de Soporte Vectorial Transformaciones del Espacio
Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq
dada por
φ (x) = (φ1(x), . . . , φq(x)) (13)
entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una
Transformación del Espacio. En donde podemos aplicar los resultados
del Hiperplano Óptimo de Separación o su Generalización !
Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
15. Máquinas de Soporte Vectorial Transformaciones del Espacio
Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq
dada por
φ (x) = (φ1(x), . . . , φq(x)) (13)
entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una
Transformación del Espacio. En donde podemos aplicar los resultados
del Hiperplano Óptimo de Separación o su Generalización !
Figura : Ejemplo juguete, dos espirales simulados y posteriormente transformados.
Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
16. Máquinas de Soporte Vectorial Truco del Kernel
Si definimos k : Rp × Rp → R dada por
k x, x = φ(x) · φ(x ) (14)
entonces la clasificación de una nueva observación x se puede calcular como
y(x) = sign
N
i=1
αi yi k (xi , x) + β0 (15)
La clasificación (15) es llamada una asignación de una máquina de
soporte vectorial
Las ecuaciones (14) y (15) tienen un significado profundo, nos dicen
que la transformación del espacio φ pasa a ser irrelevante si
podemos encontrar k de manera que k (x, x ) = φ(x) · φ(x ) para todo
x, x ∈ Rp, está propiedad es llamada Truco del Kernel
Alonso Baranda Lozada 13 de marzo de 2018 12 / 42
17. Máquinas de Soporte Vectorial Truco del Kernel
El truco del kernel lo podremos extender (como su nombre lo indica) a
funciones k mas generales, llamadas kernels. Existe una teoría robusta
donde (15) es únicamente un caso particular de un problema de
regularización mucho más general en un espacio de Hilbert de
funciones llamado RKHS
Alonso Baranda Lozada 13 de marzo de 2018 13 / 42
18. Fundamentos Matemáticos
El objetivo de esta sección es mostrar el camino y los conceptos
necesarios para demostrar el Truco del Kernel, lo cual se resume en
el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
19. Fundamentos Matemáticos
El objetivo de esta sección es mostrar el camino y los conceptos
necesarios para demostrar el Truco del Kernel, lo cual se resume en
el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
20. Fundamentos Matemáticos Espacios de Hilbert
Para hablar de SVM de manera formal necesitamos un Espacio donde
trabajar. Los espacios donde viven las SVM son espacios de Hilbert,
espacios que no tienen agujeros y que están provistos de una
geometría, inducida por su producto interior
Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
21. Fundamentos Matemáticos Espacios de Hilbert
Para hablar de SVM de manera formal necesitamos un Espacio donde
trabajar. Los espacios donde viven las SVM son espacios de Hilbert,
espacios que no tienen agujeros y que están provistos de una
geometría, inducida por su producto interior
Definición
(Espacio de Hilbert) Un espacio de Hilbert H es un espacio vectorial
completo con la métrica inducida por su producto interior ·, · H, es decir,
con la siguiente métrica ρ(x, y) = x − y H = x − y, x − y
1
2
H
Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
22. Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica
Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
23. Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica
Definición
(Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada
kernel si existe un espacio de Hilbert real H y una función φ: X → H tal
que para todo x, y ∈ X, se tiene
k (x, y) = φ(x), φ(y) H (16)
Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
24. Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica
Definición
(Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada
kernel si existe un espacio de Hilbert real H y una función φ: X → H tal
que para todo x, y ∈ X, se tiene
k (x, y) = φ(x), φ(y) H (16)
Esta definición es la mejor para entender las SVM
Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
25. Fundamentos Matemáticos Kernels
Definición
(Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones
f : X → R. Una función k : X × X → R es llamada una kernel réplica de H
si satisface:
1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H
(k (·, x) ∈ H ∀x ∈ X).
2 Se cumple la propiedad de réplica:
∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x)
Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
26. Fundamentos Matemáticos Kernels
Definición
(Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones
f : X → R. Una función k : X × X → R es llamada una kernel réplica de H
si satisface:
1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H
(k (·, x) ∈ H ∀x ∈ X).
2 Se cumple la propiedad de réplica:
∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x)
La noción analítica se utiliza para construir y caracterizar los
espacios RKHS
Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
27. Fundamentos Matemáticos Kernels
Definición
(Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k
una función simétrica, k : X × X → R. Decimos que k es un Kernel
simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1,
∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple
n
i=1
n
j=1
ai aj k (xi , xj ) ≥ 0 (17)
Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
28. Fundamentos Matemáticos Kernels
Definición
(Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k
una función simétrica, k : X × X → R. Decimos que k es un Kernel
simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1,
∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple
n
i=1
n
j=1
ai aj k (xi , xj ) ≥ 0 (17)
La definición práctica, nos ayudará a dicernir si una función k es un
kernel o no
Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
29. Fundamentos Matemáticos Kernels
El siguiente diagrama de implicaciones nos dice como demostrar una
definición a partir de la otra
Alonso Baranda Lozada 13 de marzo de 2018 19 / 42
30. Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán
Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
31. Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán
Definición
(Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de
funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por
δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac
Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
32. Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán
Definición
(Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de
funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por
δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac
Definición
(RKHS) Sea H un espacio de Hilbert de funciones f : X → R. Decimos
que H es un RKHS si para toda x ∈ X, la funcional de evaluación de Dirac
δx es continua
Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
33. Fundamentos Matemáticos Espacios RKHS
El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM
Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
34. Fundamentos Matemáticos Espacios RKHS
El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM
Teorema
(Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H
admite un Kernel Réplica
Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
35. Fundamentos Matemáticos Espacios RKHS
El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM
Teorema
(Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H
admite un Kernel Réplica
Teorema
Moore–Aronszajn Sea k : X × X → R un KSPD, entonces existe un
único RKHS, H ⊆ RX , para el cual k es kernel Réplica
Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
36. Fundamentos Matemáticos Espacios RKHS
Las SVM son un caso particular del siguiente teorema, el cual afirma
que las soluciones de una minimización de una funcional de riesgo en
un RKHS son combinaciones lineales de la muestra de entrenamiento
Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
37. Fundamentos Matemáticos Espacios RKHS
Las SVM son un caso particular del siguiente teorema, el cual afirma
que las soluciones de una minimización de una funcional de riesgo en
un RKHS son combinaciones lineales de la muestra de entrenamiento
Teorema
(Teorema de Representación) Sea k : X × X → R un KSPD y H el
RKHS asociado a k. Sean S = (x1, y1) , . . . , (xm, ym) ⊆ X × R, una
muestra de entrenamiento, c : X × R2 m
→ R ∪ {∞} una función de
penalización, g : [0, ∞) → R una función no decreciente, el problema de
regularización
ínfh∈Hc [(x1, y1, h(x1)) , . . . , (xm, ym, h(xm)))] + g ( h H) ,
puede ser resuelto considerando únicamente funciones f con la siguiente
representación
f (·) =
m
i=1
αi k(·, xi )
Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
38. Fundamentos Matemáticos Espacios RKHS
El Lema de Equivalencia, expresa el problema de optimización de SVM
(caso no separable), como un método de penalización
Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
39. Fundamentos Matemáticos Espacios RKHS
El Lema de Equivalencia, expresa el problema de optimización de SVM
(caso no separable), como un método de penalización
Lema
(Equivalencia de SVM) El problema de optimización
ínfβ∈Rp,b∈R
N
i=1
[1 − yi (β · xi + b)]+ +
λ
2
β 2
(18)
con λ = 1
C , es equivalente al problema de optimización de SVM (caso no
separable)
1
C
ínfβ∈Rp,b∈R,ξ∈RN C
N
i=1
ξi +
1
2
β 2
sujeto a
ξi ≥ 0, ξi ≥ 1 − yi (β · xi + b) , 1 ≤ i ≤ N
Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
40. Fundamentos Matemáticos Espacios RKHS
El truco del kernel expresa a las SVM como un problema de
regularización en un RKHS
Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
41. Fundamentos Matemáticos Espacios RKHS
El truco del kernel expresa a las SVM como un problema de
regularización en un RKHS
Teorema
(Truco del Kernel) Sea k un KSPD en Rp, (k : Rp × Rp → R) y H el
RKHS asociado a k. Entonces el problema de regularización
Cínff ∈H,b∈R
N
i=1
(1 − yi (f (xi ) + b))+ +
λ
2
f 2
H (19)
con λ = 1
C es equivalente a solucionar
g∗
= sup
α∈RN
+
N
i=1
αi −
1
2
N
i,j=1
αi αj yi yj Kij (20)
sujeto a 0 ≤ αi ≤ C (1 ≤ i ≤ N) y N
i=1 αi yi = 0
Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
42. Fundamentos Matemáticos Espacios RKHS
El tour que acabamos de hacer se resume en el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
43. Fundamentos Matemáticos Espacios RKHS
El tour que acabamos de hacer se resume en el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
44. Fundamentos Matemáticos Conclusiones SVM
A partir de la definición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal
Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
45. Fundamentos Matemáticos Conclusiones SVM
A partir de la definición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal
La clasificación para una nueva observación x queda dada por
f (x) = sign
N
i=1
αi yi k (xi , x) + b
Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
46. Fundamentos Matemáticos Conclusiones SVM
A partir de la definición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal
La clasificación para una nueva observación x queda dada por
f (x) = sign
N
i=1
αi yi k (xi , x) + b
La grandeza del truco del kernel radica en que φ y H pasan a
ser de cierta manera irrelevantes, su información está contenida
en el kernel k
Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
47. Fundamentos Matemáticos Bonus ! Regresión SVM
Introducimos la función de pérdida de Vapnik, ε–insensible que
penaliza
|y − f (x)|ε := (|y − f (x)| − ε)+
por predecir f (x) cuando el verdadero valor es y, su nombre se debe a
que errores menores en valor absoluto a ε no son penalizados
Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
48. Fundamentos Matemáticos Bonus ! Regresión SVM
Introducimos la función de pérdida de Vapnik, ε–insensible que
penaliza
|y − f (x)|ε := (|y − f (x)| − ε)+
por predecir f (x) cuando el verdadero valor es y, su nombre se debe a
que errores menores en valor absoluto a ε no son penalizados
La regresión SVM es el caso particular del teorema de
representación aplicado a la función de pérdida de Vapnik, es
decir
«ınf
f ∈H,b∈R
C
N
i=1
(|yi − (f (xi ) + b)| − ε)+ +
1
2
f 2
Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
49. Calibración y Validación Calibración
En modelos estadísticos paramétricos de regresión (vía máxima
verosimilitud) los parámetros estimados
γ = (θ1, . . . , θd )
son por lo general únicos, encontramos γ que maximiza una función
de verosimilitud
Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
50. Calibración y Validación Calibración
En modelos estadísticos paramétricos de regresión (vía máxima
verosimilitud) los parámetros estimados
γ = (θ1, . . . , θd )
son por lo general únicos, encontramos γ que maximiza una función
de verosimilitud
Este no es el caso de SVM, cada estimación de una SVM se realiza
con parámetros γ = (C, θ1, . . . , θd ) fijos, aquí C es el parámetro de
penalización y (θ1, . . . , θd ) los parámetros intrínsecos del kernel
Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
51. Calibración y Validación Calibración
Para calibrar una SVM se utiliza Calibración Cruzada. Dada una
muestra X se separa disjuntamente en dos muestras, desarrollo D y
validación V , con
X = D V
Se considera un subconjunto finito del espacio de parámetros
Γ = {γ1, . . . , γt},
de tal manera que al correr la SVM con todos los γi ∈ Γ sepamos que
combinaciones de parámetros dan buenos resultados tanto en
desarrollo como en validación
Se escoge el parámetro γi ∈ Γ que haya mostrado buenos
resultados tanto en desarrollo como en validación, se busca que
el parámetro γi sea parsimonioso/intuitivo
Alonso Baranda Lozada 13 de marzo de 2018 29 / 42
52. Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
53. Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
• Estadístico KS muestral
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
54. Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
• Estadístico KS muestral
• Estadístico Gini muestral
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
55. Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
• Estadístico KS muestral
• Estadístico Gini muestral
• Curvas CAP y ROC y sus estadísticos Accuracy Ratio y AUROC
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
56. Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
57. Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
58. Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
59. Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano
• k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
60. Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano
• k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial
• k(x, x ) = tanh(θx · x + c), es el kernel tangente hiperbólico
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
61. Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez.
N observaciones son simuladas, distribuidas uniformemente en el cuadrado
C = [0, 1] × [0, 1].
El cuadrado C tiene una cuadrícula con cuadros blancos y negros, como un
tablero de ajedrez, y cada observación simulada en C pertenece al color
{blanco, negro} del cuadrado donde se encuentra. Formalmente, sea
1 < k ∈ N, para 1 ≤ l ≤ N, sea Xl = (xl,1, xl,2) las coordenadas del l-ésimo
dato simulado en C, definimos al , bl ∈ {1, . . . , k} como los enteros que
satisfacen
(al − 1)/k ≤ xl,1 < al /k, (bl − 1)/k ≤ xl,2 < bl /k,
la clase yl de Xl es -1 si
al + bl ≡ 0 m«od 2,
y 1 si
al + bl ≡ 1 m«od 2,
en este caso tenemos una cuadricula con c = k2
cuadrados.
Alonso Baranda Lozada 13 de marzo de 2018 32 / 42
62. Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez
Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de
validación V ⊂ C de tamaño M2
, dada por
V = {x = (i, j)/M : 1 ≤ i, j ≤ M},
suponiendo que k = 8, deseamos encontrar una SVM mediante calibración
cruzada que genere buena clasificación tanto en D como en V .
Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
63. Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez
Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de
validación V ⊂ C de tamaño M2
, dada por
V = {x = (i, j)/M : 1 ≤ i, j ≤ M},
suponiendo que k = 8, deseamos encontrar una SVM mediante calibración
cruzada que genere buena clasificación tanto en D como en V .
Utilizaremos RStudio y la librería kernlab para solucionar el problema
Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
64. Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene
c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo
Alonso Baranda Lozada 13 de marzo de 2018 34 / 42
65. Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene
c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo
(b) El número esperado de datos en cada cuadrado es de = N/64, en
particular N = 10, 000 genera de = 156.25 datos esperados por
cuadrado, mostraremos que fijando N = 10, 000 y M = 101, (en V
hay M2 = 10, 201 datos) se obtienen buenos resultados de
clasificacción tanto en D como en V
Alonso Baranda Lozada 13 de marzo de 2018 34 / 42
66. Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(c) El lector familiarizado con problemas de clasificación podrá observar
que un modelo logit con c = k2 = 64 variables indicadoras Zi (una
por cada cuadrado) es un modelo natural para solucionar el problema,
sin embargo, dicho lector conocedor podrá advertír que en este
modelo la solución se está dando como input
Alonso Baranda Lozada 13 de marzo de 2018 35 / 42
67. Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(c) El lector familiarizado con problemas de clasificación podrá observar
que un modelo logit con c = k2 = 64 variables indicadoras Zi (una
por cada cuadrado) es un modelo natural para solucionar el problema,
sin embargo, dicho lector conocedor podrá advertír que en este
modelo la solución se está dando como input
(d) Utilizaremos el kernel Gaussiano de base radial debido a que la
dimensión del espacio asociado H es infinita y está dado por
k (x, x ) = exp(−σ x − x 2
).
En la calibración cruzada, mostraremos que podemos encontrar una
SVM que obtenga buenos resultados de clasificacción tanto en D
como en V , variando únicamente el parámetro σ del kernel en
potencias de 2 y fijando el parámetro de penalización en C = 1.
Alonso Baranda Lozada 13 de marzo de 2018 35 / 42
68. Clasificación Tablero Ajedrez Solución del Problema
Figura : Muestra de Desarrollo D
Alonso Baranda Lozada 13 de marzo de 2018 36 / 42
69. Clasificación Tablero Ajedrez Solución del Problema
Figura : Cuadrícula de Validación V
Alonso Baranda Lozada 13 de marzo de 2018 37 / 42
70. Clasificación Tablero Ajedrez Solución del Problema
Figura : Sintaxis Calibración Cruzada
Alonso Baranda Lozada 13 de marzo de 2018 38 / 42
71. Clasificación Tablero Ajedrez Solución del Problema
Figura : Primera SVM, muestra mal desempeño, solo produce una clasificación
Alonso Baranda Lozada 13 de marzo de 2018 39 / 42
72. Clasificación Tablero Ajedrez Solución del Problema
Figura : Octava SVM, no hay buena discriminación ni en training ni en validación
Alonso Baranda Lozada 13 de marzo de 2018 39 / 42
73. Clasificación Tablero Ajedrez Solución del Problema
Figura : La catorceava SVM es candidata a ser la SVM mas parsimoniosa, debido
al accuracy obtenido y al número de vectores soporte
Alonso Baranda Lozada 13 de marzo de 2018 40 / 42
74. Clasificación Tablero Ajedrez Solución del Problema
Figura : La vigésimo cuarta SVM muestra overfit generalizado, el accuracy en la
muestra de validación es menor a 57 % y en desarrollo es del 100 %
Alonso Baranda Lozada 13 de marzo de 2018 41 / 42
75. Contacto Contacto
Usuario: Alonso Baranda Lozada
alonsobaranda@ciencias.unam.mx
alonso.baranda@tcs.com
Alonso Baranda Lozada 13 de marzo de 2018 42 / 42