Your SlideShare is downloading. ×
Aprendizaje de Maquinas (PAC)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Aprendizaje de Maquinas (PAC)

1,264
views

Published on

Una pequeña introducción al concepto de Aprendizaje PAC

Una pequeña introducción al concepto de Aprendizaje PAC

Published in: Education, Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,264
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Teor´ de Aprendizaje Computacional ıa Inteligencia Artificial 2009 Eduardo Alcayaga Cort´s e 18 de noviembre de 2009 Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 1 / 26
  • 2. Contenidos 1 Introducci´n o Definiciones 2 Aprendizaje PAC Teorema Fundamental Algoritmo Funciones linealmente separables 3 Dicotomias lineales 4 Dimensiones VC y aprendizaje PAC Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 2 / 26
  • 3. Introducci´n o Definiciones Probabilidad aproximadamente correcta (PAC) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 3 / 26
  • 4. Introducci´n o Definiciones Definiciones Ξ: Conjunto de entrenamiento de vectores n-dimensionales Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 4 / 26
  • 5. Introducci´n o Definiciones Definiciones Ξ: Conjunto de entrenamiento de vectores n-dimensionales F : Funci´n de destino, o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 4 / 26
  • 6. Introducci´n o Definiciones Definiciones Ξ: Conjunto de entrenamiento de vectores n-dimensionales F : Funci´n de destino, o P(X ): Probabilidad de que un vector X este presente en Ξ Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 4 / 26
  • 7. Introducci´n o Definiciones Definici´n del problema o Se debe hallar una funci´n h(x) basada en las muestras etiquetadas o en Ξ. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 5 / 26
  • 8. Introducci´n o Definiciones Definici´n del problema o Se debe hallar una funci´n h(x) basada en las muestras etiquetadas o en Ξ. En la teor´ PAC a h(x) se le conoce como hip´tesis. ıa o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 5 / 26
  • 9. Introducci´n o Definiciones Definici´n del problema o Se debe hallar una funci´n h(x) basada en las muestras etiquetadas o en Ξ. En la teor´ PAC a h(x) se le conoce como hip´tesis. ıa o Se asume que la funci´n de destino f pertenece a un conjunto de o funciones C . Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 5 / 26
  • 10. Introducci´n o Definiciones Definici´n del problema o Se debe hallar una funci´n h(x) basada en las muestras etiquetadas o en Ξ. En la teor´ PAC a h(x) se le conoce como hip´tesis. ıa o Se asume que la funci´n de destino f pertenece a un conjunto de o funciones C . Se asume que la hip´tesis h, es un elemento del conjunto de hip´tesis o o H, conocido como espacio de hip´tesis. o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 5 / 26
  • 11. Introducci´n o Definiciones Definici´n del problema o Se debe hallar una funci´n h(x) basada en las muestras etiquetadas o en Ξ. En la teor´ PAC a h(x) se le conoce como hip´tesis. ıa o Se asume que la funci´n de destino f pertenece a un conjunto de o funciones C . Se asume que la hip´tesis h, es un elemento del conjunto de hip´tesis o o H, conocido como espacio de hip´tesis. o H incluye a C . Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 5 / 26
  • 12. Introducci´n o Definiciones Visualizaci´n del problema o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 6 / 26
  • 13. Introducci´n o Definiciones Definici´n del error o En general h no es id´ntica a f . e Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 7 / 26
  • 14. Introducci´n o Definiciones Definici´n del error o En general h no es id´ntica a f . e Se define el error de h como: ξh = P(x) x:h(x)=f (x) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 7 / 26
  • 15. Introducci´n o Definiciones Definici´n del error o En general h no es id´ntica a f . e Se define el error de h como: ξh = P(x) x:h(x)=f (x) Se dice que h es aproximadamente (excepto por ξ) correcto si ξh ≤ ξ, donde ξ es el par´metro de precisi´n. a o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 7 / 26
  • 16. Introducci´n o Definiciones Definici´n del error o En general h no es id´ntica a f . e Se define el error de h como: ξh = P(x) x:h(x)=f (x) Se dice que h es aproximadamente (excepto por ξ) correcto si ξh ≤ ξ, donde ξ es el par´metro de precisi´n. a o Se dice que h es probablemente (excepto por δ) aproximadamente correcto si PAC ≥ 1 − δ, donde δ es el valor de confianza. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 7 / 26
  • 17. Introducci´n o Definiciones Definici´n de aprendizaje P.A.C. o Se dice que el algoritmo de aprendizaje P.A.C. para C en t´rminos de e H entregar´ una hip´tesis h tal que tenga una probabilidad de al a o menos (1 − δ), ξh ≤ ξ. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 8 / 26
  • 18. Introducci´n o Definiciones Definici´n de aprendizaje P.A.C. o Se dice que el algoritmo de aprendizaje P.A.C. para C en t´rminos de e H entregar´ una hip´tesis h tal que tenga una probabilidad de al a o menos (1 − δ), ξh ≤ ξ. Tal hip´tesis se le llama: probablemente (excepto por δ) o aproximadamente (excepto por ξ) correcta. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 8 / 26
  • 19. Introducci´n o Definiciones Definici´n de clase P.A.C. de aprendizaje polinomial o Una clase C es P.A.C. de aprendizaje polinomial en t´rminos de H si e existe un algoritmo te tiempo polinomial (polinomial en el n´mero de u muestras necesarias) que P.A.C. aprenda funciones en C en t´rminos e de H. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 9 / 26
  • 20. Introducci´n o Definiciones Definici´n de clase P.A.C. de aprendizaje polinomial o Una clase C es P.A.C. de aprendizaje polinomial en t´rminos de H si e existe un algoritmo te tiempo polinomial (polinomial en el n´mero de u muestras necesarias) que P.A.C. aprenda funciones en C en t´rminos e de H. Inicialmente se pensaba que todos los casos eran polinomiales, hoy se sabe que hay casos NP. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 9 / 26
  • 21. Aprendizaje PAC Teorema Fundamental Primera impresi´n o Suponga que nuestro algoritmo de aprendizaje selecciona alg´n h de u manera aleatoria entre aquellos que son consistentes con f entre los m patrones de entrenamiento. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 10 / 26
  • 22. Aprendizaje PAC Teorema Fundamental Primera impresi´n o Suponga que nuestro algoritmo de aprendizaje selecciona alg´n h de u manera aleatoria entre aquellos que son consistentes con f entre los m patrones de entrenamiento. La probabilidad de que el error de est´ selecci´n aleatoria de h sea a o mayor que alg´n ξ, con h consistente con los valores de f (x) para m u instancias de x, es menor o igual que |H|e −ξm , donde Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 10 / 26
  • 23. Aprendizaje PAC Teorema Fundamental Teorema, por Blumer Sea H cualquier conjunto de hip´tesis. o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 11 / 26
  • 24. Aprendizaje PAC Teorema Fundamental Teorema, por Blumer Sea H cualquier conjunto de hip´tesis. o Ξ es un conjunto de m ≥ 1 ejemplos de entrenamientos obtenidos de manera aleatoria de acuerdo a una distribuci´n P. o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 11 / 26
  • 25. Aprendizaje PAC Teorema Fundamental Teorema, por Blumer Sea H cualquier conjunto de hip´tesis. o Ξ es un conjunto de m ≥ 1 ejemplos de entrenamientos obtenidos de manera aleatoria de acuerdo a una distribuci´n P. o f sea cualquier clasificaci´n de funciones en H. o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 11 / 26
  • 26. Aprendizaje PAC Teorema Fundamental Teorema, por Blumer Sea H cualquier conjunto de hip´tesis. o Ξ es un conjunto de m ≥ 1 ejemplos de entrenamientos obtenidos de manera aleatoria de acuerdo a una distribuci´n P. o f sea cualquier clasificaci´n de funciones en H. o ξ > 0. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 11 / 26
  • 27. Aprendizaje PAC Teorema Fundamental Teorema, por Blumer Sea H cualquier conjunto de hip´tesis. o Ξ es un conjunto de m ≥ 1 ejemplos de entrenamientos obtenidos de manera aleatoria de acuerdo a una distribuci´n P. o f sea cualquier clasificaci´n de funciones en H. o ξ > 0. La probabilidad de que exista una hip´tesis h consistente con f para o los elementos de Ξ pero con un error mayor que ξ es al menos |H|e −ξm . Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 11 / 26
  • 28. Aprendizaje PAC Teorema Fundamental Corolario Dado m ≥ (1/ξ)(ln|H| + ln(1/δ)) muestras independientes. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 12 / 26
  • 29. Aprendizaje PAC Teorema Fundamental Corolario Dado m ≥ (1/ξ)(ln|H| + ln(1/δ)) muestras independientes. La probabilidad de que exista una hip´tesis en H que sea consistente o con f en ´stas muestras y que posea un error mayor que ξ es al e menos δ. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 12 / 26
  • 30. Aprendizaje PAC Teorema Fundamental Ejemplo Sea H el conjunto de t´rminos (conjunci´n de literales). Entonces e o |H| = 3n. m ≥ (1/ξ)(ln|H| + ln(1/δ)) m ≥ (1/ξ)(1,1n + ln(1/δ) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 13 / 26
  • 31. Aprendizaje PAC Teorema Fundamental Ejemplo Sea H el conjunto de t´rminos (conjunci´n de literales). Entonces e o |H| = 3n. m ≥ (1/ξ)(ln|H| + ln(1/δ)) m ≥ (1/ξ)(1,1n + ln(1/δ) Para n = 50, ξ = 0,01 y δ = 0,01, m ≥ 5,961 garantiza un aprendizaje PAC. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 13 / 26
  • 32. Aprendizaje PAC Algoritmo Algoritmo Dado un conjunto de entrenamientos Ξ de m ejemplos. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 14 / 26
  • 33. Aprendizaje PAC Algoritmo Algoritmo Dado un conjunto de entrenamientos Ξ de m ejemplos. Buscar el primer patr´n llamado x1 , en la lista que este etiquetado o con 1. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 14 / 26
  • 34. Aprendizaje PAC Algoritmo Algoritmo Dado un conjunto de entrenamientos Ξ de m ejemplos. Buscar el primer patr´n llamado x1 , en la lista que este etiquetado o con 1. Inicie la funci´n booleana h con a la conjunci´n de los n-literales o o correspondientes a los valores de los n-componentes de xi (Componentes que tienen valor 1 tendr´n literales positivos a correspondientes, componentes con valor 0 tendr´n sus a correspondientes literales negativos) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 14 / 26
  • 35. Aprendizaje PAC Algoritmo Algoritmo Dado un conjunto de entrenamientos Ξ de m ejemplos. Buscar el primer patr´n llamado x1 , en la lista que este etiquetado o con 1. Inicie la funci´n booleana h con a la conjunci´n de los n-literales o o correspondientes a los valores de los n-componentes de xi (Componentes que tienen valor 1 tendr´n literales positivos a correspondientes, componentes con valor 0 tendr´n sus a correspondientes literales negativos) Si no existe alg´n patr´n etiquetado como 1, entonces se finaliza con u o el concepto nulo (h ≡ 0 para todos los patrones). Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 14 / 26
  • 36. Aprendizaje PAC Algoritmo Algoritmo Dado un conjunto de entrenamientos Ξ de m ejemplos. Buscar el primer patr´n llamado x1 , en la lista que este etiquetado o con 1. Inicie la funci´n booleana h con a la conjunci´n de los n-literales o o correspondientes a los valores de los n-componentes de xi (Componentes que tienen valor 1 tendr´n literales positivos a correspondientes, componentes con valor 0 tendr´n sus a correspondientes literales negativos) Si no existe alg´n patr´n etiquetado como 1, entonces se finaliza con u o el concepto nulo (h ≡ 0 para todos los patrones). Entonces para cada patr´n adicional xi que se encuentre etiquetado o con 1, borramos desde h cualquier variable booleana que aparezca en xi con un signo diferente de su signo en h. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 14 / 26
  • 37. Aprendizaje PAC Algoritmo Algoritmo Despu´s de procesar todos los patrones etiquetados con 1, verificamos e todos los patrones etiquetados con 0 para asegurarnos que ninguno est´ asignado a 1 por h. e Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 15 / 26
  • 38. Aprendizaje PAC Algoritmo Algoritmo Despu´s de procesar todos los patrones etiquetados con 1, verificamos e todos los patrones etiquetados con 0 para asegurarnos que ninguno est´ asignado a 1 por h. e Si en cualquier momento del algoritmo, cualquier patr´n etiquetado o con 0 es asignado a 1 por h, entonces no existe un termino que clasifique consistentemente el patr´n en Ξ, y se finaliza con error. o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 15 / 26
  • 39. Aprendizaje PAC Algoritmo Algoritmo Despu´s de procesar todos los patrones etiquetados con 1, verificamos e todos los patrones etiquetados con 0 para asegurarnos que ninguno est´ asignado a 1 por h. e Si en cualquier momento del algoritmo, cualquier patr´n etiquetado o con 0 es asignado a 1 por h, entonces no existe un termino que clasifique consistentemente el patr´n en Ξ, y se finaliza con error. o En caso contrario se entrega como salida a h. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 15 / 26
  • 40. Aprendizaje PAC Algoritmo Ejemplo Considere los siguientes patrones: (0, 1, 1, 0) (1, 1, 1, 0) (1, 1, 0, 0) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 16 / 26
  • 41. Aprendizaje PAC Algoritmo Ejemplo Considere los siguientes patrones: (0, 1, 1, 0) ←− (1, 1, 1, 0) (1, 1, 0, 0) Evaluando patr´n 1: h = x1 x2 x3 x4 o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 16 / 26
  • 42. Aprendizaje PAC Algoritmo Ejemplo Considere los siguientes patrones: (0, 1, 1, 0) (1, 1, 1, 0) ←− (1, 1, 0, 0) Evaluando patr´n 2: h = x2 x3 x4 o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 16 / 26
  • 43. Aprendizaje PAC Algoritmo Ejemplo Considere los siguientes patrones: (0, 1, 1, 0) (1, 1, 1, 0) (1, 1, 0, 0) ←− Evaluando patr´n 3: h = x2 x4 o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 16 / 26
  • 44. Aprendizaje PAC Algoritmo Ejemplo Considere los siguientes patrones: (0, 1, 1, 0) (1, 1, 1, 0) (1, 1, 0, 0) Evaluando patr´n 1: h = x1 x2 x3 x4 o Evaluando patr´n 2: h = x2 x3 x4 o Evaluando patr´n 3: h = x2 x4 o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 16 / 26
  • 45. Aprendizaje PAC Funciones linealmente separables Ejemplo Sea H el conjunto de todas las funciones linealmente separables. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 17 / 26
  • 46. Aprendizaje PAC Funciones linealmente separables Ejemplo Sea H el conjunto de todas las funciones linealmente separables. 2 Entonces, |H| ≤ 2n , y m ≥ (1/ξ)(n2 ln2 + ln(1/δ)) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 17 / 26
  • 47. Aprendizaje PAC Funciones linealmente separables Ejemplo Sea H el conjunto de todas las funciones linealmente separables. 2 Entonces, |H| ≤ 2n , y m ≥ (1/ξ)(n2 ln2 + ln(1/δ)) Para n = 50, ξ = 0,01 y δ = 0,01, m ≥ 173,748; lo que garantiza el aprendizaje P.A.C. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 17 / 26
  • 48. Aprendizaje PAC Funciones linealmente separables Ejemplo Sea H el conjunto de todas las funciones linealmente separables. 2 Entonces, |H| ≤ 2n , y m ≥ (1/ξ)(n2 ln2 + ln(1/δ)) Para n = 50, ξ = 0,01 y δ = 0,01, m ≥ 173,748; lo que garantiza el aprendizaje P.A.C. Para mostrar que las funciones son linealmente separables son apropiadamente aprendibles P.A.C., se debe mostrar mostrar adicionalmente que se puede encontrar una hip´tesis h en un tiempo o polinomial m y n, consistente con un conjunto de m patrones etiquetados linealmente separables. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 17 / 26
  • 49. Aprendizaje PAC Funciones linealmente separables Algunas clases propiamente P.A.C. aprendibles H |H| Costo Temporal terminos 3n polinomial k terminos disjuntos 2O(kn) NP-Hard k una disjunci´n de terminos de tama˜o k o n 2O(n ) polinomial k una conjunci´n de clausulas de tama˜o k o n 2O(n ) polinomial k listas de decisi´n con terminos de tama˜o k o n 2O(n klg (n)) polinomial 2 separaci´n de lineas o 2O(n ) polinomial Con pesos (0,1) ? NP-Hard k-2NN ? NP-Hard n Todas las funciones boleanas 22 NP-Hard Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 18 / 26
  • 50. Dicotomias lineales Dicotomias lineales Considerar un grupo H de funciones y un grupo E de patrones no etiquetados. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 19 / 26
  • 51. Dicotomias lineales Dicotomias lineales Considerar un grupo H de funciones y un grupo E de patrones no etiquetados. Una medida del poder expresivo de un set de hip´tesis, relativo a E , es o la habilidad de hacer una clasificaci´n arbitraria de los patrones en E . o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 19 / 26
  • 52. Dicotomias lineales Dicotomias lineales Considerar un grupo H de funciones y un grupo E de patrones no etiquetados. Una medida del poder expresivo de un set de hip´tesis, relativo a E , es o la habilidad de hacer una clasificaci´n arbitraria de los patrones en E . o Si hay m patrones, existen 2m maneras de ordenar estos patrones en 2 grupos disjuntos y exhaustivos. O sea se puede decir que hay 2m dicotom´ de E . ıas Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 19 / 26
  • 53. Dicotomias lineales Dicotomias lineales Considerar un grupo H de funciones y un grupo E de patrones no etiquetados. Una medida del poder expresivo de un set de hip´tesis, relativo a E , es o la habilidad de hacer una clasificaci´n arbitraria de los patrones en E . o Si hay m patrones, existen 2m maneras de ordenar estos patrones en 2 grupos disjuntos y exhaustivos. O sea se puede decir que hay 2m dicotom´ de E . ıas Pero un subconjunto H de funciones booleanas, puede que no sea capaz de dicotomizar un grupo arbitrario, E , de m patrones booleanos en las todas las 2m maneras. Pero si un grupo de funciones H puede llegar a dicotomizar un grupo de patrones en sus 2m maneras, estonces H rompe a E . Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 19 / 26
  • 54. Dicotomias lineales Ejemplo En un espacio n-Dimensional de R n , se consideran un grupo E de m patrones, se define una dicotom´ lineal como un hiperplano definido ıa en (n − 1)-dimensiones. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 20 / 26
  • 55. Dicotomias lineales Ejemplo En un espacio n-Dimensional de R n , se consideran un grupo E de m patrones, se define una dicotom´ lineal como un hiperplano definido ıa en (n − 1)-dimensiones. Como se muestra en la figura existen 14 dicotomias de 4 puntos en 2 dimensiones 7 6 5 2 1 3 4 Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 20 / 26
  • 56. Dicotomias lineales Ejemplo Son 14 por el hecho de que el n´mero de dicotom´ u ıas est´ determinado por: a n ΠL (m, n) = 2 C (m − 1, i) para m > n, y i=0 = 2m para m ≤ n Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 21 / 26
  • 57. Dicotomias lineales Ejemplo Son 14 por el hecho de que el n´mero de dicotom´ u ıas est´ determinado por: a n ΠL (m, n) = 2 C (m − 1, i) para m > n, y i=0 = 2m para m ≤ n Donde C (m − 1, i) es el coeficiente binomial (m − 1)! (m − 1 − i)!i! Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 21 / 26
  • 58. Dicotomias lineales Ejemplo n (Dimensi´n) o m (Patrones) 1 2 3 4 5 1 2 2 2 2 2 2 4 4 4 4 4 3 6 8 8 8 8 4 8 14 16 16 16 5 10 22 30 32 32 6 12 32 52 62 64 7 14 44 84 114 126 8 16 58 128 198 240 La clase de dicotom´ lineales rompe los m patrones si m < n. ıas Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 22 / 26
  • 59. Dicotomias lineales Ejemplo n (Dimensi´n) o m (Patrones) 1 2 3 4 5 1 2 2 2 2 2 2 4 4 4 4 4 3 6 8 8 8 8 4 8 14 16 16 16 5 10 22 30 32 32 6 12 32 52 62 64 7 14 44 84 114 126 8 16 58 128 198 240 La clase de dicotom´ lineales rompe los m patrones si m < n. ıas Los valores en negritas corresponden a los valores m´s altos de m a para los cuales las dicotom´ lineales rompen m patrones en n ıas dimensiones. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 22 / 26
  • 60. Dicotomias lineales Capacidad Sea Pm,n = πL (m, n)/2m la probabilidad de que una dicotom´ elegida ıa al azar sea linealmente separable. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 23 / 26
  • 61. Dicotomias lineales Capacidad Sea Pm,n = πL (m, n)/2m la probabilidad de que una dicotom´ elegida ıa al azar sea linealmente separable. Notar que para valores de n grandes (n > 30 ) Pm,n cae r´pidamente a de 1 a 0, mientras m va debajo de 2(n + 1). Para m < 2(n + 1), cualquier dicotom´ de los m puntos es casi ciertamente linealmente ıa separable. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 23 / 26
  • 62. Dicotomias lineales Capacidad Sea Pm,n = πL (m, n)/2m la probabilidad de que una dicotom´ elegida ıa al azar sea linealmente separable. Notar que para valores de n grandes (n > 30 ) Pm,n cae r´pidamente a de 1 a 0, mientras m va debajo de 2(n + 1). Para m < 2(n + 1), cualquier dicotom´ de los m puntos es casi ciertamente linealmente ıa separable. Pero para m > 2(n + 1) solo algunas elegidas al azar pueden lograr esto. Por eso se dice que m = 2(n + 1) es la capacidad. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 23 / 26
  • 63. Dicotomias lineales Capacidad Sea Pm,n = πL (m, n)/2m la probabilidad de que una dicotom´ elegida ıa al azar sea linealmente separable. Notar que para valores de n grandes (n > 30 ) Pm,n cae r´pidamente a de 1 a 0, mientras m va debajo de 2(n + 1). Para m < 2(n + 1), cualquier dicotom´ de los m puntos es casi ciertamente linealmente ıa separable. Pero para m > 2(n + 1) solo algunas elegidas al azar pueden lograr esto. Por eso se dice que m = 2(n + 1) es la capacidad. ”Los resultados parecen indicar la siguiente regla heur´ ıstica. Si M ejemplos pueden ser correctamente clasificados por una red con W pesos, la red puede hacer una fracci´n ξ de errores en nuevos ejemplos o elegidos de la misma distribuci´n uniforme donde ξ = W /M” o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 23 / 26
  • 64. Dicotomias lineales Un resultado de capacidad aun m´s general a En general se denota el n´mero m´ximo de dicotom´ dentro de u a ıas cualquier grupo de m patrones n-dimensionales. Por hip´tesis en H o como ΠH (m, n). Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 24 / 26
  • 65. Dicotomias lineales Un resultado de capacidad aun m´s general a En general se denota el n´mero m´ximo de dicotom´ dentro de u a ıas cualquier grupo de m patrones n-dimensionales. Por hip´tesis en H o como ΠH (m, n). El n´mero de dicotom´ ser´ determinado de acuerdo a la disposici´n u ıas a o de los m puntos en el espacio n-dimensional se toma ΠH (m, n) a ser el m´ximo entre todos los posibles ordenamientos. a Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 24 / 26
  • 66. Dicotomias lineales Un resultado de capacidad aun m´s general a En general se denota el n´mero m´ximo de dicotom´ dentro de u a ıas cualquier grupo de m patrones n-dimensionales. Por hip´tesis en H o como ΠH (m, n). El n´mero de dicotom´ ser´ determinado de acuerdo a la disposici´n u ıas a o de los m puntos en el espacio n-dimensional se toma ΠH (m, n) a ser el m´ximo entre todos los posibles ordenamientos. a Para cada clase H, habr´ un n´mero m´ximo de m para los cuales a u a ΠH (m, n) = 2m , para que H pueda romper los m patrones. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 24 / 26
  • 67. Dicotomias lineales Un resultado de capacidad aun m´s general a En general se denota el n´mero m´ximo de dicotom´ dentro de u a ıas cualquier grupo de m patrones n-dimensionales. Por hip´tesis en H o como ΠH (m, n). El n´mero de dicotom´ ser´ determinado de acuerdo a la disposici´n u ıas a o de los m puntos en el espacio n-dimensional se toma ΠH (m, n) a ser el m´ximo entre todos los posibles ordenamientos. a Para cada clase H, habr´ un n´mero m´ximo de m para los cuales a u a ΠH (m, n) = 2m , para que H pueda romper los m patrones. Este m´ximo n´mero es llamado la dimensi´n Vapnik-Chervonenkis a u o (VC) denotado por VCDim(H) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 24 / 26
  • 68. Dicotomias lineales Ejemplo Sea E = {0,5, 2,5, −2,3, 3,14} Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 25 / 26
  • 69. Dicotomias lineales Ejemplo Sea E = {0,5, 2,5, −2,3, 3,14} Y una de las hip´tesis del grupo ser´ h = [1, 4.5] o ıa Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 25 / 26
  • 70. Dicotomias lineales Ejemplo Sea E = {0,5, 2,5, −2,3, 3,14} Y una de las hip´tesis del grupo ser´ h = [1, 4.5] o ıa Entonces los puntos 2.5 y 3.14 quedar´ clasificados como 1 y los ıan otros 2 como 0. Este grupo de hip´tesis pueden arbitrariamente o clasificar cualquier par de puntos, pero un intervalo sencillo no puede clasificar 3 puntos tales que los 2 puntos extremos queden como 1 y el punto interno como 0. Por consiguiente el VCDim de H ser´ 2.ıa Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 25 / 26
  • 71. Dicotomias lineales Ejemplo Sea E = {0,5, 2,5, −2,3, 3,14} Y una de las hip´tesis del grupo ser´ h = [1, 4.5] o ıa Entonces los puntos 2.5 y 3.14 quedar´ clasificados como 1 y los ıan otros 2 como 0. Este grupo de hip´tesis pueden arbitrariamente o clasificar cualquier par de puntos, pero un intervalo sencillo no puede clasificar 3 puntos tales que los 2 puntos extremos queden como 1 y el punto interno como 0. Por consiguiente el VCDim de H ser´ 2.ıa La dimensi´n VC es una medida util del poder expresivo de un set de o ´ hip´tesis. Desde que una dicotom´ del VCDim(H) o algunos pocos o ıa patrones en posici´n general en n dimensiones pueden ser obtenidas o por algunas hip´tesis en Se debe tener m´s patrones que VCDim(H) o a en el set de entrenamiento de manera que una hip´tesis consistente o con el set de entrenamiento est´ suficientemente restringida para a implicar una buena generalizaci´n. o Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 25 / 26
  • 72. Dimensiones VC y aprendizaje PAC Vinculaci´n entre las dos teor´ o ıas Un espacio hipot´tico H es PAC aprendible si tiene dimensi´n VC e o finita. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 26 / 26
  • 73. Dimensiones VC y aprendizaje PAC Vinculaci´n entre las dos teor´ o ıas Un espacio hipot´tico H es PAC aprendible si tiene dimensi´n VC e o finita. Un espacio hipot´tico H es PAC aprendible si: e Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 26 / 26
  • 74. Dimensiones VC y aprendizaje PAC Vinculaci´n entre las dos teor´ o ıas Un espacio hipot´tico H es PAC aprendible si tiene dimensi´n VC e o finita. Un espacio hipot´tico H es PAC aprendible si: e 1 m ≥ (1/ξ)max[4lg (2/δ)], 8 VCdim lg (13/ξ), y Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 26 / 26
  • 75. Dimensiones VC y aprendizaje PAC Vinculaci´n entre las dos teor´ o ıas Un espacio hipot´tico H es PAC aprendible si tiene dimensi´n VC e o finita. Un espacio hipot´tico H es PAC aprendible si: e 1 m ≥ (1/ξ)max[4lg (2/δ)], 8 VCdim lg (13/ξ), y 2 si existe un algoritmo que entregue una hip´tesis h ∈ H consistente con o el conjunto de entrenamiento en un tiempo polinomial (en m y n) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 26 / 26
  • 76. Dimensiones VC y aprendizaje PAC Vinculaci´n entre las dos teor´ o ıas Un espacio hipot´tico H es PAC aprendible si tiene dimensi´n VC e o finita. Un espacio hipot´tico H es PAC aprendible si: e 1 m ≥ (1/ξ)max[4lg (2/δ)], 8 VCdim lg (13/ξ), y 2 si existe un algoritmo que entregue una hip´tesis h ∈ H consistente con o el conjunto de entrenamiento en un tiempo polinomial (en m y n) Cualquier algoritmo de aprendizaje PAC debe examinar al menos Ω(1/ξ lg(1/δ)) + VCdim(H) patrones de entrenamiento. Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 26 / 26
  • 77. Dimensiones VC y aprendizaje PAC Vinculaci´n entre las dos teor´ o ıas Un espacio hipot´tico H es PAC aprendible si tiene dimensi´n VC e o finita. Un espacio hipot´tico H es PAC aprendible si: e 1 m ≥ (1/ξ)max[4lg (2/δ)], 8 VCdim lg (13/ξ), y 2 si existe un algoritmo que entregue una hip´tesis h ∈ H consistente con o el conjunto de entrenamiento en un tiempo polinomial (en m y n) Cualquier algoritmo de aprendizaje PAC debe examinar al menos Ω(1/ξ lg(1/δ)) + VCdim(H) patrones de entrenamiento. La diferencia entre los limites inferiores y superiores es O(log(1/ξ)VCdim(H)/ξ) Universidad de La Serena Eduardo Alcayaga Cort´s () e Teor´ de Aprendizaje Computacional ıa 18 de noviembre de 2009 26 / 26

×