INTRODUCCION A LAS REDES NEURONALES ARTIFICIALES

14,684 views
14,571 views

Published on

INTRODUCCION A LAS REDES NEURONALES ARTIFICIALES

Published in: Education
1 Comment
9 Likes
Statistics
Notes
No Downloads
Views
Total views
14,684
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
1,185
Comments
1
Likes
9
Embeds 0
No embeds

No notes for slide

INTRODUCCION A LAS REDES NEURONALES ARTIFICIALES

  1. 1. REDES NEURONALES ARTIFÍCIALES I CAPITULO I INTRODUCCION A LAS REDES NEURONALES ARTIFICIALES INTRODUCION: El cerebro es un procesador de información con unas características muy notables: es capaz de procesar a gran velocidad grandes cantidades de información procedentes de los sentidos, combinarla o compararla con la información almacenada y dar respuestas adecuadas incluso en situaciones nuevas. Logra discernir un susurro en una sala ruidosa, distinguir una cara en una calle mal iluminada o leer entre líneas en una declaración política; pero lo más impresionante de todo es su capacidad de aprender a representar la información necesaria para desarrollar tales habilidades sin instrucciones explícitas para ello. Aunque todavía se ignora mucho sobre la forma en que el cerebro aprende a procesar la información, se han desarrollado modelos que tratan de mimetizar tales habilidades; denominados redes neuronales artificiales ó modelos de computación conexionista (otras denominaciones son computación neuronal y procesamiento distribuido paralelo o P.D.P.). La elaboración de estos modelos supone en primer lugar la deducción de los rasgos o características esenciales de las neuronas y sus conexiones, y en segundo lugar, la implementación del modelo en una computadora de forma que se pueda simular. Es obvio decir que estos modelos son idealizaciones burdas de las auténticas redes neuronales, en muchos casos de dudosa plausibilidad neurofisiológica, pero que sin embargo resultan interesantes cuando menos por sus capacidades de aprendizaje. De la prehistoria al futuro que tal vez Babbage nunca soñó. El desarrollo de máquinas que puedan imitar la capacidad de aprendizaje del hombre es actualmente un desafío en el que pone sus miras buena parte de la comunidad científica. Con esta amplia Introducción a las redes neuronales, se pretende dar a conocer los elementos básicos de lo que comúnmente se denomina Inteligencia Artificial, para así comprender de qué modo pueden llegar a «pensar» y «aprender» las máquinas. El hombre se ha caracterizado siempre por una búsqueda constante de nuevas vías para mejorar sus condiciones de vida. Estos esfuerzos le han servido para reducir el trabajo en aquellas operaciones en las que la fuerza juega un papel primordial. Los progresos obtenidos han permitido dirigir estos esfuerzos a otros campos, como por ejemplo, a la construcción de máquinas calculadoras que ayuden a resolver de forma automática y rápida determinadas operaciones que resultan tediosas cuando se realizan a mano. Uno de los primeros en acometer esta empresa fue Charles Babbage, quien trató infructuosamente de construir una máquina capaz de resolver problemas matemáticos. Posteriormente otros tantos intentaron construir máquinas similares, pero no fue hasta la Segunda Guerra Mundial, cuando ya se disponía de instrumentos electrónicos, que se empezaron a recoger los primeros frutos. En 1946 se construyó la primera computadora 1
  2. 2. REDES NEURONALES ARTIFÍCIALES I electrónica, ENIAC. Desde entonces los desarrollos en este campo han tenido un auge espectacular. Estas máquinas permiten implementar fácilmente algoritmos para resolver multitud de problemas que antes resultaban engorrosos de resolver. Sin embargo, se observa una limitación importante: ¿qué ocurre cuando el problema que se quiere resolver no admite un tratamiento algorítmico, como es el caso, por ejemplo, de la clasificación de objetos por rasgos comunes?. Este ejemplo demuestra que la construcción de nuevas máquinas más versátiles requiere un enfoque del problema desde otro punto de vista. Los desarrollos actuales de los científicos se dirigen al estudio de las capacidades humanas como una fuente de nuevas ideas para el diseño de las nuevas máquinas. Así, la inteligencia artificial es un intento por descubrir y describir aspectos de la inteligencia humana que pueden ser simulados mediante máquinas. Esta disciplina se ha desarrollado fuertemente en los últimos años teniendo aplicación en algunos campos como visión artificial, demostración de teoremas, procesamiento de información expresada mediante lenguajes humanos... etc. Las redes neuronales son otra forma de emular otra de las características propias de los humanos: la capacidad de memorizar y asociar hechos. Si examinamos con atención aquellos problemas que no pueden expresarse a través de un algoritmo nos daremos cuenta de que todos ellos tienen una característica común: la experiencia. El hombre es capaz de resolver estas situaciones acudiendo a la experiencia acumulada. Así, parece claro que una forma de aproximarse al problema consista en la construcción de sistemas que sean capaces de reproducir esta característica humana. En definitiva, las redes neuronales no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que disponemos de sistema que es capaz de adquirir conocimiento a través de la experiencia. Una red neuronal es «un nuevo sistema para el tratamiento de la información cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema nervioso humano, la neurona». 1.1 MARCO HISTORICO DE LAS REDES NEURONALES Fue en 1943 cuando Warren McCulloch y Walter Pitts propusieron el clásico modelo de neurona en el que se basan las redes neuronales actuales. Seis años después, en 1949, en su libro The Organization of Behavior, Donald Hebb presentaba su conocida regla de aprendizaje. En 1956 se organizó en Dartmouth la primera conferencia sobre IA. Aquí se discutió el uso potencial de las computadoras para simular “todos los aspectos del aprendizaje o cualquier otra característica de la inteligencia” y se presentó la primera simulación de una red neuronal, aunque todavía no se sabían interpretar los datos resultantes. 2
  3. 3. REDES NEURONALES ARTIFÍCIALES I En 1957, Frank Rosenblatt presentó el Perceptron, una red neuronal con aprendizaje supervisado cuya regla de aprendizaje era una modificación de la propuesta por Hebb. El Perceptron trabaja con patrones de entrada binarios, y su funcionamiento, por tratarse de una red supervisada, se realiza en dos fases: una primera en la que se presentan las entradas y la salidas deseadas; en esta fase la red aprende la salida que debe dar para cada entrada. La principal aportación del Perceptron es que la adaptación de los pesos se realiza teniendo en cuenta el error entre la salida que da la red y la salida que se desea. En la fase siguiente, de operación, la red «es capaz» de responder adecuadamente cuando se le vuelven a presentar los patrones de entrada. Se crearon grandes expectativas sobre sus aplicaciones, que posteriormente se tornaron en gran decepción cuando en 1969 Minsky y Papert demostraron las grandes limitaciones de esta red. En 1959, Widrow publica una teoría sobre la adaptación neuronal y unos modelos inspirados en esa teoría, el Adaline (Adaptative Linear Neuron) y el Madaline (Multiple Adaline). Estos modelos fueron usados en numerosas aplicaciones y permitieron usar, por primera vez, una red neuronal en un problema importante del mundo real: filtros adaptativos para eliminar ecos en las líneas telefónicas. En los años 60 se propusieron otros dos modelos, también supervisados, basados en el Perceptron de Rosenblatt denominados Adaline y Madaline. En estos, la adaptación de los pesos se realiza teniendo en cuenta el error, calculado como la diferencia entre la salida deseada y la dada por la red, al igual que en el Perceptron. Sin embargo, la regla de aprendizaje empleada es distinta. Se define una función error para cada neurona que da cuenta del error cometido para cada valor posible de los pesos cuando se presenta una entrada a la neurona. Así, la regla de aprendizaje hace que la variación de los pesos se produzca en la dirección y sentido contrario del vector gradiente del error. A esta regla de aprendizaje se la denomina Delta. En 1962, Rosemblatt publica los resultados de un ambicioso proyecto de investigación, el desarrollo del Perceptrón, un identificador de patrones ópticos binarios, y salida binaria. Las capacidades del Perceptrón se extendieron al desarrollar la regla de aprendizaje delta, que permitía emplear señales continuas de entrada y salida. 1.2 DEFINICIÓNES DE REDES NEURONALES Una red neuronal es un sistema compuesto de muchos elementos procesadores simples operando en paralelo, cuya función es determinada por la estructura de la red, fuerza en las conexiones y el procesamiento realizado por los elementos computacionales en los nodos. • Haykin, S. (1994, Neural Networks: A comprehensive foundation, NY, McMillan, P.2): "Una red neuronal es un procesamiento distribuido masivamente paralelo que tiene una tendencia natural para almacenar conocimiento empírico y hacerlo disponible para el uso. Recuerda al cerebro en dos aspectos: 1.- Conocimiento se adquiere por la red a través de un proceso de aprendizaje. 3
  4. 4. REDES NEURONALES ARTIFÍCIALES I 2.- Las conexiones interneurónicas se conocen como pesos synapticos y se usan para almacenar el conocimiento." • Zurada,J.M. (1992, Introduction to artificial neural nsystems, Boston: PWS Publishing Company, P. XV): "Sistemas de redes neuronales artificiales, o redes neuronales son sistemas celulares físicos que puedan adquirir, almacenar y usar conocimiento empírico." • Las redes neuronales son una forma de un sistema computarizado multi-proceso con: • Elementos de procesamiento sencillos. • Alto grado de interconexión. • Mensajes simples escalares. • Interacción adaptable entre elementos. El concepto de Red Neuronal Artificial está inspirado en las Redes Neuronales Biológicas. Una Red Neuronal Biológica es un dispositivo no lineal altamente paralelo, caracterizado por su robustez y su tolerancia a fallos. Sus principales características son las siguientes:  Aprendizaje mediante adaptación de sus pesos sinápticos a los cambios en el entorno.  Manejo de imprecisión, ruido e información probabilística.  Generalización a partir de ejemplos. Las Redes Neuronales Artificiales intentan imitar algunas, o todas, de estas características. Este paradigma de programación difiere de las secuencias de instrucciones en que la información se encuentra almacenada en las conexiones sinápticas. Cada neurona es un procesador elemental con operaciones muy primitivas como la suma ponderada de sus pesos de entrada y la amplificación o umbralización de esta suma. Una Red Neuronal viene caracterizada por su topología, por la intensidad de la conexión entre sus pares de neuronas (pesos), por las propiedades de los nodos y por las reglas de actualización de pesos. Las reglas de actualización, también llamadas de aprendizaje, controlan los pesos y/o estados de los elementos de procesados (neuronas). Los principales aspectos de este modelo de computación distribuida son los siguientes:  Un conjunto de unidades de procesamiento.  Un estado de activación para cada unidad, que es equivalente a la salida de la unidad.  Conexiones entre unidades, generalmente definida por un peso , que determina el efecto de la unidad j sobre la unidad k.  Una regla de propagación que determina la entrada de la unidad a partir de sus entradas externas. 4
  5. 5. REDES NEURONALES ARTIFÍCIALES I  Una función de activación que determina el estado de activación en función de la entrada de la unidad (en algunos casos la función de activación tiene en cuenta la activación actual de la unidad).  Una entrada externa (o offset) para cada unidad.  Un método para modificar los valores de los pesos (regla de aprendizaje).  Un entorno de trabajo en el que sistema opere, compuesto por señales de entrada y, si es necesario, señales de error. Normalmente, la dinámica de actuación es definir una función objetivo que representa el estado completo de la red y localizar el conjunto de mínimos de esa función que se corresponden con los diferentes estados estables de la red. 1.3 CARACTERISTICAS DE LAS REDES NEURONALES. Desde hace algunos años, algunos investigadores han estado creando modelos, tanto en hardware como en software, que interpretan la actividad cerebral en un esfuerzo por producir una forma de inteligencia artificial. Las RNA están compuestas de un gran número elementos de procesamiento altamente interconectados (Neuronas) trabajando al mismo tiempo para la solución de problemas específicos. Las RNA, tal como las personas, aprenden de la experiencia. Las RNA están compuestas de muchos elementos sencillos que operan en paralelo, el diseño de la red está determinado mayormente por las conexiones entre sus elementos. Al igual que las conexiones de las neuronas cerebrales. Las RNA han sido entrenadas para la realización de funciones complejas en variados campos de aplicación. Hoy en día pueden ser entrenadas para la solución de problemas que son difíciles para sistemas computacionales comunes o para el ser humano. Las características de operación son las siguientes: Pesos Las RNA puede tener factores de peso fijos o adaptables. Las que tienen pesos adaptables emplean leyes de aprendizaje para ajustar el valor de la fuerza de un interconexión con otras neuronas. Si las neuronas utilizan pesos fijos, entonces su tarea deberá estar previamente definida. Los pesos serán determinados a partir de una descripción completa del problema. Por otra parte, los pesos adaptables son esenciales si no se conoce previamente cual deberá de ser su valor correcto. 5
  6. 6. REDES NEURONALES ARTIFÍCIALES I Dos tipos de aprendizaje Existen dos tipo de aprendizaje: supervisado y no supervisado. El primero ocurre cuando se le proporciona a la red tanto la entrada como la salida correcta, y la red ajusta sus pesos tratando de minimizar el error de su salida calculada. Este tipo de entrenamiento se aplica por ejemplo, en el reconocimiento de patrones. El entrenamiento no supervisado se presenta cuando a la red se le proporcionan únicamente los estímulos, y la red ajusta sus interconexiones basándose únicamente es sus estímulos y la salida de la propia red. Las leyes de aprendizaje determinan como la red ajustará sus pesos utilizando una función de error o algún otro criterio. La ley de aprendizaje adecuada se determina en base a la naturaleza del problema que se intenta resolver. Dos fases de operación Las RNA adaptables tienen dos fases en su operación. 1. Entrenamiento de la red. El usuario proporciona a la red un número "adecuado" de estímulos de entrada, y de salida, la red entonces ajusta su pesos de interconexión o sinápsis hasta que la salida de la red esta "lo suficientemente cerca" de la salida correcta. 2. Recuperación de lo aprendido. A la red se le presenta un conjunto de estímulos de entrada y esta simplemente calcula su salida. Cuando la red emplea entrenamiento no supervisado, algunas veces será necesario que reajuste su sinápsis durante la fase de recuperación. No son algorítmicas La gran diferencia del empleo de las redes neuronales en relación con otras aplicaciones de la computación radica en que no son algorítmicas, esto es no se programan haciéndoles seguir una secuencia predefinida de instrucciones. Las RNA generan ellas mismas sus propias "reglas", para asociar la respuesta a su entrada; es decir, aprende por ejemplos y de sus propios errores. El conocimiento de una RNA se encuentra en la función de activación utilizada y en los valores de sus pesos. Asociar y generalizar sin reglas como en el cerebro humano Las redes neuronales formadas por los perceptrones se interconectan en forma muy similar a como las neuronas humanas se disponen en la corteza cerebral humana, y lo más importante, son capaces de asociar y generalizar sin reglas. Han sido utilizadas con gran éxito para reconocer retornos de sonar bajo el agua, escritura a mano, voz, topografía de terrenos, controlar brazos de robots, evaluar datos personales, modelar fenómenos cognoscitivos, y, predecir tendencias financieras. 6
  7. 7. REDES NEURONALES ARTIFÍCIALES I Requieren de algún tipo de patrón La clase de problemas que mejor se resuelven con las redes neuronales son los mismos que el ser humano resuelve mejor: Asociación, evaluación, y reconocimiento de patrones. Las redes neuronales son perfectas para problemas que son muy difíciles de calcular pero que no requieren de respuestas perfectas, sólo respuestas rápidas y buenas. Tal y como acontece con el escenario bursátil en el que se quiere saber ¿compro?, ¿vendo?, ¿mantengo?, o en el reconocimiento cuando se desea saber ¿se parece? ¿es el mismo pero tienen una ligera modificación? Por otra parte, las redes neuronales son muy malas para cálculos precisos, procesamiento serie, y no son capaces de reconocer nada que no tenga inherentemente algún tipo de patrón. Es por esto, que no pueden predecir la lotería, ya por definición es un proceso al azar. Existen varias formas de hacer las conexiones en una RNA, así como existen varias formas de conectar neuronas biológicas en el cerebro. Cada tipo sirve para diferentes procesos, el elegir la correcta topología y sus características, es imprescindible para lograr fácilmente la solución del problema. 1.4 APLICACIONES DE LAS REDES NEURONALES. Desde el punto de vista de la aplicaciones, la ventaja de las Redes Neuronales Artificiales (RNA), reside en el procesado paralelo, adaptativo y no lineal. Las (RNA) han encontrado muchas aplicaciones con éxito en la visión artificial, en el procesado de señales e imágenes, reconocimiento del habla y de caracteres, sistemas expertos, análisis de imágenes médicas, control remoto, control de robots, inspección industrial y exploración científica. El dominio de aplicación de las (RNA) se puede clasificar de la siguiente forma: asociación y clasificación, regeneración de patrones, regresión y generalización, y optimización. Con el fin de llegar al entendimiento global de (RNA), adoptamos la siguiente perspectiva, llamada top-down que empieza por la aplicación se pasa al algoritmo y de aquí a la arquitectura, como se muestra en la figura 1.1 7
  8. 8. REDES NEURONALES ARTIFÍCIALES I Figura 1.1 Diagrama Topdow Esta aproximación a las (RNA) está motivada por la aplicación, basada en la teoría y orientada hacia la implementación. Las principales aplicaciones son para el procesado de señal y el reconocimiento de patrones. La primera etapa algorítmica representa una combinación de la teoría matemática y la fundamentación heurística por los modelos neuronales. El fin último es la construcción de neurocomputadores digitales, con la ayuda de las tecnologías VLSI y el procesado adaptativo, digital y paralelo. •Las Redes Neuronales son útiles para:: • Clasificación de patrones • Aproximación de funciones • Mapeo • En los que exista información imprecisa y con tolerancia a fallos • Aprendizaje Adaptativo. • Autoorganización. • Tolerancia a Fallos. • Operación en tiempo real. • Fácil construcción en circuitos integrados. 1.5 MODELO BIOLÓGICO NEURONAL. El cerebro, como todo el organismo animal, está formado por células llamadas neuronas. La estructura y la comunicación de las neuronas fueron descritas por el español Santiago Ramón y Cajal, quien encontró una característica fundamental de la comunicación entre las células nerviosas: casi nunca se tocan, están separados por pequeñísimos espacios, cuyo significado y enorme importancia vendría a conocerse mucho tiempo después. A pesar de las diferencias en la forma de las neuronas, su estructura en los sitios en que se comunican unas con otras es muy similar. La parte de la neurona que se comunica con otra neurona 8
  9. 9. REDES NEURONALES ARTIFÍCIALES I tiene siempre una estructura típica, y la región de la neurona que recibe ese contacto también tiene una forma característica. A esta zona de integración de la neurona se le llama sinapsis, y su funcionamiento es esencial para explicar prácticamente todas las acciones del cerebro, desde la más sencilla como ordenar a los músculos que se contraigan y se relajen en forma coordinada para llevar a cabo un simple movimiento, hasta las más complicadas tareas intelectuales, pasando también por las funciones que originan, controlan y modulan las emociones. A través de esta comunicación las neuronas forman redes complicadísimas, que por supuesto estamos lejos de conocer por completo. Sabemos que unos de estos circuitos están relacionados con el sueño, otros con el movimiento, y otros más con las emociones y la conducta. La identificación de éstos circuitos puede lograrse con distintos métodos, pero uno relativamente simple consiste en estimular una neurona o un grupo de neuronas y luego tomar un registro en las neuronas que sospechamos se comunican con las primeras. Estos experimentos demostraron la localización de las funciones motoras en la corteza del cerebro y la existencia de conexiones neuronales desde ésa hasta los músculos. Se observó en éstos experimentos que el movimiento y la sensibilidad de algunas regiones del cuerpo requieren un mayor número de neuronas en la corteza. El cerebro humano contiene aproximadamente 12 billones (1014)de células nerviosas o neuronas. Cada neurona tiene de 5.600 a 60.000 (103 a 104) conexiones dendríticas provenientes de otras neuronas. Estas conexiones transportan los impulsos enviados desde otras neuronas y están conectadas a la membrana de la neurona. Cada neurona tiene una salida denominada axón. El contacto de cada axón con una dendrita se realiza a través de la sinapsis. Tanto el axón como las dendritas transmiten la señal en una única dirección. La sinapsis consta de un extremo presináptico de un axón conectado a un extremo postsináptico de una dendrita, existiendo normalmente entre éstos un espacio denominado espacio sináptico. Las neuronas son eléctricamente activas e interactúan entre ellas mediante un flujo de corrientes eléctricas locales. Estas corrientes se deben a diferencias de potencial entre las membranas celulares de las neuronas. Un impulso nervioso es un cambio de voltaje que ocurre en una zona localizada de la membrana celular. El impulso se transmite a través del axón hasta llegar a la sinapsis, produciendo la liberación de una sustancia química denominada neurotransmisor que se esparce por el fluido existente en el espacio sináptico. Cuando este fluido alcanza el otro extremo transmite la señal a la dendrita. Los impulsos recibidos desde la sinapsis se suman o restan a la magnitud de las variaciones del potencial de la membrana. Si las contribuciones totales alcanzan un valor determinado (alrededor de 10 milivoltios) se disparan uno o más impulsos que se propagarán a lo largo del axón. Aunque todavía no está del todo claro, parece que este impulso se inicia en la conexión entre el axón y la membrana. Su amplitud y velocidad dependen del diámetro del axón y su frecuencia del número de disparos que se efectúen. Las redes neuronales artificiales basan su funcionamiento en las redes neuronales reales, estando formadas por un conjunto de unidades de procesamiento conectadas entre sí. Por 9
  10. 10. REDES NEURONALES ARTIFÍCIALES I analogía con el cerebro humano se denomina «neurona» a cada una de estas unidades de procesamiento. Cada neurona recibe muchas señales de entrada y envía una única señal de salida (como ocurre en las neuronas reales). Recordemos que el cerebro humano se compone de decenas de billones de neuronas interconectadas entre sí formando circuitos o redes que desarrollan funciones específicas. Una neurona típica recoge señales procedentes de otras neuronas a través de una pléyade de delicadas estructuras llamadas dendritas. La neurona emite impulsos de actividad eléctrica a lo largo de una fibra larga y delgada denominada axón, que se escinde en millares de ramificaciones. Figura 1.2: Neurona y conexiones sinápticas Las extremidades de estas ramificaciones llegan hasta las dendritas de otras neuronas y establecen unas conexiones llamadas sinápsis, en las cuales se produce una transformación del impulso eléctrico en un mensaje neuroquímico, mediante la liberación de unas sustancias llamadas neurotransmisores. Figura 1.3: Detalle de una sinápsis El efecto de los neurotransmisores sobre la neurona receptora puede ser excitatorio o inhibitorio, y es variable (la intensidad del efecto depende de numerosos factores que no sería oportuno describir aquí) , de manera que podemos hablar de la fuerza o efectividad de una sinápsis. Las señales excitatorias e inhibitorias recibidas por una neurona se combinan, y en función de la estimulación total recibida, la neurona toma un cierto nivel de activación, que se traduce en la generación de breves impulsos nerviosos con una determinada 10
  11. 11. REDES NEURONALES ARTIFÍCIALES I frecuencia o tasa de disparo, y su propagación a lo largo del axón hacia las neuronas con las cuales sinapta. Figura 1.4: Activación y disparo de una neurona De esta manera la información se transmite de unas neuronas a otras y va siendo procesada a través de las conexiones sinápticas y las propias neuronas. El aprendizaje de las redes neuronales se produce mediante la variación de la efectividad de las sinápsis, de esta manera cambia la influencia que unas neuronas ejercen sobre otras, de aquí se deduce que la arquitectura, el tipo y la efectividad de las conexiones en un momento dado, representan en cierto modo la memoria o estado de conocimiento de la red. 1.6 ELEMENTOS DE UNA RED NEURONAL. Los elementos individuales de cálculo que forman los modelos de sistemas neuronales artificiales reciben el nombre de Elementos de Procesado o Neuronas Artificiales. Cada unidad realiza un trabajo muy simple: recibe impulsos de otras unidades o de estímulos externos y calcula una señal de salida que propaga a otras unidades y, además, realiza un ajuste de sus pesos. Este tipo de modelos es inherentemente paralelo en el sentido de que varias unidades pueden realizar sus cálculos al mismo tiempo. El elemento de procesado más simple suele tener el siguiente esquema: 11
  12. 12. REDES NEURONALES ARTIFÍCIALES I Figura 1.5. Esquema de una neurona artificial Este esquema de elemento de procesado tiene las siguientes características:  Cada elemento de procesado puede tener varias entradas asociadas a propiedades diferentes.  La entrada de tendencia es opcional (valor constante).  Las entradas pueden ser: Excitadoras, inhibidoras, de ganancia, de disparo fortuito o de amortiguamiento.  Las entradas están ponderadas por un factor multiplicativo de peso o intensidad de conexión que resaltan de forma diferente la importancia de cada entrada..  Cada elemento de procesado tiene un valor de activación calculado en función del valor de entrada neto (calculado a partir de las entradas y los pesos asociados a ellas). En algunos casos, el valor de activación, depende además de la entrada neta del valor anterior de activación.  Una vez calculado el valor de activación, se determina un valor de salida aplicando una función de salida sobre la activación del elemento de procesado. Conexión entre unidades En la mayor parte de los casos se asume que cada unidad recibe contribuciones aditivas de las unidades que están conectadas a ellas. La entrada total de la unidad k es la suma ponderada de las entradas que recibe más el término de offset Cuando el peso de la contribución es positivo se considera que la entrada es excitatoria y cuando el peso es negativo que es inhibitoria. Este tipo de expresiones que calculan la entrada total se denominan reglas de propagación y, en general, pueden tener diferentes expresiones. 12
  13. 13. REDES NEURONALES ARTIFÍCIALES I Funciones de activación y salida Además de la regla de propagación es necesario poseer expresiones para las funciones de activación (calculan la activación en función de la entrada total) y funciones de salida (calculan la salida en función de la activación). La función de activación calcula la activación de la unidad en función de la entrada total y la activación previa, aunque en la mayor parte de los casos es simplemente una función no decreciente de la entrada total. Los tipos de función más empleados son: la función signo, funciones con umbral lineal y la función sigmoidal. La función de salida empleada usualmente es la función identidad y así la salida de la unidad de procesado es idéntica a su nivel de activación. Las redes neuronales están formadas por un conjunto de neuronas artificiales interconectadas. Las neuronas de la red se encuentran distribuidas en diferentes capas de neuronas, de manera que las neuronas de una capa están conectadas con las neuronas de la capa siguiente, a las que pueden enviar información. La arquitectura más usada en la actualidad de una red neuronal se presente en la figura 1.5, la cual consistía en:  Una primera capa de entradas, que recibe información del exterior.  Una serie de capas ocultas (intermedias), encargadas de realizar el trabajo de la red.  Una capa de salidas, que proporciona el resultado del trabajo de la red al exterior. Figura 1.6. Esquema de una red neuronal antes del entrenamiento. Los círculos representan neuronas, mientras las flechas representan conexiones entre las neuronas El número de capas intermedias y el número de neuronas de cada capa dependerá del tipo de aplicación al que se vaya a destinar la red neuronal. 13
  14. 14. REDES NEURONALES ARTIFÍCIALES I 1.7 ESTRUCTURAS GENERALES DE LAS REDES NEURONALES PERCEPTRON En 1943, Warren McCulloc y Walter Pitts originaron el primer modelo de operación neuronal, el cual fué mejorado en sus aspectos biológicos por Donald Hebb en 1948. En 1962 Bernard Widrow propuso la regla de aprendizaje Widrow-Hoff, y Frank Rosenblatt desarrolló una prueba de convergencia, y definió el rango de problemas para los que su algoritmo aseguraba una solución. El propuso los 'Perceptrons' como herramienta computacional. Figura 1.7 Modelo del perceptron simple. BACKPROPAGATION En esta red, se interconectan varias unidades de procesamiento en capas, las neuronas de cada capa no se interconectan entre sí. Sin embargo, cada neurona de una capa proporciona una entrada a cada una de las neuronas de la siguiente capa, esto es, cada neurona transmitirá su señal de salida a cada neurona de la capa siguiente. La figura muestra un ejemplo esquemático de la arquitectura de este tipo de redes neuronales. Figura 1.8 Red backpropagation. 14
  15. 15. REDES NEURONALES ARTIFÍCIALES I HOPFIELD La Red de Hopfield es recurrente y completamente conectada. Funciona como una memoria asociativa no lineal que puede almacenar internamente patrones presentados de forma incompleta o con ruido. De esta forma puede ser usada como una herramienta de optimización. El estado de cada neurona puede ser actualizado un número indefinido de veces, independientemente del resto de las neuronas de la red pero en paralelo. Figura 1.9 Red de Hopfield de 3 unidades KOHONEN Existen evidencias que demuestran que en el cerebro existen neuronas que se organizan en muchas zonas, de forma que las informaciones captadas del entorno a través de los órganos sensoriales se representan internamente en forma de capas bidimensionales. Por ejemplo, en el sistema visual se han detectado mapas del espacio visual en zonas de córtex (capa externa del cerebro). También en el sistema auditivo se detecta organización según la frecuencia a la que cada neurona alcanza la mayor respuesta (organización tono tópica). Aunque en gran medida esta organización neuronal está predeterminada genéticamente, es probable que de ella se origine mediante el aprendizaje. Esto sugiere, por tanto, que el cerebro podría poseer la capacidad inherente de formar mapas topológicos de las informaciones recibidas del exterior. De hecho, esta teoría podría explicar su poder de operar con elementos semánticos: algunas áreas del cerebro simplemente podrían crear y ordenar neuronas especializadas o grupos con características de alto nivel y sus combinaciones. Se trataría, en definitiva, de construir mapas espaciales para atributos y características. 15
  16. 16. REDES NEURONALES ARTIFÍCIALES I 1.8 TOPOLOGÍAS DE REDES NEURONALES. La topología es el número de elementos de procesado que forman la red y las interconexiones existentes entre ellos. Los elementos de procesado de una red neuronal se distribuyen por capas (conjunto de elementos de procesado que se encuentran en el mismo nivel en la estructura). Existen tres tipos de capas: 1. Capa de entrada: Dependen del problema a abordar. 2. Capa de salida: Salidas que proporciona la estructura. 3. Capas ocultas: conjunto de elementos de procesado asociados en capas que se encuentran entre la capa de entrada y la capa de salida. El número de elementos de procesado puede variar en unas capas respecto a otras. Las funciones (tanto de activación como de salida) de los elementos de procesado pueden ser diferentes. No existe limitación en el número de capas ocultas. En general, cuanto mayor sea la diferencia entre los elementos de entrada y los de salida, será necesario dotar a la estructura de más capas ocultas. Estas capas ocultas crean una representación interna de los patrones de entrada. La habilidad de la red para procesar información crece en proporción directa al número de capas ocultas. Según el número de interconexiones entre capas las redes se clasifican en: totalmente conectadas y localmente conectadas. En las redes totalmente conectadas la salida de un elemento de procesado de la capa i es entrada a todos los elementos de procesado de la capa i+1. Por contra, en las redes localmente conectadas, la salida de un elemento de procesado de la capa i es entrada a una región de elementos de procesado de la capa i+1. En función de la dirección del movimiento de la información se puede realizar una clasificación en: redes feedforward, redes feedback, redes feedlateral y redes recurrentes, tal como puede verse en la siguiente figura: Figura 1.10 Tipos de conexiones entre neuronas 16
  17. 17. REDES NEURONALES ARTIFÍCIALES I Conexiones hacia delante(Feed Forward): para todos los modelos neuronales, los datos de las neuronas de una capa inferior son propagados hacia las neuronas de la capa superior por medio de las redes de conexiones hacia adelante. Conexiones hacia atrás(Feed Bade): estas conexiones llevan los datos de las neuronas de una capa superior a otras de la capa inferior. Conexiones laterales. Un ejemplo típico de este tipo es el circuito “el ganador toma todo”, que cumple un papel importante en la elección del ganador. Conexiones con retardo: los elementos de retardo se incorporan en las conexiones para implementar modelos dinámicos y temporales, es decir, modelos que precisan de memoria. También es posible que las redes sean de una capa con el modelo de pesos hacia atrás o bien el modelo multicapa hacia adelante. Es posible así mismo, el conectar varias redes de una sola capa para dar lugar a redes más grandes. A continuación se describirán algunas topologías de RNA: Figura 1.11. Perceptron simple Figura 1.12. Topología con conexiones hacia delante, hacia atrás, laterales y de retroalimentación 17
  18. 18. REDES NEURONALES ARTIFÍCIALES I Figura 1.13. Topología con conexiones hacia delante y laterales. Figura 1.14. Topología con conexiones hacia delante. Figura 1.15. Topología con conexiones hacia delante, hacia atrás, laterales y de retroalimentación. Figura 1.16. Topología con conexiones hacia delante. 18
  19. 19. REDES NEURONALES ARTIFÍCIALES I Figura 1.17.Topología con conexiones hacia delante. Figura 1.18. Topologías con conexiones hacia delante, con diferente tipo de correspondencia. 1.9 MECANISMOS DE APRENDIZAJE Construir un sistema que aprenda ha sido tradicionalmente uno de los objetivos más escurridizos de la inteligencia artificial. El aprendizaje es un proceso de adaptación al entorno; durante el se crean y manipulan representaciones que sean capaces de explicar dicho entorno. En las redes neuronales la esencia del aprendizaje se encuentra en la modificación colectiva de los pesos de los elementos de procesado. Una definición de aprendizaje en redes neuronales podría ser la siguiente: Proceso por el cual los parámetros libres de una red neuronal son ajustados a través de un proceso continuo de estimulación por parte del entorno en donde se sitúa el sistema. El tipo de aprendizaje viene determinado por la forma en la que tienen lugar dichos cambios. Esta definición implica tres hechos fundamentales:  La red neuronal se encuentra estimulada por el entorno, cambia como consecuencia de esos estímulos y responde de manera diferente al entorno a causa de los cambios que se han producido en sus estructura interna. 19
  20. 20. REDES NEURONALES ARTIFÍCIALES I Existen tres paradigmas de aprendizaje: Supervisado, No supervisado (o auto supervisado) y Reforzamiento (se puede considerar como un caso especial del aprendizaje supervisado). Hay bastantes algoritmos dentro de cada una de estas categorías. Supervisado En el aprendizaje supervisado (aprender con un maestro), la adaptación sucede cuando el sistema compara directamente la salida que proporciona la red con la salida que se desearía obtener de dicha red. Existen tres tipos básicos: por corrección de error, por refuerzo y estocástico. En el aprendizaje por corrección de error el entrenamiento consiste en presentar al sistema un conjunto de pares de datos, representando la entrada y la salida deseada para dicha entrada (este conjunto recibe el nombre de conjunto de entrenamiento). El objetivo es minimizar el error entre la salida deseada y la salida que se obtiene. El aprendizaje por refuerzo es más lento que el anterior. No se dispone de un ejemplo completo del comportamiento deseado pues no se conoce la salida deseada exacta para cada entrada sino que se conoce el comportamiento de manera general para diferentes entradas. La relación entrada-salida se realiza a través de un proceso de éxito o fracaso, produciendo este una señal de refuerzo que mide el buen funcionamiento del sistema. La función del supervisor es más la de un crítico que la de un maestro. El aprendizaje estocástico consiste básicamente en realizar cambios aleatorios de los valores de los pesos y evaluar su efecto a partir del objetivo deseado. Regla del Perceptron Supongamos que tenemos un conjunto de muestras de aprendizaje consistentes en vectores de entrada x y salidas deseadas d(x) (en tareas de clasificación d(x) es, usualmente, +1 o -1). La regla de aprendizaje del perceptrón es muy simple y se desarrolla a través de los siguientes pasos: 1. Iniciar la red con un conjunto aleatorio de pesos para las conexiones. 2. Seleccionar un vector de entrada x del conjunto de muestras de entrenamiento. 3. Si el perceptrón proporciona una salida incorrecta, modificar todas las conexiones mediante la expresión . 4. Volver al paso 2. Cuando la red responde de forma correcta los pesos de la conexiones no se modifican Regla delta Para una red con una única capa con un único elemento de procesado en la salida con una función de activación lineal, la salida viene dada por 20
  21. 21. REDES NEURONALES ARTIFÍCIALES I Una red simple con una única capa es capaz de representar relaciones lineales entre el valor del elemento de procesado de la salida y el valor de los elementos de procesado de la entrada. umbralizando el valor de la salida se puede construir un clasificador. Pero también se pueden realizar otras tareas como aproximación de funciones. En espacios de entrada multidimensionales la red representa un hiperplano de decisión y es trivial asumir que se pueden definir varias unidades de salida. Supongamos que vamos a entrenar una red para localizar el hiperplano de decisión más idóneo para un conjunto de muestras de entrada consistente en valores de entrada y valores de salida deseada . Para cada muestra dada del conjunto de entrada, la salida real de la red difiere de la salida deseada en , donde es la salida real para el patrón de entrada . La regla delta una función de error (o función de coste) basada en dicha diferencia para realizar el ajuste de los pesos. La función de error, dada por el método del menor error cuadrático medio, es la suma de los cuadrados de los errores individuales de cada patrón. Es decir, el error total E viene dado por donde el índice p recorre el conjunto de patrones de entrada y representa el error del patrón p-ésimo. Los valores de los pesos de conexión se buscan de forma tal que se minimice la función y este proceso se realiza por un método conocido gradiente descendiente. La idea del método es realizar un cambio en los pesos inversamente proporcional a la derivada del error respecto al peso para cada patrón donde es una constante de proporcionalidad. La derivada se puede descomponer mediante la siguiente expresión Dado que la función de activación es lineal, como se comentaba al comienzo, y con lo cual 21
  22. 22. REDES NEURONALES ARTIFÍCIALES I donde es la diferencia entre la salida deseada y la salida real para el patrón de entrada p. La regla delta modifica los pesos como función de las salidas deseada y real para unidades de entrada y salida binarias o continuas. Estas características abrieron un nuevo campo de posibilidades para las redes neuronales. Regla delta generalizada La regla delta generalizada, amplía la regla delta al caso de usar unidades de procesamiento con funciones de activación no lineal. La activación es una función diferenciable de la entrada total dada por donde Para realizar la generalización de la regla delta debemos considerar La medida de error viene definida como el error cuadrático total para el patrón p en las unidades de salida Considerando E como la suma de los errores cuadráticos podemos ver que la variación del error respecto a los pesos viene dada por A partir de la expresión de la salida total y definiendo se puede obtener una regla de actualización de pesos equivalente a la regla delta, resultando un descenso en el valor del gradiente sobre la superficie de error si se realizan los cambios de los pesos de acuerdo a la expresión La conclusión más importante es que el cálculo recursivo de los factores delta puede implementarse propagando las señales de error desde la capa de salida a capas ocultas de la red. El cálculo de puede realizarse en términos de un producto de dos factores; uno que refleje el cambio del error como función de la salida de las unidades y otro que refleje el cambio de la salida como función de los cambios en la entrada, es decir 22
  23. 23. REDES NEURONALES ARTIFÍCIALES I Ahora bien, el segundo factor no es otro que la derivada de la función de activación F. Para calcular el primer factor vamos a considerar dos casos: que la unidad k es una unidad de salida de la red y que la unidad k es una unidad de una capa oculta. En el primer caso, a partir de la definición del error para el patrón p, podemos obtener que que es el mismo resultado que en la regla delta básica. Por tanto, para las unidades de la capa de salida en el segundo caso, no se conoce como contribuye la unidad al error de salida de la red, pero la medida de error se puede escribir como función de los pesos de las unidades de la capa oculta a la capa de salida con lo cual Extendiendo este cálculo de forma recursiva se pueden calcular los cambios en los pesos de todas las unidades de la red. Este procedimiento se denomina regle delta generalizada para redes feedforward con unidades no lineales. No supervisado En el aprendizaje no supervisado (o auto supervisado), la red se sintoniza a las regularidades estadísticas de datos de entrada de forma tal que se formen categorías que optimizan, respecto a los parámetros libres de la red, una medida de calidad de la tarea que se quiere realizar con la red. El funcionamiento de estas redes se basa en la búsqueda de características, regularidades, correlaciones y categorías del conjunto de datos de entrada. Existen diferentes interpretaciones que se le pueden dar a las salidas generadas por una red que utilice este tipo de aprendizaje: similaridad (semejanzas entre la información actual y la información pasada), clusterización (establecimiento de clases), codificación (versión codificada de las entradas) o mapeo (representación topográfica de los datos de entrada). Aprendizaje competitivo El aprendizaje competitivo es un proceso que divide el conjunto de patrones de entrada en clusters inherentes a los datos de entrada. El procedimiento de entrenamiento es muy simple: cuando se presenta un patrón de entrada se selecciona una única unidad de salida (la unidad ganadora) y se modifican los pesos de esa unidad. 23
  24. 24. REDES NEURONALES ARTIFÍCIALES I Selección de la unidad ganadora mediante producto: Asumamos que los patrones de entrada y los pesos están normalizados a la unidad. Cada unidad de salida o calcula su valor de activación a partir del producto del vector del patrón de entrada por el vector de pesos A continuación, se selecciona el elemento de procesado de salida que presenta mayor valor de activación. Su activación se pone a valor 1 y la del resto de elementos de procesado a 0. En este hecho radica el aspecto competitivo de la red. Una vez que se ha seleccionado el elemento de procesado k ganador, se adaptan sus pesos (sólo del elemento ganador) de acuerdo a la expresión Selección de la unidad ganadora mediante distancia: Cuando no se pueden utilizar patrones normalizados la elección del elemento de procesado ganador se realiza mediante el cálculo de la distancia Euclidea entre el vector del patrón y el vector de pesos. Aquel vector de pesos que presente una distancia mínima determinará el elemento ganador. La ley de actualización de pesos del elemento ganador es la misma que en el caso anterior, sin el denominador pues los vectores no están normalizados. Reforzamiento En el aprendizaje con reforzamiento, la red aprende de relaciones entrada-salida. Sin embargo, al contrario que en el aprendizaje supervisado, el sistema conoce si la salida es correcta o no, pero no conoce la salida correcta. 24
  25. 25. REDES NEURONALES ARTIFÍCIALES I CAPÍTULO II REDES NEURONALES MONOCAPA CON APRENDIZAJE SUPERVISADO Las redes monocapa se utilizan típicamente en tareas relacionadas en lo que se conoce como auto asociación: por ejemplo, para regenerar informaciones de entrada que se presentan a la red incompletas o distorsionadas. El Perceptrón Frank Rosenblatt creó muchas variantes de una máquina, la cual llamó Perceptrón. Una de las más simples fue una red monocapa cuyos pesos y umbrales pueden ser entrenados para producir un correcto vector objetivo cuando se presenta un correspondiente vector de entrada. La técnica de entrenamiento usada es llamada Regla de aprendizaje del perceptrón. El perceptrón generó un gran interés debido a su habilidad para generalizar a partir de sus vectores de entrenamiento y aprendizaje a partir de conexiones iniciales distribuidas aleatoriamente. Los perceptrones son apropiados especialmente para clasificación de patrones simples. Características - Aprendizaje Supervisado (offline) - Aprendizaje por corrección de error - Reconocimiento de patrones sencillos - Clasificación de patrones linealmente separables Arquitectura La red perceptrón consiste de una capa de S neuronas perceptrón, conectadas a r entradas a través de un conjunto de pesos W(ij) como se muestra en la figura 2.1. Como ya se mencionó anteriormente, los índices de la red i y j indican que W(ij) es la fuerza de conexión de la j-esima entrada a la i-esima neurona. 25
  26. 26. REDES NEURONALES ARTIFÍCIALES I Figura 2.1. Arquitectura de una red perceptrón. La red perceptrón puede tener únicamente una sola capa, debido a que la regla de aprendizaje del perceptrón es capaz de entrenar solamente una capa. Esta restricción coloca limitaciones en cuanto a lo que un perceptrón puede realizar computacionalmente. Algoritmo de aprendizaje El algoritmo de aprendizaje es supervisado, en el cual la regla es provista con un conjunto de ejemplos del comportamiento propio de la red: p1, t1  p2 , t2 p3 , t3 donde: pq = es la entrada de la red tq = es la salida destino correspondiente La regla de aprendizaje es un procedimiento para modificar los pesos y los niveles de umbral de activación en una red neuronal. La principal aportación de Rosenblatt fue el desarrollo de una regla de aprendizaje simple y automática aplicada al reconocimiento de patrones. La red aprendía de sus errores y se inicializaba con valores aleatorios. La regla de aprendizaje siempre convergirá a los pesos correctos de la red si es que existen los pesos que solucionen dicho problema. 26
  27. 27. REDES NEURONALES ARTIFÍCIALES I El entrenamiento comienza asignándole valores iniciales pequeños (aleatorios) a los parámetros de la red (W y b), por medio de las siguientes ecuaciones: Para el vector de pesos (W) Wnuevo = Wanterior + ept Para el umbral (b) bnuevo = banterior + e Para el error (e) e=t-a Aplicaciones El rango de tareas que el Perceptrón puede manejar es mucho mayor que simples decisiones y reconocimiento de patrones. Por ejemplo, se puede entrenar una red para formar el tiempo pasado de los verbos en ingles, leer texto en ingles y manuscrito. El Perceptrón multicapa (MLP) puede ser usado para la predicción de una serie de datos en el tiempo; tal a sido su éxito en la medición de la demanda de gas y electricidad, además de la predicción de cambios en el valor de los instrumentos financieros. NETtalk es un Perceptrón que es capaz de transformar texto en ingles en sonido individual (representaciones fonéticas) y la pronunciación con la utilización de un sintetizador de voz; cuenta con aproximadamente 300 nodos de neuronas (siendo 80 en la capa escondida) y 20,000 conexiones individuales. 27
  28. 28. REDES NEURONALES ARTIFÍCIALES I Ejercicios Método gráfico 1. Use un perceptrón simple para clasificar el siguiente conjunto de patrones: 0   − 2 p1 =   t1=1; p2 =   t2=1;  2 2   − 2  − 2 p3 =   t3=1; p4 =   t4=1; 0   − 2 0  2  p5 =   t5=0; p6 =   t6=0;  − 2  − 2  2  2 p7 =   t7=0; p8 =   t8=1; 0   2 a) Trace la frontera de decisión Solución Se traza sobre la gráfica una línea que separe los patrones que arrojen salida 1 (negro) de los patrones cuya salida deseada sea 0 (blanco). El trazo de esta línea o frontera de decisión depende del diseñador, siempre y cuando se cumpla la clasificación (separación de patrones con salida 1 de los de salida 0). El trazo de la frontera de decisión implica la determinación inmediata del vector de pesos que da solución al problema (la frontera de decisión es siempre perpendicular al vector de pesos W). Esto se muestra en la figura 2.2. Figura 2.2. Trazo de la frontera de decisión y vector de pesos 28
  29. 29. REDES NEURONALES ARTIFÍCIALES I b) Encuentre la matriz de pesos W y el umbral de activación b De la gráfica anterior, se obtiene el vector de pesos W: W = [-2 1] Dado que la frontera de decisión atraviesa por el origen (0,0), el umbral de activación es cero. b=0 c) Compruebe el funcionamiento del perceptrón con el conjunto de patrones de entrada. Para el primer par de entrada/salida 0  p1 =   t1=1;  2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 0  a = hardlim([-2 1]   + 0)  2 a = hardlim(2) = 1 Se calcula el error: e = t1 – a = 1 – 1 e=0 Para el segundo par de entrada/salida  − 2 p2 =   t2=1; 2  Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b)  − 2 a = hardlim([-2 1]   + 0) 2  29
  30. 30. REDES NEURONALES ARTIFÍCIALES I a = hardlim(6) = 1 Se calcula el error: e = t2 – a = 1 – 1 e=0 Para el tercer par de entrada/salida  − 2 p3 =   t3=1; 0  Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b)  − 2 a = hardlim([-2 1]   + 0) 0  a = hardlim(4) = 1 Se calcula el error: e = t3 – a = 1 – 1 e=0 Para el cuarto par de entrada/salida  − 2 p4 =   t4=1;  − 2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b)  − 2 a = hardlim([-2 1]   + 0)  − 2 a = hardlim(2) = 1 Se calcula el error: e = t4 – a = 1 – 1 e=0 30
  31. 31. REDES NEURONALES ARTIFÍCIALES I Para el quinto par de entrada/salida 0  p5 =   t5=0;  − 2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 0  a = hardlim([-2 1]   + 0)  − 2 a = hardlim(-2) = 0 Se calcula el error: e = t5 – a = 0 – 0 e=0 Para el sexto par de entrada/salida 2  p6 =   t6=0;  − 2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 2  a = hardlim([-2 1]   + 0)  − 2 a = hardlim(-6) = 0 Se calcula el error: e = t6 – a = 0 – 0 e=0 Para el séptimo par de entrada/salida  2 p7 =   t7=0; 0  31
  32. 32. REDES NEURONALES ARTIFÍCIALES I Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b)  2 a = hardlim([-2 1]   + 0) 0  a = hardlim(-4) = 0 Se calcula el error: e = t7 – a = 0 – 0 e=0 Para el octavo par de entrada/salida  2 p8 =   t8=0;  2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b)  2 a = hardlim([-2 1]   + 0)  2 a = hardlim(-2) = 0 Se calcula el error: e = t8 – a = 0 – 0 e=0 Regla de aprendizaje 2. Resuelva el siguiente problema de clasificación del perceptrón y su regla de aprendizaje donde los pares de entrada/salida son: 1  p1 =   t1=1;  2 − 1 p2 =   t2=0; 2  32
  33. 33. REDES NEURONALES ARTIFÍCIALES I 0  p3 =   t3=0; −1 a) usando la regla de aprendizaje del perceptrón, calcule la matriz de pesos W y el umbral de activación b. Considere los parámetros iniciales: W = [1 -0.8] b=0 Solución Para el primer par de entrada/salida 1  p1 =   t1=1; 2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1  a = hardlim([1 –0.8]   + 0) 2 a = hardlim(-0.6) = 0 Se calcula el error: e = t1 – a = 1 – 0 e=1 Usando la regla de aprendizaje del perceptrón, se modifica el vector de pesos: Wnuevo = Wanterior + ept Wnuevo = [1 –0.8] + [1 2] Wnuevo = [2 1.2] Para el segundo par de entrada/salida − 1 p2 =   t2=0; 2  33
  34. 34. REDES NEURONALES ARTIFÍCIALES I Se calcula la salida utilizando la función de activación propia de la red (con os nuevos pesos): a = hardlim(wp + b) − 1 a = hardlim([2 1.2]   + 0) 2  a = hardlim(0.4) = 1 Se calcula el error: e = t2 – a = 0 - 1 e = -1 Usando la regla de aprendizaje del perceptrón, se modifica el vector de pesos: Wnuevo = Wanterior + ept Wnuevo = [2 1.2] + (-1)[-1 2] Wnuevo = [3 –0.8] Para el tercer par de entrada/salida 0  p3 =   t3=0; −1 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 0  a = hardlim([3 –0.8]   + 0) −1 a = hardlim(0.8) = 1 Se calcula el error: e = t3 – a = 0 - 1 e = -1 Usando la regla de aprendizaje del perceptrón, se modifica el vector de pesos: Wnuevo = Wanterior + ept 34
  35. 35. REDES NEURONALES ARTIFÍCIALES I Wnuevo = [3 –0.8] + (-1) [0 -1] Wnuevo = [3 0.2] Es necesario comprobar que, cada que se obtiene un vector de pesos nuevo, el error e = 0 para todos los pares de entrada/salida, para dar por terminado el proceso de entrenamiento: Para el primer par de entrada/salida 1  p1 =   t1=1; 2 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1  a = hardlim([3 0.2]   + 0) 2 a = hardlim(3.4) = 1 Se calcula el error: e = t1 – a = 1 – 1 e=0 Para el segundo par de entrada/salida − 1 p2 =   t2=0; 2  Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) − 1 a = hardlim([3 0.2]   + 0) 2  a = hardlim(-2.6) = 0 Se calcula el error: e = t2 – a = 0 – 0 e=0 35
  36. 36. REDES NEURONALES ARTIFÍCIALES I Para el tercer par de entrada/salida 0  p3 =   t3=0; −1 Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 0  a = hardlim([3 0.2]   + 0) −1 a = hardlim(-0.2) = 0 Se calcula el error: e = t3 – a = 0 – 0 e=0 Por lo tanto, los valores finales de W y b son: W = [3 0.2] b=0 b) Grafique su solución, indicando la frontera de decisión, indicando la frontera de decisión y su vector de pesos. Figura 2.3 Gráfica-solución del ejercicio 2 36
  37. 37. REDES NEURONALES ARTIFÍCIALES I La figura 2.3 muestra la solución del ejercicio. En ella se puede visualizar el vector de pesos W, la frontera de decisión (perpendicular al vector de pesos W) atravesando el origen. Esto último se debe a que el valor del umbral b es cero. 3. Diseñe una red neuronal que permita clasificar dos tipos de fruta considerando la forma, la textura y el peso. Observe la figura 2.4. Figura 2.4. Clasificador de frutas Las entradas para el perceptrón tienen la forma:  forma    P = textura   peso    Los valores para cada parámetro son: Forma: - 1, si la fruta es redonda - -1, si la fruta es elíptica Textura: - 1, si la superficie de la fruta es suave - -1, si la superficie es rugosa Peso: - 1, ≥ 1 libra - -1, < 1 libra 37
  38. 38. REDES NEURONALES ARTIFÍCIALES I Según lo anterior, los vectores de entrada para las frutas a clasificar son: Naranja 1    p1 = − 1 t1 = 0 − 1   Manzana 1    p2 = 1  t2 = 1   −1 Los valores iniciales del vector de pesos y el umbral son: W = [0.5 -1 -0.5] b = 0.5 a) Aplique la regla de aprendizaje del perceptrón para calcular el vector de pesos W y el umbral b. Solución Primera época Para el primer par de entrada/salida (Primera iteración) 1    p1 = − 1 t1=0; − 1   Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1    a = hardlim([0.5 -1 -0.5] − 1 + 0.5) − 1   a = hardlim(2.5) = 1 38
  39. 39. REDES NEURONALES ARTIFÍCIALES I Se calcula el error: e = t1 – a = 0 - 1 e = -1 Usando la regla de aprendizaje del perceptrón, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + ept Wnuevo = [0.5 -1 -0.5] + (-1)[1 -1 -1] Wnuevo = [-0.5 0 0.5] bnuevo = banterior + e bnuevo = 0.5 - 1 bnuevo = -0.5 Para el segundo par de entrada/salida (segunda iteración) 1    p2 = 1  t2=1; −1   Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1    a = hardlim([-0.5 0 0.5] 1  + (-0.5)) −1   a = hardlim(-1.5) = 0 Se calcula el error: e = t1 – a = 1 - 0 e=1 39
  40. 40. REDES NEURONALES ARTIFÍCIALES I Usando la regla de aprendizaje del perceptrón, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + ept Wnuevo = [-0.5 0 0.5] + [1 1 -1] Wnuevo = [0.5 1 -0.5] bnuevo = banterior + e bnuevo = -0.5 + 1 bnuevo = 0.5 Segunda época Para el primer par de entrada/salida (Primera iteración) 1    p1 = − 1 t1=0; − 1   Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1    a = hardlim([0.5 1 -0.5] − 1 + 0.5) − 1   a = hardlim(0.5) = 1 Se calcula el error: e = t1 – a = 0 - 1 e = -1 Usando la regla de aprendizaje del perceptrón, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + ept Wnuevo = [0.5 1 -0.5] + (-1)[1 -1 -1] 40
  41. 41. REDES NEURONALES ARTIFÍCIALES I Wnuevo = [-0.5 2 0.5] bnuevo = banterior + e bnuevo = 0.5 - 1 bnuevo = -0.5 Para el segundo par de entrada/salida (segunda iteración) 1    p2 = 1  t2=1; −1   Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1    a = hardlim([-0.5 2 0.5] 1  + (-0.5)) −1   a = hardlim(0.5) = 1 Se calcula el error: e = t1 – a = 1 - 1 e=0 No hay modificación de W y b. Sólo resta probar si se cumple para el primer par de entrada. 1    p1 = − 1 t1=0; − 1   Se calcula la salida utilizando la función de activación propia de la red: a = hardlim(wp + b) 1    a = hardlim([-0.5 2 0.5] − 1 + (-0.5)) − 1   41
  42. 42. REDES NEURONALES ARTIFÍCIALES I a = hardlim(-3.5) = 0 Se calcula el error: e = t1 – a = 0 - 0 e=0 Por lo tanto, los valores finales de W y b son: W = [-0.5 2 0.5] b = 0.5 Simulaciones en Matlab 1. Resuelva el siguiente problema de clasificación del perceptrón y su regla de aprendizaje Los pares de entrada/salida son: 1  p1 =   t1=1;  2 − 1 p2 =   t2=0; 2  0  p3 =   t3=0; −1 En el editor de Matlab teclee el siguiente código que resuelve el problema anterior: clear;echo on;clc; %Se definen los vectores de entrada P=[1 -1 0; 2 2 -1]; %Se define el vector de salida T = [1 0 0] % Se inicializa la red con los valores anteriores [w,b]=initp(P,T); %Se entrena la red usando la regla de aprendizaje [w,b,epoch,errors]=trainp(w,b,P,T,-1); 42
  43. 43. REDES NEURONALES ARTIFÍCIALES I %Evalúa un par de entrada para clasificarlo a=simup([-1;0],w,b) echo off En la ventana de comandos de Matlab aparece paso a paso la ejecución del programa, como sigue: %Se definen los vectores de entrada P=[1 -1 0; %Se define el vector de salida T = [1 0 0] T = 1 0 0 % Se inicializa la red con los valores anteriores [w,b]=initp(P,T); %Se entrena la red usando la regla de aprendizaje [w,b,epoch,errors]=trainp(w,b,P,T,-1); TRAINP: 0/100 epochs, SSE = 2. TRAINP: 1/100 epochs, SSE = 1. TRAINP: 2/100 epochs, SSE = 0. %Evalúa un par de entrada para clasificarlo a=simup([-1;0],w,b) a = 0 echo off La salida del programa (además del proceso descrito en la ventana de comandos de Matlab) es una gráfica donde aparecen los patrones de entrada en un plano de dos dimensiones, con la clasificación correspondiente (frontera de decisión). Esto se muestra en la figura 2.5. Figura 2.5. Patrones clasificados 43
  44. 44. REDES NEURONALES ARTIFÍCIALES I La frontera de decisión y el vector de pesos y umbral que dan solución al problema dependerá de los valores iniciales que Matlab asigna a w y b. 2. Perceptrón de cuatro clases Clasifique el siguiente grupo de vectores de entrada en cuatro clases.  1 1    0  0  Clase 1:  p1 =  , p 2 =    t1 =  , t 2 =     1  2   0  0   2  2   0  0   Clase 2:  p3 =  , p 4 =    t 3 =  , t 4 =     − 1 0    1  1    − 1 − 2   1  1   Clase 3:  p5 =  , p 6 =    t 5 =  , t 6 =     2  1    0  0    − 1 − 2   1 1  Clase 4:  p 7 =  , p8 =    t 7 =  , t 8 =     − 1 − 2   1 1  Para solucionar un problema de 4 clases de entrada, se necesita un perceptrón con al menos dos neuronas, lo que traerá como consecuencia dos vectores de pesos y, por lo tanto, dos fronteras de decisión. En el editor de Matlab teclee el siguiente código que resuelve el problema anterior: clear;echo on;clc; %Se definen los vectores de entrada P=[1 1 2 2 -1 -2 -1 -2; 1 2 -1 0 2 1 -1 -2]; %Se define los vectores de salida T = [0 0 0 0 1 1 1 1; 0 0 1 1 0 0 1 1]; % Se inicializa la red con los valores anteriores [w,b]=initp(P,T) %Se entrena la red usando la regla de aprendizaje [w,b,epoch,errors]=trainp(w,b,P,T,-1); %Evalúa un par de entrada para clasificarlo a=simup([1;1],w,b) echo off 44
  45. 45. REDES NEURONALES ARTIFÍCIALES I En la ventana de comandos de Matlab aparece paso a paso la ejecución del programa, como sigue: %Se definen los vectores de entrada P=[1 1 2 2 -1 -2 -1 -2; %Se define el vector de salida T = [0 0 0 0 1 1 1 1; % Se inicializa la red con los valores anteriores [w,b]=initp(P,T) w = 0.9003 0.2137 -0.5377 -0.0280 b = 0.7826 0.5242 %Se entrena la red usando la regla de aprendizaje [w,b,epoch,errors]=trainp(w,b,P,T,-1); TRAINP: 0/100 epochs, SSE = 11. TRAINP: 1/100 epochs, SSE = 3. TRAINP: 2/100 epochs, SSE = 0. %Evalúa un par de entrada para clasificarlo a=simup([1;1],w,b) a = 0 0 echo off La salida del programa (además del proceso descrito en la ventana de comandos de Matlab) es una gráfica donde aparecen los patrones de entrada de las cuatro clases, con una marca especial para diferenciar cada una de ellas en un plano de dos dimensiones, con la clasificación correspondiente. Ahora se ve una frontera de decisión en rojo, mientras que la otra es de color azul. Esto se muestra en la figura 2.6. Figura 2.6. Patrones de las 4 clases clasificados 45
  46. 46. REDES NEURONALES ARTIFÍCIALES I Las fronteras de decisión al que dan solución al problema dependerá de los valores iniciales que Matlab asigna a w y b. La Red Adaline Las redes Adaline fueron desarrolladas por Bernie Widrow en la Universidad de Stanford poco después de que Rosenblatt desarrollara el Perceptrón. El término Adaline es una sigla; sin embargo, significado ha cambiado ligeramente con el paso de los años. Inicialmente se llamaba ADAptative LInear Neuron (neurona Lineal Adaptativa); pasó a ser el ADAptative LInear Element (Elemento Lineal Adaptativo) cuando las redes cayeron en desgracia al final de los años setenta. Tiene una estructura casi idéntica a la del perceptrón general. La figura 2.7. muestra la estructura de una red Adaline. s X0 Salida Lineal y X1 W0 1 W1 S y s X2 Salida W2 Combinador Adaptativo Lineal -1 binaria W Conmutador Bipolar XN N Figura 2.7. Estructura de una red ADALINE Es necesario hacer dos modificaciones básicas a la estructura del perceptrón general para transformarla en una red Adaline. La primera consiste en añadir una conexión de peso Wo, que se conoce con el nombre de término de tendencia. Este término es el peso de una conexión que siempre tiene un valor de entrada igual a 1. La inclusión de este término se debe fundamentalmente a la experiencia. La segunda modificación consiste en añadir una condición bipolar a la salida. El cuadro de trazos que se ve en la figura 2.7 encierra una parte de la red que es lo que se denomina 46
  47. 47. REDES NEURONALES ARTIFÍCIALES I combinador adaptativo lineal (ALC). Si la salida del ALC es positiva, la salida de la red es +1. si la salida del ALC es negativa, entonces la salida de la red es –1. El ALC lleva a cabo el cálculo de una suma de productos empleando los vectores de entrada y de peso, y aplica una función de salida para obtener un valor único de salida, tal y como lo hace el perceptrón. La función de salida en este caso es la función identidad, así como la función de activación. El uso de esta función como función de salida y como función de activación significa que la salida es igual a la activación, que es lo mismo que la entrada neta de la unidad. La red Adaline (o el ALC) es adaptativa en el sentido de que existe un procedimiento bien definido para modificar los pesos con objeto de hacer posible que la red proporcione el valor de salida correcto para la entrada dada. La red Adaline es lineal porque la salida es una función lineal sencilla de los valores de entrada. Es una neurona tan sólo en el sentido (muy limitado) del perceptrón. También se podría decir que la red Adaline es un elemento lineal, evitando por completo el tema de la neurona. Algoritmo de aprendizaje 1. Se aplica un patrón de entrada P. 2. Se obtiene la salida del ALC y se calcula la diferencia con respecto a la deseada (error). 3. Se actualizan los pesos. 4. Se repiten pasos 1 a 3 con todos los vectores de entrada. 5. Si el Error es un valor aceptable, detenerse, si no repetir algoritmo. La regla de aprendizaje de Widrow-Hoff o LMS (Least Mean Square), que utiliza la red Adaline para su entrenamiento, hace posible la realización del paso 3. Por medio de las siguientes ecuaciones, se realiza la actualización de los parámetros de la red: Para el vector de pesos (W) Wnuevo = Wanterior + 2α ept Para el umbral (b) bnuevo = banterior + 2αe Para el error (e) e=t-a 47
  48. 48. REDES NEURONALES ARTIFÍCIALES I donde α se conoce como razón o tasa de aprendizaje y 0 < α < 1. El cálculo de dicho parámetro se realiza mediante una matriz de correlación R: R = E(P Pt) Los eigenvalores λi de la matriz de correlación serán útiles para la determinación del parámetro a, pues: 1 0<α< λmax Aplicaciones • El principal campo de aplicación es el Procesamiento de Señales. • Filtros que eliminen el ruido en señales portadoras de información. • Filtros de ecualización adaptativos en Módems de alta velocidad. • Cancelación del ruido materno de grabaciones ECG del latido del feto humano. • Eliminación de ecos en circuitos telefónicos. • Canceladores adaptativos del eco para el filtrado de señales en comunicaciones telefónicas de larga distancia y comunicaciones vía satélite. Ejercicios 48
  49. 49. REDES NEURONALES ARTIFÍCIALES I 1. Clasifique el siguiente conjunto de patrones usando el algoritmo LMS y una red Adaline. 1 p1 =   t1=1; 1 1  p2 =   t2=-1; −1 Los parámetros iniciales son: α = 0.25 W =[0 0], b=0 a) Calcule el vector de pesos W y el umbral b Primera época Para el primer par de entrada/salida 1 p1 =   t1=1; 1 Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1 a = [0 0]   + 0 1 a=0 Se calcula el error: e = t1 – a = 1 -0 = 1 Usando la regla de aprendizaje de Widrow-Hoff, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + 2αept Wnuevo = [0 0] + 2(0.25)(1)[1 1] Wnuevo = [0.5 0.5] b= 0 Para el segundo par de entrada/salida 49
  50. 50. REDES NEURONALES ARTIFÍCIALES I 1  p2 =   t2=-1; −1 Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1  a = [0.5 0.5]   + 0 −1 a=0 Se calcula el error: e = t2 – a = -1 -0 = -1 Usando la regla de aprendizaje de Widrow-Hoff, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + 2αept Wnuevo = [0.5 0.5] + 2(0.25)(-1)[1 -1] Wnuevo = [0 1] b= 0 Segunda época Para el primer par de entrada/salida 1 p1 =   t1=1; 1 Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1 a = [0 1]   + 0 1 a=1 Se calcula el error: e = t1 – a = 1 -1 = 0 Para el segundo par de entrada/salida 50
  51. 51. REDES NEURONALES ARTIFÍCIALES I 1  p2 =   t2=-1; −1 Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1  a = [0 1]   + 0 −1 a = -1 Se calcula el error: e = t2 – a = -1 + 1 = 0 Por lo tanto, los valores finales de W y b son: W = [0 1] b=0 b) Grafique la frontera de decisión y los patrones Figura 2.8 Gráfica-solución del ejercicio 1 La figura 2.8 muestra la solución del ejercicio. En ella se puede visualizar el vector de pesos W, la frontera de decisión (perpendicular al vector de pesos W) atravesando el origen. Esto último se debe a que el valor del umbral b es cero. 2. Clasifique el siguiente conjunto de patrones usando el algoritmo LMS y una red Adaline. 51
  52. 52. REDES NEURONALES ARTIFÍCIALES I 1    p1 = − 1 t1=-1; − 1   1    p2 = 1  t2=1; −1   Los parámetros iniciales son: W =[0 0 0] b=0 a) Calcule la razón de aprendizaje α El cálculo de este parámetro se realiza mediante una matriz de correlación R: R = E(P · Pt) R = E(P Pt) 1 1 R= P1· P1t + P2· P2t 2 2 1  1  1   1 1  R = − 1 [1 –1 –1] +   [1 1 –1] 2 2 − 1   −1    1 − 1 − 1 1 1 − 1  2 0 − 2  1 0 − 1 1   1 1  1  0 2 0  0 1 0 R = − 1 1 1 +  1 − 1 =  =   2 2 2 − 1 1  1  − 1 − 1 1    − 2 0 2  − 1 0 1      Se procede ahora al cálculo de los Eigenvalores (λi) de la matriz R mediante la fórmula: P(λ) = |A – λI| Esto hace: 52
  53. 53. REDES NEURONALES ARTIFÍCIALES I  1 0 − 1 λ 0 0  (1 − λ ) 0 −1  0 1 0  0 λ 0 0 (1 − λ ) 0  -   = − 1 0 1   0 0 λ      −1 0 (1 − λ ) Haciendo el cálculo del determinante se tiene: (1 − λ ) 0 −1 0 (1 − λ ) 0 = (1 - λ)3 – (1 – λ) −1 0 (1 − λ ) Factorizando se tiene: (1 - λ)3 – (1 – λ) = (1 - λ) {(1 - λ)2 – 1} = (1 - λ) {1 - 2 λ + λ2 -1} = (1 - λ) {-2 λ + λ2 } = (1 - λ)(λ−2) λ = 0 Haciendo el cálculo de las raíces, se obtienen los eigenvalores de la matriz R: λ1 =0 λ2=1 λ3=2 La máxima razón de aprendizaje estable es: aprendizaje λmáx = λ3 = 2 1 0<α< λmax 1 = 1 / 2 = 0.5 λmax Se elige una tasa de aprendizaje de 0.2 (valor típico) Nota: α se puede proponer a través de prueba y error. b) Calcule el vector de pesos W y el umbral b 53
  54. 54. REDES NEURONALES ARTIFÍCIALES I Primera época Para el primer par de entrada/salida 1    p1 = − 1 t1=-1; − 1   Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1    a = [0 0 0] − 1 + 0 − 1   a=0 Se calcula el error: e = t1 – a = -1 -0 = -1 Usando la regla de aprendizaje de Widrow-Hoff, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + 2αept Wnuevo = [0 0 0] + 2(0.2)(-1)[1 -1 -1] Wnuevo = [-0.4 0.4 0.4] b= 0 Para el segundo par de entrada/salida 1    p2 = 1  t2=1; −1   Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1    a = [-0.4 0.4 0.4] 1  + 0 −1   54
  55. 55. REDES NEURONALES ARTIFÍCIALES I a = -0.4 Se calcula el error: e = t2 – a = 1 + 0.4 = 1.4 Usando la regla de aprendizaje de Widrow-Hoff, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + 2αept Wnuevo = [-0.4 0.4 0.4] + 2(0.2)(1.4)[1 1 -1] Wnuevo = [0.16 0.96 -0.16] b= 0 Segunda época Para el primer par de entrada/salida 1    p1 = − 1 t1=-1; − 1   Se calcula la salida utilizando la función de activación propia de la red: a = pureline(wp + b) = wp + b 1    a = [0.16 0.96 –0.16] − 1 + 0 − 1   a = -0.64 Se calcula el error: e = t1 – a = -1 + 0.641 = -0.36 Usando la regla de aprendizaje de Widrow-Hoff, se modifica el vector de pesos y el umbral: Wnuevo = Wanterior + 2αept Wnuevo = [0.16 0.96 -0.16] + 2(0.2)(-3.6)[1 -1 -1] Wnuevo = [0.016 1.1040 -0.016] b= 0 55
  56. 56. REDES NEURONALES ARTIFÍCIALES I Si se continua el proceso, el algoritmo convergirá en: W = [0 1 0] b=0 Simulaciones en MATLAB 1. Resuelva el siguiente problema de clasificación de la red Adaline y su regla de aprendizaje Los pares de entrada/salida son: 0  p1 =   t1=1;  2  2 p2 =   t2=1; 0   − 2 p3 =   t3=0;  − 2 En el editor de Matlab teclee el siguiente código que resuelve el problema anterior: clear;echo on;clc; %Se definen los vectores de entrada P=[0 2 -2; 2 0 -2]; %Se define el vector de salida T = [1 1 0]; %Se crea una red lineal adaptativa NEWLIN(PR,S,ID,LR) donde: PR – matriz Rx2 de los valores máximos y mínimos para R elementos de entrada. S - Número de elementos de salida ID – Vector de retardo, default = [0]. LR – Tasa de aprendizaje, default = 0.01; net=newlin([-2 2;-2 2],1); %Se ajusta el error (valor por omisión=0) net.trainParam.goal=0.1; %Se ajustan las épocas (valor por omisión=100) net.trainParam.epochs=50; %Se entrena la red 56
  57. 57. REDES NEURONALES ARTIFÍCIALES I [net,tr]=train(net,P,T); %Si se desea dar valores iniciales al vector de pesos y umbral, escríbanse las siguientes dos líneas de código net.IW{1,1}=[-1 -1]; net.b{1}=[2]; %Se asignan a las variables W y b los valores calculados una vez terminado el proceso de entrenamiento W=net.IW{1,1} b=net.b{1} %Se grafican los patrones de entrada, las salidas deseadas y la frontera de decisión mediante las siguientes líneas plotpv(P,T) plotpc(net.IW{1,1},net.b{1}) echo off En la ventana de comandos de Matlab aparece paso a paso la ejecución del programa, como sigue: %Se definen los vectores de entrada P=[0 2 -2; %Se define el vector de salida T = [1 1 0]; %Se crea una red lineal net=newlin([-2 2;-2 2],1); %Se ajusta el error (valor por omisión=0) net.trainParam.goal=0.1; %Se ajustan las épocas (omisión=100) net.trainParam.epochs=50; %Se entrena la red [net,tr]=train(net,P,T); TRAINWB, Epoch 0/50, MSE 0.666667/0.1. TRAINWB, Epoch 25/50, MSE 0.0972903/0.1. TRAINWB, Performance goal met. %net.IW{1,1}=[-1 -1]; %net.b{1}=[2]; W=net.IW{1,1} W = 0.1598 0.1598 57
  58. 58. REDES NEURONALES ARTIFÍCIALES I b=net.b{1} b = 0.3554 plotpv(P,T) plotpc(net.IW{1,1},net.b{1}) echo off La salida del programa (además del proceso descrito en la ventana de comandos de Matlab) es una sucesión de gráficas donde aparece la variación del error en un número N de épocas. Esto se muestra en la figura 2.9. Figura 2.9. Evolución del error Los patrones de entrada en un plano de dos dimensiones, con la clasificación correspondiente (frontera de decisión) aparecen después de terminado el proceso de entrenamiento. Esto se muestra en la figura 2.10. Figura 2.10. Patrones clasificados 58
  59. 59. REDES NEURONALES ARTIFÍCIALES I CAPITULO III REDES NEURONALES MULTICAPA CON APRENDIZAJE SUPERVISADO.. 3.1.0 Perceptron Multicapa El Perceptrón multicapa (MLP) puede ser usado para la predicción de una serie de datos en el tiempo; tal a sido su éxito en la medición de la demanda de gas y electricidad, además de la predicción de cambios en el valor de los instrumentos financieros. Predicción de mercados financieros, diagnósticos médicos, el Perceptrón como una red codificadora, el Perceptrón aprende a sumar enteros. NETtalk es un Perceptrón que es capaz de transformar texto en ingles en sonido individual (representaciones fonéticas) y la pronunciación con la utilización de un sintetizador de voz; cuenta con aproximadamente 300 nodos de neuronas (siendo 80 en la capa escondida) y 20,000 conexiones individuales. 3.1.1 Características Cada capa de la red es caracterizada por la matriz de parámetros, y el funcionamiento de la red por una composición no lineal de operaciones como se muestra: F(W, x) = ϕ(W1 ·…ϕ(Wl ·x) …) (3.11) Una red neuronal hacia adelante (feedforward) con dos capas (una oculta y una de salida) es comúnmente usada para aproximación de mapas no conocidos. Si la capa de salida es lineal, la red puede tener una estructura similar a una red de base radial (RBF). El perceptron multicapa es comúnmente usado para aproximar mapas no lineales complejos. En general, esto es posible, dos capas son suficientes para aproximar cualquier función no lineal. Por consiguiente, estamos restringiendo nuestras consideraciones a una red de dos capas. La estructura de la parte de decodificación de la red de dos capas es representada en la figura (3.1). 59
  60. 60. REDES NEURONALES ARTIFÍCIALES I Figure 3.1: Diagrama a bloques de una red neuronal de una sola capa oculta con conexión hacia adelante La estructura de cada capa ha sido descrita en la figura. En la capa oculta se usan funciones no lineales y en la capa de salida puede ser diferente. Existen dos matrices de pesos: una matriz de L ×p Wh en la capa oculta, y una matriz de m ×L Wy en la capa de salida. El funcionamiento de la red puede ser descrito de la siguiente manera: u(n) = Wh ·x(n) ; h(n) = ψ(u(n)) - hidden signals ; v(n) = W · h(n) ; y y(n) = ϕ(v(n)) - output signals . o simplemente como y(n) = ϕ ( Wy ·ψ ( Wh ·x(n) ) ) (3.12) Típicamente, la función sigmoidal (tangente hiperbólica) es usada, pero existen otras funciones que también se pueden utilizar. Una condición importante desde el punto de vista de el aprendizaje es que la función debe ser diferenciable. Típicamente funciones no lineales y sus derivadas se usan en el perceptron multicapa: Sigmoidal unipolar: 1 1 y = ϕ( v ) = = (tanh(βv/2) -1) (160,30) 1 + e-βv 2 La derivada de la función sigmoidal: dϕ e-βv y′ = =β = β y (1 - y) dv (1 + e-βv)2 Sigmoidal bipolar: 60
  61. 61. REDES NEURONALES ARTIFÍCIALES I ϕ( v ) = tanh(βv)(320,0) La derivada de la función bipolar sigmoidal: dϕ 4 βe2 βv y′ = = 2 βv = β(1 - y2) d v (e +1)2 Nota que • Derivadas de la función sigmoidal son siempre no negativas. • Derivadas pueden ser calculadas directamente desde la señal de salida usando simplemente operaciones aritméticas. • En saturación, para valores grandes de potencial de activación, v, las derivadas se acercan al cero. 3.1.2 Arquitectura Figura 3.2. Arquitectura de un perceptron multicapa. 3.1.3 Aplicaciones El rango de tareas que el Perceptrón puede manejar es mucho mayor que simples decisiones y reconocimiento de patrones. Por ejemplo, se puede entrenar una red para formar el tiempo pasado de los verbos en ingles, leer texto en ingles y manuscrito. 3.2.0 Adaline 61

×