Your SlideShare is downloading. ×
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Investigación redes neuronales
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Investigación redes neuronales

666

Published on

Aplicaciones de redes neuronales desde el punto de vista computacional

Aplicaciones de redes neuronales desde el punto de vista computacional

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
666
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
40
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Índice. 1 Aspectos generales 2 1.1. La neurona 3 1.2. La neurona desde el punto de vista computacional 4 1.3. La red neuronal 5 1.4. Tipos de Redes Neuronales. 1.4.1. Los modelos Neuronales 6 1.4.2. Algoritmos Neuronales 7 2 Aplicaciones 2.1. Redes neuronales para determinar la distribución espacial de la humedad del suelo en una pequeña cuenca de drenaje. 9 2.1.1. Introducción 10 2.1.2. Funcionalidad de la Redes neuronales. 11 2.1.3. Zona de estudio. 12 2.1.4. Materiales y métodos. 13 2.1.5. Modelos digitales del terreno 14 2.1.6. Aplicando la Red neuronal 17 2.1.7. Validación y cálculo del error: bootstrap. 19 2.1.8. Análisis de importancia de las variables: saliency análisis 20 2.1.9. Resultados 21 2.1.10. Conclusiones 2.2. Redes neuronales en el tratamiento de información financiera 25 2.2.1. Introducción 27 2.2.2. Aplicando Redes neuronales en áreas de información financiera. 27 2.2.3. El fracaso empresarial. 28 2.2.4. Evaluación del comportamiento de las acciones en el mercado de valores. 30 2.2.5. Concesión de préstamos 31 3 Resumen y conclusiones. 33 Bibliografía 35 1
  • 2. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 1. Aspectos Generales. Las computadoras que utilizamos actualmente pueden realizar una gran variedad de tareas a una velocidad y con una habilidad muy superior a las alcanzables por los seres humanos. Ninguno de nosotros será por dar un ejemplo, resolver complejas ecuaciones matemáticas a la velocidad que lo hacer una computadora personal. Sin embargo, la capacidad del ser humano es todavía muy superior a la de las “maquinas” en gran cantidad de tareas. Ningún sistema artificial es capaz de competir con la capacidad de un ser humano por citar algún ejemplo, en reconocimiento de imágenes, o para discernir entre objetos de diversas formas u orientaciones, ni siquiera es capaz de competir con la capacidad de un insecto. Mientras una computadora precisa de una enorme cantidad de información y de condiciones restrictivas para operar o reconocer, por ejemplo, sonidos, un humano adulto reconoce sin ningún esfuerzo palabras pronunciadas por diferentes personas, a diferentes velocidades, acentos y entonaciones, incluso en presencia de ruido ambiental. El ser humano es capaz mediante reglas aprendidas de la experiencia, que es mucho mas capaz que la computadoras en la resolución de problemas definidos de manera imprecisa, ambiguos o que requieren procesar gran cantidad de información. Nuestro cerebro alcanza estos objetivos, mediante miles de millones de células simples e interconectadas entre si, llamadas neuronas, localizadas en una parte determinada del cerebro. 2
  • 3. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 1.1. La Neurona. Emil Heinrich Du Bois-Reymond, en 1849 se basó en la teoría de que el sistema nervioso poseía una naturaleza eléctrica, detectaba las imperceptibles descargas eléctricas provocadas al contraer los músculos del brazo. Utilizó un galvanómetro, que es un primitivo medidor de tensiones. Se dio cuenta de que la piel actuaba como un aislante de las señales eléctricas, entonces, intencionalmente se abrió una herida y logró captar señales eléctricas unas treinta veces más intensas. El sistema nervioso esta compuesto por una red se células nerviosas, y está constituido por células nerviosas, fibras nerviosas y la neuroglia, que está formada por varias clases de células. La célula nerviosa se denomina neurona, que es la unidad funcional del sistema nervioso. Se estima que en cada milímetro del cerebro hay cerca de 50.000 neuronas. Figura 1. Estructura de una neurona típica. El tamaño y la forma de las neuronas es variable, pero con las mismas subdivisiones. El cuerpo de la neurona, o Soma contiene el núcleo. Se encarga de todas las actividades metabólicas de la neurona y recibe la información de otras neuronas vecinas a través de las conexiones sinápticas.Las Dendritas son las conexiones de entrada de la neurona. Por su parte el Axón es la "salida" de la neurona y se utiliza para enviar impulsos o señales a otras células nerviosas. Cuando el axón esta cerca de sus células destino se divide en muchas ramificaciones que forman sinápsis con el soma o axones de otras células, como podemos observar en la figura 1. Esta unión puede ser "inhibidora" o "excitadora" según el transmisor que las libere. 3
  • 4. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Cada neurona recibe de 10.000 a 100.000 sinápsis y el axón realiza una cantidad de conexiones similar. La transmisión de una señal de una célula a otra por medio de la sinápsis es un proceso químico. En él se liberan substancias transmisoras en el lado del emisor de la unión. El efecto es elevar o disminuir el potencial eléctrico dentro del cuerpo de la célula receptora. Si su potencial alcanza el umbral se envía un pulso o potencial de acción por el axón. Se dice, entonces, que la célula se disparó. Este pulso alcanza otras neuronas a través de la distribuciones de los axones. 1.2. La neurona desde el punto de vista computacional Desde el punto de vista funcional, las neuronas constituyen procesadores de información “sencillos”. Posee un canal de entrada de información (las dendritas), un órgano de cómputo (el soma), y un canal de salida (el axón). En las interneuronas el axón envía la información a otras neuronas, mientras que en las neuronas motoras lo hace directamente al musculo. Existe otro tipo de neuronas, las receptoras o censoras, que reciben la información directamente del exterior. Se calcula que una neurona de la corteza cerebrales recibe información por medio, de unas 10,000 neuronas (convergencia) y envía impulsos a varios ciento de ellas (divergencia). En el cerebro se aprecia la existencia de una organización horizontal en capas (se suelen señalar seis capas), además de existir una organización vertical en forma de columnas de neuronas, hay además grupos neuronales, compuestos de millones de neuronas pertenecientes a una determinada región del cerebro, que constituyen unidades funcionales especializadas en ciertas tareas (un área visual, un área auditiva, etc) formando para ellos las denominadas redes neuronales. La unión entre dos neuronas se ha denominado sinapsis, podemos decir que las neuronas presinápticas (que envían señales) y las postsinápticas (que las reciben). Las sinapsis son direcciones, es decir, la información fluye en un solo sentido. Cada neurona recibe impulsos procedentes de otras neuronas (inputs) a través de las dendritas que están conectada a las salidas de otras neuronas por las sinapsis, estas alterna la efectividad con la que la señal es transmitida a través de un parámetro, el peso. 4
  • 5. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales El aprendizaje resulta de la modificación de estos pesos, que unido al procesamiento de la información de la neurona, determinan el mecanismo básico de la memoria. El Soma de la neurona recibe todos estos inputs, y emite una señal de salida (output), esta salida se transmite a través del axón desde donde se propaga mediante diferencias de potencial a las dendritas de otras neuronas. 1.3. La Red Neuronal El sistema de neuronas biológico esta compuesto por neuronas de entrada (censores) conectados a una compleja red (neuronas ocultas), las cuales, a su vez, están conectadas a las neuronas de salidas que controlan, por ejemplo, los músculos. Los censores pueden ser señales de los oídos, ojos, etc. las respuestas de las neuronas de salida activan los músculos correspondientes. En el cerebro hay una gigantesca red de neuronas ocultas que realizan la computación necesaria. Simular una red neuronal artificial se intenta en expresar la solución de los problemas complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de computación inspirados en el funcionamiento del cerebro humano, y atribuyéndole cierta “inteligencia”, los cuales no son sino la combinación de una gran cantidad de elementos simples de procesos (neuronas) interconectados que, operando de forma masiva, consiguen resolver problemas relacionados con el reconocimiento de formas o patrones, predicción, codificación, clasificación, control y optimación. Por esta razón, científicos han vuelto la vista hacia el cerebro tratando de estudiarlo desde el punto de vista de la computación. La estructura del cerebro es radicalmente diferente a la del ordenador convencional. No está compuesto por un único microprocesador altamente complejo y eficiente, sino por miles de millones de ellos, las neuronas, que realizan de modo impreciso y relativamente lento un tipo de cálculo muy simple. A partir de esta idea surgieron los sistemas En este proceso del pensamiento científico surgieron los sistemas neuronales artificiales con la firme idea de tomar las características esenciales de la estructura neuronal del cerebro para crear sistemas que lo simularan en parte, mediante sistemas electrónico. Estos sistemas están compuestos por procesadores simples, a los que se denomina neuronas artificiales. 5
  • 6. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Aunque actualmente existen “computadoras” neuronales, con cientos de pequeños microprocesadores que trabajan en paralelo, lo cierto es que mediante software se puede emular el comportamiento de estas redes neuronales en un ordenador convencional, existen multitud de programas de redes neuronales que funcionan incluso en un ordenador personal. Las redes neuronales operan sobre la base de reconocimiento de patrones, y que pueden adquirir, almacenar y utilizar conocimiento experimental, obtenido a partir de ejemplos. Esta forma de adquirir el conocimiento es una de sus características más destacables: no se programa de forma directa, sino que se adquiere a partir de ejemplos, por ajuste de parámetros de las neuronas mediante un algoritmo de aprendizaje. En cuanto al modo interno de trabajo las redes neuronales son modelos matemáticos multivariantes que utilizan procedimientos iterativos, en general para minimizar funciones de error, resueltos con procedimientos matemáticos. Existen grandes semejanzas a los sistemas expertos en cuanto al objetivo de representar el conocimiento pero son completamente opuestos en cuanto a la forma de conseguir este conocimiento; ya que, los sistemas expertos se acercan más al razonamiento deductivo, es decir obtener una serie de reglas y las redes neuronales al inductivo; es decir al aprendizaje mediante ejemplos. Ambas técnicas de razonamiento se utilizan frecuentemente La gestión empresarial utiliza frecuentemente ambos esquemas de razonamiento, por lo que ambas técnicas tienen cabida. Además, ambos modelos son perfectamente compatibles, de forma que se pueden integrar en un único sistema. 1.4. Tipos de Redes Neuronales. Distinguiremos antes de seguir entre modelos neuronales, que es la forma, y los algoritmos neuronales, es decir cómo aprenden. 1.4.1. Los modelos neuronales. Los modelos neuronales son similares o incluso en muchos casos idénticos a otros modelos matemáticos bien conocidos. Se suelen representar mediante grafos, llamados en este contexto neuronas artificiales. Cada neurona realiza una función matemática. Las neuronas se agrupan en capas, constituyendo una red neuronal. Una determinada red neuronal está 6
  • 7. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales confeccionada y entrenada para llevar a cabo una labor específica. Finalmente, una o varias redes, conforman el sistema global. Varios modelos Los modelos neuronales se diferencian en la función que incorpora la neurona, es decir su organización y forma de las conexiones. Estudios realizados comparan los modelos neuronales con los modelos estadísticos más convencionales, encontrando que la mayoría de los modelos neuronales tienen un equivalente tradicional, y que frecuentemente los científicos del campo de las redes neuronales reinventan modelos ya existentes. 1.4.2. Algoritmos Neuronales. Los modelos neuronales utilizan varios algoritmos de estimación, aprendizaje o entrenamiento para encontrar los valores de los parámetros del modelo, que comúnmente en contexto de las redes neuronales se denominan pesos sinápticos. El entrenamiento se realiza mediante patrones-ejemplo, siendo dos los tipos de aprendizaje: supervisado y no supervisado. a) El aprendizaje supervisado. Se asemeja al método de enseñanza tradicional con un profesor que indica y corrige los errores del alumno hasta que éste aprende la lección. Si la red utiliza un tipo de aprendizaje supervisado debemos proporcionarle parejas de patrones entrada-salida y la red neuronal aprende a asociarlos. En terminología estadística equivale a los modelos en los que hay vectores de variables independientes y dependientes: técnicas de regresión, análisis discriminante, análisis lógit, modelos de series temporales, etc. b) El aprendizaje no supervisado No hay un profesor que corrija los errores al alumno; recordamos más al autoaprendizaje. El alumno dispone del material de estudio pero nadie lo controla. Si el entrenamiento es no supervisado, únicamente debemos suministrar a la red los datos de entrada para que 7
  • 8. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales extraiga los rasgos característicos esenciales. En terminología estadística equivale a los modelos en los que sólo hay vectores de variables independientes y buscan el agrupamiento de los patrones de entrada: análisis de conglomerados o cluster, escalas multidimensionales, etc. Procedimiento de trabajo de las Redes Neuronales La red neuronal no dispone de ningún tipo de conocimiento útil almacenado. Para que la red neuronal ejecute una tarea es preciso entrenarla, en terminología estadística diríamos que es necesario estimar los parámetros. En realidad todo el procedimiento es estadístico: primero se selecciona un conjunto de datos, o patrones de aprendizaje. Después se desarrolla la arquitectura neuronal, número de neuronas, tipo de red. Después se selecciona el modelo y el número de variables dependiente e independientes. Se procede a la fase de aprendizaje o estimación del modelo y a continuación se validan los resultados. 8
  • 9. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2. Aplicaciones. En los siguientes capítulos se analizarán ejemplos en los que actualmente se están aplicando las redes neuronales artificiales, y su gran impacto que han tenido, ademas se da una pequeña introducción de todos los factores que intervienen en la aplicación para que se vea de manera clara esta aplicación. 2.1. Redes neuronales para determinar la distribución espacial de la humedad del suelo en una pequeña cuenca de drenaje. La distribución espacial de la humedad superficial del suelo se ha determinado tradicionalmente mediante técnicas de interpolación o mediante métodos geoestadísticos a partir de valores de humedad medidos puntualmente. Los valores son casi siempre función exclusiva de los valores vecinos conocidos. En este método se considera que el contenido de humedad del suelo en cuencas semiáridas es en gran medida explicado por factores topográficos locales tales como curvaturas horizontales y verticales, factores topográficos de entorno más amplio tales como el índice topográfico y por la vegetación. De esta manera, y a diferencia de las interpolaciones clásicas, se tienen en cuenta factores que alteran el principio de correlación espacial tales como cambios bruscos en la cubierta vegetal debidos a cambios en los usos del suelo. Ninguno de los factores anteriormente mencionados es por si solo capaz de explicar la variación espacial de la humedad del suelo de manera satisfactoria, sin embargo sí se puede hacer parcialmente de forma combinada. Como se puede ver en este estudio que la interrelación entre estos factores es de una forma compleja, mediante este estudio se demuestra que es posible realizar una predicción razonable de la distribución espacial de la humedad superficial, estudiar sus patrones espaciales y contrastar la importancia de cada variable a partir de un número limitado de mediciones mediante el uso de redes neuronales artificiales multicapa de tipo feedforward con aprendizaje mediante mecanismos de retropropagación del error utilizando principalmente variables derivadas de un modelo digital de elevaciones (MDE) y de fotografía aérea. Una vez entrenada y usada la red, se ha evaluado el error mediante un método bootstrap y se ha realizado un análisis de importancia de las variables utilizadas. 9
  • 10. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Este estudio ha usado el MDE (Modelo Digital de Elevaciones) con una resolución planimétrica de 5 metros y 79 medidas de humedad realizadas con TDR en una pequeña cuenca experimental en condiciones de humedad altas (invierno). 2.1.1. Introducción. Conocer la distribución espacial de la humedad del suelo es de gran importancia para los estudios de hidrología, especialmente para los estudios centrados en la zona no saturada y en la superficie del terreno. Una muestra de esto es la gran cantidad de estudios realizados es la gran cantidad de estudios realizados sobre este tema, a pesar de la abundante información generada, los procesos de distribución del agua en el suelo y los métodos para predecir el contenido de humedad siguen estando abiertos al estudio debido a la gran variabilidad espacial y temporal de este parámetro y a la cantidad de factores que lo determinan y que se influencian mutuamente. Además, estos factores varían en importancia dependiendo de la escala de trabajo, del estado de humedad del suelo, del dominio hidrológico que estemos tratando, de la vegetación, de la topografía, de las propiedades del suelo, de la profundidad de la zona saturada. En lo que la mayor parte de estos trabajos de investigación coinciden es en considerar al relieve como un factor de gran valor explicativo para determinar los patrones de humedad del suelo, dando lugar al desarrollo de índices o métodos que ponen en relación las formas del terreno con propiedades del suelo. Los modelos digitales del terreno están, desde los años 1950 siendo aplicados a estudios de ciencias de la tierra siendo una fuente de información de gran relevancia para el proceso de la información geográfica, una de las grandes ventajas que ofrecen estos modelos que contienen información totalmente distribuida, espacialmente continua y fácilmente transformable. La mayoría de los parámetros topográficos más usados pueden derivarse de un modelo digital de elevaciones, pudiendo extraerse múltiples capas de nueva información desde la misma fuente, cosa que hace a esta fuente de información más atractiva y potente. 10
  • 11. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Estos parámetros topográficos derivables de un modelo digital de elevaciones podemos distinguir entre los locales, que no traen implícita información sobre la ubicación de ese punto con respecto al conjunto del terreno y que se calculan a partir de un vecindario de puntos restringido tal como la pendiente, la orientación o los valores de las curvaturas locales horizontal o vertical. La vegetación es otro factor citado por los autores como de gran valor explicativo en la fragmentación espacial de la humedad del suelo, sin embargo, obtener información espacialmente continua para todo el área de estudio es más complicado si no se pueden aplicar técnicas de teledetección. En este caso se utilizan fotografías aérea para tratar de introducir información continua sobre la cubierta vegetal en nuestro modelo. Por otro lado, las técnicas usadas para estudiar las relaciones entre estos factores y el contenido de humedad del suelo han recaído casi siempre en relaciones lineales del tipo de regresiones simples o múltiples, en otros casos utiliza métodos geoestadísticos basados principalmente en los valores medidos cercanos más que en los factores explicativos subyacentes. 2.1.2. Funcionalidad de la Redes neuronales. Las redes neuronales artificiales son unas técnicas que se han venido aplicando con éxito en tareas de clasificación, reconocimiento y predicción en muchas áreas de conocimiento. Uno de los grandes potenciales de las redes neuronales es que son capaces de establecer relaciones funcionales entre variables dependientes e independientes aún cuando las relaciones son altamente no lineales debido a la variabilidad de la influencia de los factores y a su sensibilidad ante la influencia de otros factores no contemplados en el modelo, tal y como ocurre en los procesos de lluvia. Los objetivos son: El primero era probar las capacidades de un modelo de red neuronal para determinar el patrón espacial de la humedad superficial a través de variables fáciles de obtener de manera distribuida y continua para todo el terreno. El segundo objetivo era comprobar su valor como herramienta explicativa estudiando la estructura de la red para averiguar la importancia relativa de cada variable en la explicación de los resultados. 11
  • 12. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2.1.3. Zona de estudio. El estudio se realizó en la cuenca experimental Parapuños situada 24 kilómetros al noroeste de la ciudad de Cáceres, España (figura 2) con una superficie de unas 100 hectáreas. El sustrato geológico es principalmente el complejo esquisto-grauváquico dominante en toda la penillanura al que se le superponen restos de antiguos pedimentos formados por acumulación de cantos rodados de cuarcita de tamaño variable en una matriz limo-arenosa no cementada y rojiza. Fig. 2. Ubicación de la zona de estudio. Figura 3. Cuenca experimental Parapuños El principal uso de la cuenca es el ganadero junto con alguna zona cultivada con forrajes para abastecer el ganado cuando no hay pastos. El arbolado disperso y formado por encinas. El estrato arbustivo es abundante en las zonas de mayor pendiente. Respecto al régimen de lluvias y temperaturas, la zona está dentro del clima mediterráneo pero matizado por influencias atlánticas y continentales. La temperatura media anual está en torno a los 16º y la precipitación es de 512 mm. Ambos parámetros están sujetos a fuertes variaciones tanto estacionales como interanuales. Utilizando el índice de aridez de la UNESCO (1979), el área de estudio se clasifica como semi-árida. La cuenca no tiene cursos permanentes, el principal drenaje lo forman dos cauces que viene a unirse a unos 300 metros antes de la salida de la cuenca. En general la zona está bien drenada aunque hay zonas hacia la parte baja de la cuenca tendentes a quedar encharcadas durante las estaciones húmedas. 12
  • 13. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2.1.4. Materiales y métodos. El problema planteado en este estudio se ha abordado en términos equiparables a los de cantidad de masa y cantidad de movimiento (momentum) del agua. Las zonas tendentes a acumular mayor cantidad de agua con menor energía serán zonas con mayor probabilidad de tener altos contenidos de humedad. Similarmente, las zonas donde el agua diverge y el terreno le imprime aceleración serán zonas con menor probabilidad de acumular humedad. Para ello se han utilizado tres modelos digitales del terreno. Los dos primeros modelos reflejan las curvaturas locales del terreno. La curvatura vertical estima el grado de concavidad o convexidad del terreno en la dirección de la máxima pendiente. Refleja así la aceleración local del agua en ese punto. Valores mayores de cero indican zonas convexas de aceleración local del flujo y valores negativos indican concavidades que frenan el flujo facilitando la infiltración. La curvatura horizontal, por otro lado, es el grado de concavidad o convexidad en la dirección perpendicular a la de máxima pendiente por lo que detecta las concavidades (valores negativos) o convexidades (valores positivos) locales de convergencia o divergencia del flujo. Con estas dos variables incluimos en nuestro modelo una manera de evaluar la cantidad de movimiento (curvatura vertical) y la concentración de masa (curvatura horizontal) locales. La tercera variable es el índice topográfico de humedad, que es una función del área de contribución (que refleja por tanto la cantidad de agua que convergerá en el punto en cuestión) y la pendiente del terreno (que sería expresión de la cantidad de movimiento de agua en ese punto), pero esta vez con una expresión que tiene en cuenta un entorno más amplio. Finalmente se incluye una variable que trata de reflejar la influencia de la cubierta vegetal, factor que hay que tener muy en cuenta ya que altera notablemente todo el planteamiento teórico anterior. Dada la dificultad para obtener fácilmente información fiable y totalmente distribuida sobre el terreno de la cubierta vegetal, hemos optado por aproximarla usando una ortofotografía aérea en tonos de gris de 8 bits (256 tonos de gris) de manera que los suelos desnudos se ven claros (valores digitales menores) y las zonas con mayor cubierta vegetal aparecen más oscuros en función de la densidad de la vegetación (valores digitales más altos). Obviamente, se trata de una simplificación de la cobertura dado que existen tres estratos vegetales superpuestos, pero es un sustituto que da una aproximación útil para el propósito empleado. 13
  • 14. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Figura 4. Histograma con la distribución de la muestra de 79 puntos medidos Para establecer la relación entre los parámetros predictores anteriores y el contenido volumétrico de humedad de la superficie del suelo, se han realizado medidas de los primeros 15 cms del suelo siguiendo un sistema de longitudes variables y orientados siguiendo la dirección de máxima pendiente del terreno (figura. 5). En la figura 3 se puede ver la distribución de frecuencias de la muestra. Se midieron un total de 79 puntos con un TDR Tektronix 1502C Las medidas se hicieron en febrero de 2003, cuando la cuenca se encontraba en estado húmedo tras un periodo de lluvias, aunque no había llovido inmediatamente antes de la campaña de muestreo. 2.1.5. Modelos digitales del terreno El modelo digital de elevaciones (MDE) que ha servido de base para derivar el resto de los parámetros topográficos se ha realizado a partir de la restitución de fotografías de un vuelo a escala 1:6000 realizado en junio de 2002. El MDE se ha interpolado usando el inverso del cuadrado de la distancia a los datos vecinos más próximos. La resolución para el modelo usado ha sido de 5 m. A este modelo se ha aplicado un filtro de media para generalizar las formas y suavizar pequeñas singularidades del terreno que no son significativas para el objetivo del estudio (figuras 5, 6, 7, 8, 9). 14
  • 15. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Figura 5. Modelo de elevaciones Figura 6. Curvatura vertical Figura 7. Curvatura Horizontal Figura 8. Indice topográfico humedad Figura 9. Cobertura de la vegetación A partir de este modelo de elevaciones se han derivado el resto de los parámetros topográficos utilizados generando así tres modelos digitales del terreno: modelo de curvatura vertical (Kv), modelo de curvatura horizontal (Kh) e índice topográfico (TI). (figuras 5, 6, 7, 8, 9). 15
  • 16. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales El modelo Kv refleja la curvatura local del terreno en la dirección de la pendiente. Esta curvatura expresa la relativa aceleración o deceleración local del flujo. Su cálculo se define como: donde r, t, s, p y q son las derivadas parciales de la altura (z) con respecto a las direcciones x e y calculadas: El modelo Kh seria la curvatura del terreno en la dirección de la orientación (ortogonal por tanto a Kv). Esta curvatura es expresión de la convergencia o divergencia del flujo. Su cálculo viene definido por: donde r, t, s, p y q están definidas igual que anteriormente. Ambas expresiones, Kv y Kh tienen dimensiones de [L-1]. El modelo TI esta dado por la expresión. donde CA es el área de contribución para el punto de cálculo y tg(β) es la pendiente local del terreno. Este modelo expresa parcialmente el volumen relativo y la cantidad de movimiento del flujo que pasará por cada punto del terreno. 16
  • 17. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2.1.6. Aplicando la Red neuronal Las redes neuronales multicapa de tipo feedforward con aprendizaje por algoritmo de retropropagación son un tipo de estructura de computación paralela, donde muchas pequeñas unidades de cálculo llamadas neuronas están masivamente interconectadas con la capa anterior, de donde reciben la información, y con la capa posterior, hacia donde la transmiten. Es una forma de computación que trata de emular el funcionamiento de las neuronas biológicas en el sentido de que cada neurona tiene unos impulsos de entrada que estimula la neurona y la hace disparar por su axón un impulso proporcional al estímulo recibido. Figura 10. Estructura de una Red neuronal FeedForward Las redes neuronales artificiales FeedForward (figura 10) están constituidas por una primera capa de entrada (neuronas perceptoras) con tantas unidades como elementos tenga el vector de información que se va a introducir. Esta capa está conectada normalmente a una o más capas ocultas donde se realizan los cálculos y finalmente la información transformada llega una capa de salida de donde se obtienen los resultados. El almacenamiento del conocimiento adquirido por la red no está ubicado en ningún elemento concreto sino que está distribuido entre todas las neuronas a través del ajuste de unos coeficientes (pesos numéricos o pesos sinápticos). Esta red comienza con unos pesos aleatorios y aprende ajustando esos valores iterativamente hasta que llega a un estado estable donde es capaz de establecer una relación funcional dentro de un error objetivo prefijado entre la información de entrada y el conjunto de ejemplos que se le muestran a la red en su fase de aprendizaje. La versatilidad de este tipo de estructuras reside en su capacidad para detectar y establecer relaciones no lineales complejas entre las variables independientes (entradas) y las dependientes. El ajuste de los pesos que permite esto se hace a través de un mecanismo de retropropagación del error desde la capa de salida y hacia las capas ocultas después de comparar el resultado obtenido 17
  • 18. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales por la salida de la red con el valor correcto dado por el vector de valores del conjunto de ejemplos durante la fase de entrenamiento. El reparto del error a través de las neuronas se hace en función de la culpa de cada una de ellas en ese error, es decir, las neuronas con mayores pesos sinápticos y con mayor sensibilidad en la relación entre estímulo y respuesta serán a las que se les asigne una mayor parte del error. Este proceso, durante la fase de aprendizaje, se repite presentando sucesivamente a la red el conjunto de ejemplos de manera que se minimice una función objetivo como por ejemplo la raíz del error cuadrático medio (RMSE). Formalmente el mecanismo de proceso de cada neurona es simple: donde Out es la salida de la neurona, wtx es el producto escalar entre el vector transpuesto de pesos sinápticos y el vector de entradas a la neurona. El subíndice m indica el número de entradas a la neurona (igual al número de neuronas de la capa anterior) y w0 es un valor llamado de umbral y que da mayor flexibilidad a la red ya que permite ajustarse para disminuir el sesgo. En la práctica este valor es tratado como un peso más que va multiplicado siempre por una entrada de -1 (indicado como primer elemento). Viene a ser semejante al término que marca el corte con el eje y en una regresión lineal. Finalmente, la función f que transforma el escalar resultante en la salida de la neurona normalmente es una función sigmoidal Esta función produce salidas dentro del rango [0,1]. La salida de cada neurona es una de las entradas para cada neurona de la siguiente capa tal excepto en la primera capa donde la entrada de cada neurona es el elemento correspondiente del vector con las variables independientes y la salida es la función identidad. La capa de salida también es excepción ya que el resultado del cómputo neuronal no es entrada de otra neurona sino que es la salida de la red. La estructura de la red neuronal aplicada en este estudio tiene una capa de entrada de cuatro neuronas (para los parámetros Kv, Kh, TI y veget) una capa oculta con 13 neuronas y una capa de salida con una sola neurona que nos dará la predicción del contenido volumétrico de humedad del suelo. Tanto el conjunto de datos de entrada (parámetros) como el conjunto de datos de ejemplo ha sido normalizado en el rango [0.1, 0.95]. La normalización de los datos en el rango [0, 1] es necesaria para evitar desbordamientos en los cálculos exponenciales y 18
  • 19. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales para mejorar la eficiencia de la red. Si además se normalizan en el rango propuesto se evitan problemas de saturación en la función sigmoidal para los valores extremos y se mejora la eficiencia del algoritmo de retropropagación, ya que al estar basado en cálculo de derivadas, trabaja muy lento en las colas de la función sigmoidal donde la pendiente es pequeña. 2.1.7. Validación y cálculo del error: bootstrap. Para estimar el error real de predicción de una red neuronal normalmente se prueba la red sobre un conjunto de valores conocidos pero no usados en la fase de entrenamiento. En nuestro caso, el número de datos para optimizar la red es demasiado limitado como para no usar todos en la fase de entrenamiento, por lo que no es viable extraer un subconjunto de datos y usarlo como conjunto de validación. Como no conocemos la población total, el error que podamos calcular sobre una muestra será el error aparente La diferencia entre el error aparente y el error real es el sesgo β de manera que: Para hallar este sesgo se utilizó un método llamado bootstrap. Es un método no paramétrico, por lo que no debemos preocuparnos por conocer la distribución de la población. El método infiere la población F a partir de la muestra f realizando una simulación Monte Carlo con repetidos remuestreos sobre f. La ventaja del método es que utiliza todo el conjunto n de datos de la muestra f para construir la red definitiva y estima el sesgo haciendo remuestreos con reposición sobre toda la muestra. Se remuestrea aleatoriamente hasta que se obtienen muestras de tamaño n. Para cada muestra bootstrap (T*b) se construye un modelo de predicción ƒ(T*b,xi), por lo que deberemos construir B+1 redes neuronales diferentes (B modelos bootstrap más un modelo final con todos los datos del conjunto). Así, estimamos el sesgo a través de B muestras independientes de tipo bootstrap usando la siguiente expresión: donde Xi indica que se pasan por la red todas las variables independientes de la muestra f, X*i indica que se pasan solo las variables independientes de la muestra es el 19
  • 20. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales valor esperado. El resto de los términos ya están definidos. Finalmente: Conforme B->∞ el sesgo estimado va tendiendo a su valor verdadero. Para propósitos prácticos, el número de muestras B recomendado varía según los autores pero suele estar entre 25 y 200. En este estudio se han construido 20 muestras de este tipo construyendo 20 modelos de validación más 1 modelo final, número que para este estudio preliminar se ha considerado suficiente. 2.1.8. Análisis de importancia de las variables: saliency análisis Los modelos de redes neuronales han sido usados por los científicos debido a que son considerados modelos black-box sin valor explicativo y son más considerados como modelos predictivos para aplicaciones de ingeniería, donde interesa obtener un valor ajustado en la predicción sin preocuparse de los aspectos físicos que explican el funcionamiento del proceso. Sin embargo, es posible abrir la caja negra (black-box) y obtener información de carácter explicativo de estos modelos a través de los análisis de importancia o significación de las variables [saliency análisis]. La manera de desagregar la red para estudiar la influencia de cada variable sobre la predicción es haciendo un estudio de los pesos sinápticos. El método divide los pesos sinápticos de la capa oculta hacia la capa de salida en componentes asociados con cada nodo de entrada de la capa de neuronas sensoriales (capa inicial de entrada de variables independientes). El peso resultante asociado con cada entrada sería reflejo de su importancia. Para ello, el valor absoluto de cada peso que conecta la capa oculta con la de salida es incorporado a los pesos que conectan la capa de entrada con la capa oculta a través de la expresión donde w*ij es el peso asociado a cada entrada y que es proporcional a su importancia, wij son los valores absolutos de los pesos de la capa de entrada a la capa de salida y wjo es el absoluto de los pesos de la capa oculta a la capa de salida. Los subíndices i y j son los elementos en wij: i = 1, 2...p numero de entradas para cada j = 1,2 ...h nodo en la capa oculta. Estos valores w*ij se pasan a porcentajes y esto será la estimación de la relevancia de cada variables con respecto a las demás. 20
  • 21. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2.1.9. Resultados El método propuesto se comparará con los resultados de aplicar un análisis de regresión a cada variable y con la aplicación de un modelo de regresión múltiple con todas las variables propuestas. En la tabla 1 podemos ver los resultados de este análisis de regresión simple y en la tabla 2 podemos ver los resultados de la regresión múltiple. Podemos observar que las regresiones simples dan resultados satisfactorios, todos los r son significativos al 0.05 iguales o mayores que los reportados por otros autores y los coeficientes de determinación son relativamente altos. Podemos observar cómo la relación entre kv y kh es inversa debido a que cuando sus valores son menores que cero el flujo converge respectivamente y cuando son mayores que cero el flujo acelera o diverge según el tipo de curvatura. Sin embargo, la explicación conjunta a través de regresión múltiple no da los resultados que se esperaban, donde tan solo el coeficiente de la vegetación supera el test t al0.05y el coeficiente de determinación múltiple no es demasiado satisfactorio. El RMSE calculado es 0.061 (6.1%). Figura 11. Predicción mediante red neuronal del contenido volumétrico de humedad vs mediciones Figura 12. Predicción mediante red neuronal del contenido 21
  • 22. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales En la figura 11 podemos observar la regresión entre los datos obtenidos a través del modelo de red neuronal artificial propuestos y los datos observados. El RMSE de la estimación es de 0.0269 (2.7%), aunque éste es el error aparente estimado sobre el mismo conjunto de datos que se ha utilizado para la construcción del modelo. La estimación se ha hecho construyendo 20 modelos de validación que han arrojado un sesgo de 0.027 (2.7%) con una desviación estándar en la distribución del sesgo de 0.013 (1.3%). Finalmente, de la predicción estimado de 0.054 (5.4%). En la figura. 12 se puede ver el mapa de la predicción generado por el modelo de red neuronal. Las zonas negras son zonas sin predicción debido a que alguno de los parámetros predictores estaba fuera del rango establecido por los parámetros usados en el entrenamiento y se ha evitado extrapolar estos puntos. En la figura. 13 observamos el histograma de la distribución de la humedad superficial estimada para toda la cuenca, que tiene una forma similar a la de la muestra (figura 4), donde destaca la elevada proporción de valores extremos. En este mapa y en el histograma de distribución de la humedad se puede observar como hay una gran proporción de zonas de bajo contenido de humedad que coinciden con las zonas de mayor pendiente y una con altos valores de humedad que coincide con los bordes de los cauces. El resto del terreno se agolpa en humedades en torno al 35%, que son también humedades muy altas siguiendo una distribución bastante normal. En el mes del muestreo, el estado de humedad de la cuenca aún era relativamente alto, había grandes zonas de la cuenca encharcadas. Esto ocurría en todas las zonas bajas o con drenaje más deficiente, zonas que contrastaban con las zonas secas de las pendientes de la cabecera. Así, se distinguen tres unidades diferenciables en las etapas húmedas de la cuenca coincidiendo con las zonas de mayor pendiente, las zonas más bajas cercanas a los cauces y fondos de vaguada y la zona intermedia que sería el resto de la cuenca. Una vez que tenemos cierta confianza sobre la estimación del modelo de red neuronal y sobre los parámetros elegidos como predictores podemos hacer un estudio de los pesos sinápticos para evaluar su grado de participación en la predicción. 22
  • 23. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales El número total de pesos de nuestra red, incluyendo los valores de umbral es de 79. El método se ha seguido tal y como se ha explicado para las cuatro variables introducidas más la influencia del valor de umbral o sesgo, que como hemos visto, se trata igual que un peso ordinario asociado a una entrada de -1. La tabla 3 muestra los resultados del análisis expresando el porcentaje de participación o importancia de cada variable en la explicación de la distribución de la humedad para este caso. En este caso parece que la capacidad local del terreno para concentrar la humedad es una de las variables que más influyen en el proceso. Nótese que esta variable es también la que ha tenido mayor coeficiente de determinación en la regresión lineal. La vegetación tiene también un papel relevante en la explicación del proceso como era esperado. Con relevancias similares estarían el componente local de aceleración del agua (Kv) y el índice topográfico (IT), siendo este último ligeramente más bajo que Kv. El índice topográfico tiene una influencia moderada, siendo menos explicativa que otras variables como ya han encontrado otros autores; el índice topográfico ha sido desarrollado en zonas húmedas donde el mecanismo de generación de escorrentía es por exceso de saturación del suelo y existe una conexión hidrológica permanente entre un punto del terreno y los que se encuentran vertiente arriba. Es por ello que proponen la creación y aplicación de otros índices para condiciones semiáridas incluyendo, por ejemplo, valores de radiación. La capacidad de los índices de humedad variará su representatividad sobre la predicción de la distribución de la humedad del suelo en función del estado de humedad de la cuenca. En el caso de este estudio preliminar, la cuenca estaba en condiciones de humedad elevadas, aunque entrando en la fase de retraimiento, serán necesarios estudios más detallados, ocupando diferentes estadios en el proceso de humedecimiento-desecación de la cuenca e incluyendo más parámetros para obtener conclusiones más robustas y respaldadas. 23
  • 24. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2.1.10. Conclusiones Los resultados de este estudio muestran que la aplicación de las redes neuronales artificiales para predecir la distribución espacial de la humedad da resultados satisfactorios y tienen mejor rendimiento que los modelos de regresión múltiple aún con un muestreo limitado. Esto puede ser debido a la no linealidad en las relaciones entre los parámetros predictores y el contenido volumétrico de humedad en la superficie del suelo y al hecho de que para las redes neuronales artificiales, al ser un método no paramétrico, las asunciones necesarias son más relajadas que para las regresiones múltiples. Al mismo tiempo, se puede ver una cierta capacidad de la red para ofrecer información que ayuda a la explicación del proceso y permite valorar la importancia de cada variable introducida en el modelo. Es un método que si bien requiere un mayor gasto computacional y de tiempo durante el proceso de entrenamiento, una vez calibrada la red procesar un volumen grande de datos para generar predicciones es sencillo y muy rápido. Tiene además la ventaja de ser un sistema bastante robusto ante información ruidosa o incompleta siendo capaz de seguir generando predicciones razonables. Parece acertado pensar que el modelo puede aumentar su capacidad explicativa si se introducen nuevos parámetros elegidos de manera cuidadosa. En épocas donde la cuenca esté en proceso de secado, la introducción de un mapa de la distribución de la insolación o la radiación solar puede ser de gran valor. Información sobre la profundidad del suelo o la conductividad hidráulica para explicar la distribución de la humedad son también importantes variables a tener en cuenta debido a su probada capacidad explicativa aún cuando esta información es más costosa de obtener de forma espacialmente distribuida. Seguir realizando pruebas en diferentes épocas del año, introduciendo un mayor número de variables y sobre todo con un muestreo más extensivo debe ser motivo de más investigación para valorar de una manera más rigurosa los resultados de este estudio. 24
  • 25. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 2.2. Redes neuronales en el tratamiento de información financiera Las redes neuronales tratan de resolver de forma eficiente problemas que pueden encuadrarse dentro de tres amplios grupos: optimización, reconocimiento y generalización. Estos tres tipos engloban un elevado número de situaciones, lo que hace que el campo de aplicación de las redes neuronales en la gestión empresarial sea muy amplio. En los problemas de optimización, se trata de determinar una solución que sea óptima. Generalmente se aplican redes neuronales realimentadas, como el modelo de Hopfield. En la gestión empresarial, son decisiones de optimización encontrar los niveles de tesorería, de existencias, de producción, construcción de carteras óptimas, etc. En los problemas de reconocimiento, se entrena una red neuronal con entradas (inputs) como sonidos, números, letras y se procede a la fase de test presentando esos mismos patrones con ruido. Este es uno de los campos más fructíferos en el desarrollo de redes neuronales y casi todos los modelos: perceptrón, redes de Hopfield, mapas de Kohonen, etc, han sido aplicados con mayor o menor éxito. En los problemas de generalización, la red neuronal se entrena con unos inputs y el test se realiza con otros casos diferentes. Problemas típicos de generalización son los de clasificación y predicción. La elección entre los diferentes sistemas de ayuda a la toma de decisiones depende del tipo de tarea a realizar. También el nivel al que se toman las decisiones afecta la elección del tipo de sistema más apropiado. Las decisiones se clasifican en estructuradas y no estructuradas: las decisiones estructuradas son repetitivas, rutinarias y existe un procedimiento definido para abordarlas, por el contrario, en las decisiones no estructuradas el decisor debe proporcionar juicios y aportar su propia evaluación. Más recientemente se han propuesto un esquema que relaciona el tipo de decisión (estructurada, semiestructurada y no estructurada) y el nivel organizacional (control operativo, de gestión y estratégico) con la herramienta a utilizar. Lógicamente en el nivel operativo dominan las decisiones estructuradas, en el nivel de gestión las semiestructuradas y en el estratégico las no estructuradas, formando una diagonal. En la figura siguiente se muestra un esquema incorporando las últimas tecnologías de la información, e incluso 25
  • 26. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales anticipando lo que puede ser un futuro próximo. Figura 13. Las herramientas a utilizar según el tipo de decision y el nivel organizativo. Se puede apreciar sobre la figura 13 que en el nivel operativo y toma de decisiones estructurada dominan los sistemas informatizados convencionales como los programas de contabilidad financiera y de costos, los de elaboración de nóminas, y en general aquellas tareas mecánicas. Son los llamados Sistemas de Proceso de Transacciones (TPS) basados en programación algorítmica convencional. El nivel operativo con decisiones semiestructuradas todavía está dominado por los programas convencionales, en lo que habría que incluir programas de control de tesorería, control de existencias y también las hojas de cálculo y sistemas gestores de bases de datos. Conforme las decisiones son menos estructuradas, empiezan a ser aplicables sistemas expertos y sistemas de ayuda a la toma de decisiones. Así, para la gestión financiera más básica, en la que además de realizar cálculos mecánicos: tipos de interés efectivo, cuotas de amortización de préstamos, también hay que tomar decisiones que manejan información incompleta o precisan incorporar el conocimiento de un especialista humano. Finalmente, para el nivel de toma de decisiones menos estructuradas pueden incorporarse modelos neuronales. La aplicacion en temas puntuales como la elaboración de presupuestos, la predicción de variables financieras como el beneficio, el cash-flow, podrían incorporarse modelos neuronales. 26
  • 27. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales En el nivel estratégico son barridos los programas convencionales manteniéndose únicamente las hojas de cálculo, por su capacidad de simulación. Los llamados Executive Information Systems (EIS), o Sistemas Informativos para Ejecutivos dominan las decisiones menos estructuradas, con tareas como la planificación estratégica y de contabilidad directiva. 2.2.1. Introducción Analizaremos un modelo de red neuronal autoorganizada en estos sistemas informativos, que filtra la información relevante para cada ejecutivo ya que la sobrecarga informativa es uno de los principales problemas de estos sistemas al estar basados en correo electrónico. Finalmente, determinados modelos de redes neuronales podrían aplicarse en problemas de optimización. En este esquema descrito, hemos situado el análisis de la información financiera en las decisiones semiestructuradas, en las que no hay una teoría general que pueda ser aplicada paso a paso, pero tampoco el análisis contable encaja en las decisiones completamente intuitivas o no estructuradas. Los sistemas neuronales presentan ciertos inconvenientes. Uno importante es que habitualmente realizan un complejo procesamiento que supone millones de operaciones, por lo que no es posible seguir paso a paso el razonamiento que les ha llevado a extraer sus conclusiones. Sin embargo, en redes pequeñas, mediante simulación o por el estudio de los pesos sinápticos sí es posible saber, al menos, qué variables de las introducidas han sido relevantes para tomar la decisión. 2.2.2. Aplicando Redes neuronales en áreas de información financiera. En noviembre de 1993, por iniciativa de la London Business School, se celebró en Londres la primera reunión internacional sobre aplicaciones de redes neuronales al tratamiento de la información financiera (First International Workshop on Neural Networks in the Capital Markets). Los principales proyectos desarrollados con información financiera se agrupan en dos temas: 27
  • 28. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales análisis del fracaso empresarial y predicción en los mercados financieros. Ambos tipos de trabajos responden a dos de las principales tareas en las que se están aplicando las redes neuronales: clasificación y predicción, que como hemos visto anteriormente. En la mayoría de estas aplicaciones se obtienen resultados excelentes con las redes neuronales. Muchos no comparan las redes neuronales con modelos estadísticos o sistemas expertos. Cuando lo hacen, en ocasiones no hay muestra y test, y al utilizar perceptrón multicapa, dada la excelente capacidad para representar todo tipo de funciones de este modelo, se obtienen resultados extraordinarios, sin que haya garantías de que al realizar un test los resultados fueran igualmente buenos. Incluso cuando se posee muestra y test es posible que la selección del modelo estadístico no sea la más apropiada, ya que muchos modelos estadísticos parten de hipótesis y no son idóneos para todos los tipos de trabajo. No hay garantías de que se esté utilizando el mejor de los modelos estadísticos, como tampoco las hay de que se esté seleccionando la configuración de la red neuronal más apropiada en cuanto a número de neuronas en la capa oculta, funciones de transferencia Finalmente, tampoco hay garantías de que sólo se estén publicando los éxitos con redes neuronales y no los fracasos. En Hawley, Johnson y Raina (1990), Medsker, Turban y Trippi (1992), Back y Sere (1993) y Cheng y Pike (1994) se describen las áreas de trabajo potenciales en Contabilidad y se hacen revisiones empíricas de las principales investigaciones, clasificándose según diferentes criterios. A continuación, se muestran aquellas investigaciones que tienen más interés, bien por su carácter de pioneros, bien por comparar con gran número de técnicas o por su calidad. En los problemas de clasificación se trata de asignar a cada caso su clase correspondiente, a partir de un conjunto de ejemplos: abarca problemas como el estudio del fracaso empresarial, la concesión de préstamos y la calificación de obligaciones. 2.2.3. El fracaso empresarial. En general se trata de seleccionar un conjunto de variables, generalmente ratios financieros y utilizar un modelo matemático que discrimine o detecte los rasgos que caracterizan a las empresas que tienen éxito de las que fracasan. Son muchos los modelos estadísticos 28
  • 29. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales propuestos y dadas las propiedades de los sistemas neuronales de actuar como clasificadores de información y reconocimiento de patrones, tempranamente se aplicaron a esta importante materia de investigación. El trabajo de Bell, Ribar y Verchio es un estudio pionero en la aplicación de redes neuronales al fracaso empresarial. En este trabajo se compara el perceptrón multicapa con el análisis lógit, tomando una amplia muestra de mil ocho bancos, de los que ciento dos eran quebrados. Otra muestra de mil cincuenta y nueve bancos sirve para el test, siendo ciento treinta y uno los bancos quebrados. Los resultados son muy similares, con una pequeña ventaja a favor del neuronal en la clasificación de empresas que se encuentran en la zona de indeterminación. Se realizó otro estudio sobre predicción de quiebras concretamente analizando cinco ratios de ciento veintinueve empresas estadounidenses, extrayendo la información del Moody's Industrial Manual correspondiente a 1975-1982. También aplicando diferentes modelos neuronales a estos mismos datos. En ambos estudios se comparan los resultados obtenidos con análisis discriminante, perceptrón simple, perceptrón multicapa y la red neuronal athena. Athena es un modelo neuronal descrito, que utiliza entrenamiento supervisado y se basa en una medida de entropía. Los resultados son favorables a los modelos neuronales frente al análisis discriminante. La principal novedad del trabajo de De Miguel, Revilla, Rodríguez y Cano (1993) es que aplican una red neuronal compleja, la de red neuronal supervisada que consta de dos módulos ART con aprendizaje no supervisado. Comparan esta red con cuatro modelos estadísticos para predecir el fracaso empresarial, aplicándolos a la bien conocida crisis del sector bancario español de los años ochenta. Toman los datos del trabajo previo de uno de los autores, Rodríguez (1989), que utilizaba análisis lógit. Los resultados son favorables al modelo neuronal. En otro modelo aplican análisis discriminante, lógit y perceptrón multicapa en una aplicación real para la Centrale dei Bilanci italiana. Los resultados no son concluyentes, ya que encuentran que las ventajas e inconvenientes de este modelo neuronal frente a los estadísticos se encuentran equilibradas e invitan a la realización de nuevos estudios empíricos. 29
  • 30. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Otros autores proponen un modelo híbrido que combina el modelo neuronal de mapas autoorganizados de Kohonen con otros modelos estadísticos y neuronales que obtienen una puntuación o Z score. Una vez creado el mapa autoorganizado se superpone la puntuación obtenida por la empresa, según el análisis discriminante o el perceptrón multicapa. El modelo, más allá del tradicional análisis Z, proporciona información sobre las características financieras más destacadas de la empresa analizada así como el tipo de empresa a la que se asemeja. 2.2.4. Evaluación del comportamiento de las acciones en el mercado de valores. En este tipo de estudios también se utilizan como variables los ratios financieros y se trata de evaluar a las empresas. Sin embargo la clasificación no es la anterior en empresas quebradas y solventes, sino que es el mercado de valores quien proporciona la variable independiente, teniendo en cuenta el comportamiento positivo o negativo de las rentabilidades obtenidas por las acciones. En 1993 el estudio que se realizó se trata de discriminar a las empresas en dos grupos, según sus acciones hayan tenido o no un buen comportamiento en los mercados financieros. Los datos incluyen información contable cuantitativa y cualitativa, pues examinan la carta que el presidente de la compañía envía a los accionistas. Comparan los resultados del análisis discriminante con los del perceptrón multicapa. El perceptrón sin capa oculta obtenía un 65% de acierto, resultado similar al del análisis discriminante. Al añadir una capa oculta, mejoran los resultados situándose al 76%. El añadir otra capa oculta no mejora significativamente la eficacia del modelo. Se comparan los tres modelos estadísticos más utilizados en la predicción del fracaso empresarial: análisis discriminante, lógit y particiones recursivas con el perceptrón multicapa. En este estudio la variable dependiente, es decir el calificar a la empresa positiva o negativamente, se deriva de los mercados financieros, según el valor estimado de la beta. La beta de un valor es una medida del riesgo sistemático, es decir atribuible al movimiento del mercado en su conjunto y se calcula mediante regresiones que relacionan los movimientos del título con los del índice general de precios del mercado. Las empresas son agrupadas a priori como de alto o bajo riesgo dependiendo de si el valor de su beta está por encima o por 30
  • 31. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales debajo de la media de la beta calculada para todas las empresas y todos los años. En los resultados se produce un empate, ya que todos los modelos fallan en el test en las mismas tres observaciones. 2.2.5. Concesión de préstamos Metodológicamente son muy similares los trabajos de concesión de préstamos a los de predicción de la quiebra. El conceder o no un préstamo es también una decisión no estructurada y la diferencia radica en que la información disponible no se extrae de bases de datos comerciales o de los registros sino que es información que suministra el propio banco o entidad financiera que encarga el estudio. En este caso la información no se compone exclusivamente de ratios financieros, sino que también hay otro tipo de datos, como por ejemplo quién es el director de la compañía, si es un cliente nuevo. En el estudio se describe una aplicación híbrida del Chase Manhattan Bank para la concesión de préstamos. Es un sistema mixto que incorpora herramientas estadísticas y un perceptrón multicapa. El Chase Manhattan Bank concede préstamos nuevos cada año por valor de trescientos millones de dólares e hizo una apuesta muy fuerte en el desarrollo de un modelo informatizado basado en el reconocimiento de patrones para las decisiones de concesión de préstamos. El programa se encuentra en un ordenador central al que los usuarios pueden acceder desde ordenadores compatibles, vía modem. Lógicamente algunos procedimientos se encuentran patentados por lo que es difícil conocer todos los módulos que integran el sistema. PCLM, que son las siglas de Public Company Loan Model proporciona extensos informes, gráficos, puntos fuertes y débiles de la compañía, así como una clasificación de las empresas en buenas, malas y críticas. Esta investigación es un poco limitada, pero que muestra que con programas comerciales también se pueden desarrollar aplicaciones híbridas complejas, que desarrolla una red experta para la concesión de préstamos. Su modelo incorpora una concha de sistema experto, Knowledge Pro, un simulador de red neuronal, NeuroShell y el gestor de bases de datos. Los tres programas comparten ficheros, de forma que al introducir los datos de la empresa el sistema experto analiza los ratios financieros y la red neuronal realiza los correspondientes cálculos. 31
  • 32. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Se propone un modelo mixto que integra un módulo de sistema experto que extrae de forma automática las reglas a partir de una base de datos y un perceptrón multicapa que interacciona con el anterior. Las variables de que parte son cuantitativas y cualitativas: algunas se extraen del balance y cuenta de resultados y el resto informan de la gerencia y las relaciones pasadas del cliente con el banco. Finalmente agrupa las empresas en tres categorías: bajo riesgo, moderado y alto. Los resultados son buenos pero no se pueden comparar con los obtenidos por otros modelos neuronales. 32
  • 33. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales 3. Resumen y conclusiones. El nacimiento de la Inteligencia Artificial se sitúa en los años cincuenta; en esa fecha la informática apenas se había desarrollado, y ya se planteaba la posibilidad de diseñar máquinas inteligentes. Hoy en día esta ciencia asiste a un cambio de paradigma y se habla de vida artificial, algoritmos genéticos, computación molecular o redes neuronales. En algunas de estas ramas los resultados teóricos van muy por encima de las realizaciones prácticas. Los sistemas expertos son la rama más conocida de la Inteligencia Artificial. La forma en que representan el conocimiento, habitualmente mediante símbolos, es apropiada cuando es posible extraer un conjunto de reglas y normas. En la vasta ciencia empresarial, existen subdominios en los que es fácil o al menos posible extraer una serie de reglas y otros en los que es menos factible. No existen reglas con rango de norma, conviven recetas extraídas de la práctica empresarial con otras obtenidas mediante análisis empíricos. Es por lo tanto un reto elaborar un sistema experto de diagnóstico empresarial. Las redes neuronales artificiales son un paradigma computacional que trata de resolver tareas que la computación algorítmica tradicional e Inteligencia Artificial convencional no han resuelto de un modo suficientemente satisfactorio. Tareas tales como el reconocimiento de patrones, problemas de optimización o clasificación. En las redes neuronales artificiales el conocimiento no se programa de forma directa en la red sino que se adquiere por medio de una regla de aprendizaje por ajuste de parámetros mediante ejemplos. Como vemos es un método inductivo, que recuerda más a los modelos estadísticos que a los sistemas expertos, la otra gran rama de la Inteligencia Artificial. Diversas parcelas de la gestión empresarial utilizan frecuentemente el método inductivo, entre ellas el análisis financiero, por lo que se justifica conocer lo que las redes neuronales nos pueden ofrecer. Quizá una solución pragmática sea utilizar sistemas mixtos que incorporen un módulo de sistema experto con sus reglas junto a otros módulos estadísticos o neuronales. En cuanto a las áreas de trabajo posibles, dependen del tipo de decisión, estructurada o no y del nivel organizativo, según sea operativo, de gestión o estratégico. En general las redes neuronales pueden cubrir un hueco importante en las decisiones no estructuradas, debido a esa capacidad de encontrar relaciones complejas entre los patrones de entrada. No son tan apropiadas en tareas muy estructuradas, en las que creemos que es más recomendable 33
  • 34. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales utilizar programas informáticos convencionales o sistemas expertos. Los primeros trabajos con redes neuronales e información contable fueron realizados por ingenieros o en general personas ajenas a la economía. Ultimamente empiezan a ser habituales en los congresos y revistas especializadas de economía, medicina, geología, etc, los estudios realizados con redes neuronales. En general estos trabajos tratan problemas de clasificación y predicción: el fracaso empresarial, el diseño de modelos de concesión de préstamos, de calificación de obligaciones, de elección del método contable, el análisis técnico y el análisis fundamental han sido los temas preferidos por los investigadores. Los resultados de estos estudios, aunque prometedores, por su naturaleza empírica no son concluyentes y casi todos ellos invitan a continuar realizando más estudios empíricos que muestren en qué problemas y bajo qué condiciones las redes neuronales pueden ser una solución más eficiente que los modelos utilizados habitualmente. 34
  • 35. Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Bibliografía. Abrahart, R.J., See, L. y Kneale, P.E., 2001. Investigating the role of saliency analysis with a neural network rainfall-runoff model. Journal of Computers and Geosciences, 27: 921-928 Florinsky, I.V., Eilers, R.G., Manning, G.R. y Fuller, L.G., 2002. Prediction of Soil Properties by Digital Terrain Modelling. Journal of Environmental Modelling & Software, 17: 295-311. Hsu, K.l., Gupta, H.V. y Sorooshian, S., 1993. Artificial neural network modeling of the rainfall-runoff process. Water resources research, 29(4): 1185-1194. Nath, R., Rajagopalan, B. y Ryker, R., 1997. Determining the saliency of input variables in neural network classifiers. Journal of Computers Ops Res, 24(8): 767-773. Shamseldin, A.Y., 1997. Application of a neural network technique to rainfall-runoff modelling. Journal of Hydrology, 199: 272-294. Twomey, J.M. y Smith, A.E., 1993. Nonparametric error estimation methods for evaluating and validating artificial neural network prediction models. In: Dagli, Burke, Fernández y Ghosh (Editors), Intelligent Engineering Systems through Artificial Neural Networks. ASME Press, pp. 233-238. Twomey, J.M. y Smith, A.E., 1995. Performance measures, consistency, and power for artificial neural network models. Mathematical Computer Modelling, 21(1/2): 243-258. Weibel, R. y Heller, M., 1991. Digital terrain modelling. In: D.J. Maguire, M.F. Goodchild y D. Rhind (Editors), Geographical Information Systems: Principles and Applications. Vol 1: Principles. Longman, Harlow, pp. 269-297 Maneta y Schnabel. Aplicación de redes neuronales para determinar la distribución espacial de la humedad. Longman, Pag 19-25 Estudios de la Zona No Saturada del Suelo Vol. VI. J. Álvarez-Benedí y P. Marinero, 2003 35

×