Construcción y empleo de modelos. Modelos de regresión.
1. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
Construcción y empleo de modelos
Modelos de regresión
Álvaro Noriega González- Universidad de Oviedo
2. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
INTRODUCCIÓN
En las anteriores clases, se han visto los diseños de experimentos (DOE)
básicos que existen y su aplicación a distintos ejemplos.
Los DOE son muy importantes porque son una parte fundamental de la
modelización de fenómenos experimentales y conviene entender muy bien
en que consisten.
El DOE más sencillo en el factorial completo cuya interpretación gráfica se
puede ver en el ejemplo siguiente:
y
Número de experimentos = nk
n: número de variables/factores
K: número de niveles
x
3. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
INCONVENIENTES DEL DOE FACTORIAL COMPLETO
Para mejorar la precisión del modelo buscado, es posible aumentar el
número de niveles en las variables. Sin embargo, esta opción no es
deseable desde el punto operativo ya que el número total de experimentos
(y, consecuentemente, el coste y el tiempo) aumenta muy rápidamente.
Ejemplo 1 Ejemplo 2
2 =4
2
22 = 4 En MATLAB se utilizan las
23 = 8 32 = 9 funciones ff2n y fullfact
n=2 k =2 para obtener los DOE
24 = 16 42 = 16 factoriales completos.
25 = 32 52 = 25
4. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
INCONVENIENTES DEL DOE FACTORIAL COMPLETO
Al utilizar el DOE factorial completo para definir un modelo, existe el
inconveniente de que dicho modelo no se puede extrapolar a situaciones
donde una o más variables están fuera del rango definido en la tabla de
datos.
¿Cuál es el valor
y predicho por el
modelo para este
punto/experimento?
x
La única solución es ampliar los rangos de las variables y hacer nuevos
experimentos.
5. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
INCONVENIENTES DEL DOE FACTORIAL COMPLETO
El DOE factorial completo contempla todas las combinaciones posibles de
las variables es una gran cantidad de experimentos.
Si el coste (dinero y tiempo) de cada experimento es pequeño
metodología viable.
Pero
¿Qué ocurre cuando los experimentos son costosos?
¿Existe la posibilidad de minimizar el número de experimentos a
realizar manteniendo la validez del modelo?
Metodologías de minimización de ensayos
6. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
La definición del DOE y sus parámetros permite determinar exactamente
los experimentos a hacer.
Los experimentos (conjunto de puntos en un espacio n-dimensional) se
definen con unos algoritmos que:
a) Buscan una distribución de los experimentos lo más homogenea posible.
b) Contemplen todas las interacciones deseadas en el modelo.
Se puede hacer una clasificación de estas metodologías en función del
alcance del modelo que se desea conseguir:
1.1 Modelo global del fenómeno
1.2 Modelo local del fenómeno
7. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo global del fenómeno
Cuando se desea definir un modelo matemático global sobre un espacio de
las variables n-dimensional y con forma de hipercubo, es muy difícil
asegurar, a priori, que una expresión matemática paramétrica puede
describir correctamente el modelo en todo el espacio de las variables.
Cuando esto sea posible y sólo nos interese estudiar los efectos principales
de cada variable o de conjuntos determinados de ellas, los DOE suelen
tener 2 niveles en cada variable y se llaman diseños factoriales
fraccionados.
8. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo global del fenómeno
Por ejemplo, el DOE Plackett-Burman supone un modelo matemático lineal:
y = a⋅x+b
y permite estudiar los efectos lineales de cada variables con el mínimo de
experimentos.
DOE P-B con 3 variables 4 experimentos
1 Inconveniente:
0.5 Si los efectos de las variables
0
están vinculados, aparecerá una
X3
tendencia no deseada en el
-0.5
modelo obtenido
-1
1
0.5 1
0 0.5
0
-0.5 -0.5
-1 -1
X2 X1
9. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo global del fenómeno
Existen DOE que permiten estimar los efectos principales de manera
independiente a las interacciones, fundiendo los efectos de conjuntos
de variables en pares, trios,…
Box y Hunter han propuesto distintos tipos de generadores de DOE para
producir diseños con distinto número de variables y resoluciones. Estos
generadores se pueden utilizar muy facilmente mediante las órdenes
“fracfact” y “fracfactgen” de MATLAB.
10. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo local del fenómeno
En algunas ocasiones, los modelos matemáticos lineales que solo
contemplan las interacciones de primer orden no son adecuados debido a
la complejidad del fenómeno. Si el modelo buscado se desea utilizar
posteriormente para buscar el óptimo del fenómeno, lo que se hace es
considerar el fenómeno localmente y intentar aproximarlo con un
modelo con interacciones de segundo orden.
Para estos casos, se han desarrollado DOE de superficie de respuesta en
los que se parte de un punto central alrededor del cual queremos definir el
modelo matemático a nivel local y que será de tipo unimodal (con un
solo mínimo) para facilitar la obtención del óptimo.
11. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo local del fenómeno
Los DOE de superficie de respuesta más comunes son los diseños centrales
compuestos y los diseños Box-Behnken. En estos diseños, las variables
toman entre 3 y 5 niveles pero el diseño no contempla todas las
combinaciones posibles.
Los diseños centrales compuestos pueden ajustar un modelo
completamente cuadrático y se basan en colocar el punto central en el
centro de un hipercubo de n dimensiones (tantas como variables) y despues
añadir puntos (experimentos) en los vértices, los centros de las aristas o los
centros de las caras. La orden de MATLAB para generarlos es “ccdesign”.
12. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo local del fenómeno
En función de la distribución, se puede diferenciar entre Circunscritos
(CCC), Inscritos (CCI) y Facetados (CCF). Los dos primeros tienen cinco
niveles por variable mientras que el último sólo tiene 3 niveles.
Ejemplos con tres variables
13. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
1. DOE deterministas
1.1 Modelo local del fenómeno
Los diseños Box-Behnken también pueden ajustar un modelo
completamente cuadrático pero sólo usan tres niveles en cada variable lo
que los hace muy atractivos. La orden de MATLAB para generarlos es
“bbdesign”.
Ventaja respecto al CCF:
Rotabilidad
Inconveniente respecto al CCF:
Peor predicción en las esquinas
Ejemplo con tres variables
14. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
2. DOE aleatorios
En este tipo de DOE, siempre existe una componente aleatoria en la
generación de experimentos que hace que estos se distribuyan de manera
diferente cada vez que se utiliza el algoritmo.
Se define, en primer lugar, el número de experimentos que se desean
realizar y a continuación, se generan de manera aleatoria.
En función de como se generan los experimentos, se puede diferenciar
entre:
2.1 DOE tipo PRS
2.2 DOE tipo LHS
15. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
2. DOE aleatorios
2.1 DOE tipo PRS
En este caso, el DOE de tipo PRS (Pure Random Sampling, o muestreo
aleatorio puro) consiste en generar puntos en un espacio n-dimensional (n
es el número de variables) de manera aleatoria en el que cada cada
variable tiene una función de densidad uniforme en el rango en el que está
definida. La orden de MATLAB para generar un PRS normalizado es ”rand”.
Distribución de los experimentos
1
0.9 Ventaja: Para grandes
0.8
cantidades de experimentos
distribución aprox. homogenea
0.7
0.6
X2
Inconveniente: Para pocos
0.5
experimentos probabilidad de
0.4
rangos sin experimentos es
0.3
significativa
0.2
0 0.2 0.4 0.6 0.8 1
X1
16. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
2. DOE aleatorios
2.2 DOE tipo LHS
Para evitar el inconveniente del DOE tipo PRS, se puede utilizar una técnica
denominada LHS (Latin Hypercube Sampling o muestreo en hipercubo
latino) que consiste en generar puntos que cubran todos los rangos de las
variables (ver ejemplo). La orden de MATLAB para generar un LHS
normalizado es “lhsdesign”.
5 experimentos
17. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
METODOLOGÍAS DE MINIMIZACIÓN DE ENSAYOS
2. DOE aleatorios
Estos tipos de DOE aleatorios se utilizan cuando la limitación principal es
el número de experimentos a realizar y cuando no hay ningún tipo de
restricción al modelo que se pretende obtener.
En la práctica, se utilizan para definir los conjuntos de entrenamiento, test y
validación de las redes neuronales artificiales.
18. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
Hasta ahora, hemos hablado básicamente de los DOE a utilizar para la
obtención del modelo del fenómeno a estudio pero …
¿Cómo se define de manera matemática ese
modelo a partir de los datos del DOE?
Nº x y zexp
¿ z = f ( x, y ) ?
1 1,5 2,3 4
Experimentos 2 1,8 3,5 5,1
3 … … …
Variables Salida
(factores) experimental
19. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO DE INTERPOLACIÓN MÚLTIPLE
La opción más sencilla es la de realizar una serie de experimentos para
configurar una rejilla (sería un DOE factorial completo) y luego utilizar una
interpolación múltiple (siendo n el número de variables) para obtener
cualquier respuesta ante condiciones no ensayadas previamente.
Nº x y zexp
1 1,5 2,3 4 Función de
2 1,8 3,5 5,1 + interpolación = Zmodelo
múltiple
3 … … …
MODELO MATEMÁTICO QUE DESCRIBE EL
FENÓMENO EXPERIMENTAL
20. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO DE INTERPOLACIÓN MÚLTIPLE
Tiene muchas opciones que nos permiten ajustar nuestro modelo para
obtener una mejor precisión en el mismo.
Ejemplo (MATLAB) [xi,yi] = meshgrid(-3:0.25:3);
[x,y] = meshgrid(-3:1:3); zi1 = interp2(x,y,z,xi,yi,'nearest');
z = peaks(x,y); zi2 = interp2(x,y,z,xi,yi,'bilinear');
surf(x,y,z) zi3 = interp2(x,y,z,xi,yi,'bicubic');
Función real
Funciones interpoladas
21. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
Sin embargo, si lo que deseamos es tener la información más compacta,
lo mejor es una expresión matemática sencilla y paramétrica que nos
permita condensar la información de cada salida.
Dicho modelo va a relacionar los resultados que hay Y que explicar con
unas variables X por una relación funcional de la forma siguiente:
r r
y = f (x)
El tipo de modelo puede ser:
1. Modelo físico
2. Modelo estadístico
22. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO FÍSICO
En primer lugar, hay que conocer la expresión paramétrica del modelo, la
cual estará sostenida por una teoría.
r r
y = f ( x, p )
Vector de parámetros
Ejemplo: La ley de enfriamiento de Newton
Q = h ⋅ S ⋅ (TS − T fluido )
&
Si conocemos la superficie S y el flujo de calor Q y tomamos como variables las
temperaturas de la superficie y del fluido, podemos modelizar el coeficiente de
película h de manera paramétrica (parámetros S y Q).
23. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
En este caso, dispondremos de s experimentos con n variables a partir de
los cuales debemos construir el modelo de regresión.
Por ejemplo, un modelo lineal sería el siguiente:
y = a0 + a1 ⋅ x1 + a2 ⋅ x2 + ... + a p ⋅ x p + ε
donde
ε Error del modelo
a0 , a1 , a2 ,..., as Coeficientes del modelo
(hay que estimarlos)
Lo más delicado es la elección de las variables que entran en el modelo y
las relaciones entre las mismas. En base a eso, el modelo puede ser
postulado o no postulado.
24. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
1. Modelo postulado
En este modelo, sólo los coeficientes son dirigidos por los
datos ya que la estructura polinómica del modelo es impuesta
por el usuario, el cual postula a priori:
a) El tipo de modelo: lineal o polinómico y el grado del polinómio
b) Las variables que entran en el modelo
Ejemplo: modelo polinomial con dos variables
y = a0 + a1 ⋅ x1 + a2 ⋅ x2 + a3 ⋅⋅ x1 ⋅ x2 + a4 ⋅ x12 + a5 ⋅ x2 + ε
2
La calidad del modelo final depende en gran medida de la
elección de las variables y del grado del polinomio.
25. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
1. Modelo postulado
El modelo más utilizado es el polinómico de segundo orden (se
utiliza en el método de la superficie de respuesta).
Su inconveniente es que es difícil asegurar que dicho modelo
pueda describir el fenómeno a estudio con exactitud en todo el
rango de definición de las variables ámbito local
Su ventaja es que esta función tiene un comportamiento
sencillo en la zona acotada (es parabólica).
Además, sólo existen unos parámetros óptimos para el ajuste
a los datos experimentales por mínimos cuadrados:
y=f(x,p) es lineal error=g(p) es
respecto a los cuadrático respecto a
parámetros p los parámetros p
26. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
1. Modelo postulado
¿Qué ocurre si se usan polinomios de orden superior?
Ejemplo: polinomio de tercer grado
y = f ( x, p )
Curva deseada 2º grado
Curva ajustada 3º grado
x
El polinomio de tercer grado tiene un error menor en los experimentos pero ajusta
peor el comportamiento global de la función sobreajuste
27. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
1. Modelo postulado
¿Qué ocurre si se usa otro tipo de función distinta de un polinomio (por
ejemplo, exponencial, senoidal, logarítmica,…)?
El problema del ajuste por mínimos cuadrados tiene más de un mínimo
aunque no todos esos mínimos tienen el mismo valor (locales y globales)
El algoritmo de optimización utilizado sólo encuentra uno ya que
necesita una aproximación inicial.
¡Puede tener muchos mínimos!
error
a b
28. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
2. Modelo no postulado
Está totalmente dirigido por los datos, tanto en su estructura
matemática como en sus coeficientes. La selección de las
variables explicativas no pide conocimiento a priori sobre el
modelo ya que se efectúa entre un conjunto muy grande de
variables que comprende:
Variables explicativas simples: A, B, C, (propuestas por los expertos
del campo considerado y cuyo número m puede ser superior a n
Interacciones (acoplamiento) de estas variables: por ejemplo,
•
A*B (producto cruzado sobre variables centradas reducidas), pero
también interacciones lógicas como A y B, A o B, A y B medios, A si B
es fuerte, A si B es medio, A si B es débil, etc …
Funciones de estas variables: por ejemplo cos (A) o cualquier función
•
sinusoidal amortiguada o ampliada, función periódica no sinusoidal,
efecto de umbral, etc…
29. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
2. Modelo no postulado
La selección se produce antes del cálculo de los coeficientes de
regresión según el siguiente principio:
1. Se busca el factor o la interacción o la función mejor correlada a la
respuesta.
2. Habiéndolo encontrado, buscamos el factor o la interacción mejor
correlada al residuo no explicado por la correlación precedente.
3. Repetir el paso 2.
Este método pretende no contar dos veces la misma
influencia, cuando los factores son correlados, y a ordenarlos
por importancia decreciente.
30. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MODELO ESTADÍSTICO
2. Modelo no postulado
La lista por orden de importancia decreciente encontrada y
clasificada, no puede contar con más términos que
variables desconocidas (n). Si se guarda sólo un término en
el modelo, deberá ser el primero de la lista. Si se guardan dos,
los dos primeros,…
Ya que cada uno de los términos de la lista explica el residuo
no explicado por los precedentes, los últimos explican
posiblemente sólo el ruido. Entonces …
¿Qué criterio de parada escoger?
El número de términos conservados en el modelo puede
ser, por ejemplo, el que minimiza el error de predicción. El
número de términos también puede ser escogido por el
usuario a partir de consideraciones físicas.
31. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
MÉTODO DE OBTENCIÓN DE LOS PARÁMETROS DEL MODELO
r r
Modelo paramétrico y = f ( x, p )
Variables Parámetros
Datos experimentales
Nº x1 x2 yexp
1 1,5 2,3 4 Función error
error ( p ) = ∑ ( f ( xi , p ) − yexp −i )
r r r 2
2 1,8 3,5 5,1
i
3 … … …
Problema de optimización
Orden “lsqcurvefit” Obtener p para que el error sea mínimo
de MATLAB
32. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
EL MÉTODO DE LA SUPERFICIE DE RESPUESTA PARA LA OPTIMIZACIÓN DE
PROCESOS
En ciertas ocasiones, nos interesa obtener el modelo matemático de un
fenómeno con el fin de utilizarlo para obtener un determinado óptimo del
mismo.
Para este problema en particular, se ha desarrollado el método de la
superficie de respuesta. Este método se basa en los siguientes supuestos:
a) Conocemos un punto (llamado punto central) alrededor del cual se
va a definir el modelo modelo de alcance local
b) El modelo es continuo en el entorno del punto central.
c) El modelo tiene es unimodal en el entorno estudiado.
33. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
EL MÉTODO DE LA SUPERFICIE DE RESPUESTA PARA LA OPTIMIZACIÓN DE
PROCESOS
Si aplicamos las metodología vistas hasta ahora para obtener un modelo
matemático polinomial y cuadrático que aproxime con cierta exactitud el
fenómeno real a estudiar podemos buscar el óptimo de ese modelo
(también llamado metamodelo) y suponer que está cercano al óptimo del
fenómeno real.
Ventaja: Se consigue un punto cercano al óptimo real con un coste de
experimentación muy bajo porque se usan DOE de superficie de respuesta (por
ejemplo, Box-Behnken), los cuales minimizan el número de ensayos necesarios.
Inconvenientes: Asegurar que el fenómeno a estudiar en continuo y unimodal en el
entorno estudiado y que dicho fenómeno se pueda aproximar correctamente con un
polinomio cuadrático.
34. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
EL MÉTODO DE LA SUPERFICIE DE RESPUESTA PARA LA OPTIMIZACIÓN DE
PROCESOS
Una vez obtenido el polinomio cuadrático que aproxima al fenómeno la
búsqueda del óptimo es muy sencilla ya que la función a optimizar es
continua y fácilmente derivable al ser un polinomio de segundo orden y,
además, es unimodal por definición.
Para obtener su óptimo se puede utilizar las órdenes de MATLAB
“fminsearch” y “fminunc” que utilizan métodos de orden cero (sin
derivadas), orden uno (con el gradiente) o orden dos (con el Hessiano) para
encontrar el óptimo de manera exacta y eficiente.
35. Máster en Ingeniería Mecánica, Diseño, Construcción y Fabricación
Métodos estadísticos en Ingeniería. Diseño de experimentos
PROCESO DE OBTENCIÓN DE UN MODELO MATEMÁTICO
1. Definir las variables/factores independientes y su rango de
variación
2. Generar una batería de experimentos adecuadamente distribuidos
3. Realizar los experimentos
4. Obtener el modelo matemático que mejor se ajuste a los datos
experimentales