Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Tratamiento quimiométrico de datos cromatográficos.
Aplicación a la clasificación tecnológica de manzanas de sidra

Objeti...
Se realizó una selección de variables utilizando como criterio el peso de clasificación (peso
de Fisher), es decir, fueron...
· Análisis de componentes principales ·

        El objetivo es obtener una combinación de las variables que agrupe los da...
Se consigue una mayor separación entre las muestras de los diferentes tipos de manzana,
como se puede ver en la gráfica. S...
Upcoming SlideShare
Loading in …5
×

Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra

1,635 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra

  1. 1. Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra Objetivo Se pretende utilizar una serie de análisis quimiométricos para el tratamiento de los datos cromatográficos obtenidos a partir de una cromatografía de gases de distintas clases de manzanas. Con ello se puede obtener un modelo que puede predecir la clasificación de diferentes muestras de manzanas. Todas los análisis quimiométricos se realizan en el programa Statgraphics excepto la selección de variables que se utiliza PARVUS. Exploración de datos El análisis exploratorio de los datos se realiza para obtener información sobre las variables, sobre los objetos y sobre su relación. Se realizó un test de normalidad de las variables para dos casos: análisis univariante y análisis multivariante. En el primero de los casos, se realizó el análisis para alguna de las variables como ejemplo, y todas las variables analizadas siguen la distribución normal. En el análisis multivariante, algunas variables se desviaban en pequeña medida de esta distribución, pero esta pequeñas diferencias no es causa para la eliminación de esas variables en posteriores análisis multivariantes. Se realizó una búsqueda de outliers, que son valores de las variables que no están distribuidos homogéneamente. Para ello se realiza una gráfica de cajas y bigotes, donde los puntos que estén en el exterior de esta gráfica, si los hubiera, deberían ser eliminados. En la figura se puede ver el ejemplo de una gráfica de cajas y bigotes, para la variable hexanol. Para las variables realizadas, no se encontró ningún punto fuera de la gráfica. Selección de variables En los análisis multivariantes (como es el caso que se está estudiando), el número de objetos debe ser dos o tres veces el número de variables. Por lo que se deben seleccionar correctamente las variables con las cual trabajar en los siguientes análisis, que serán las que menos correlacionadas estén.
  2. 2. Se realizó una selección de variables utilizando como criterio el peso de clasificación (peso de Fisher), es decir, fueron seleccionadas las variables que diferencian en mejor medida las diferentes clases de manzanas. Esta selección se realizó frente a un conjunto de entrenamiento, que es un conjunto de muestras ya clasificadas conociendo los valores de las variables para ellas. Se debe realizar un autoescalado de las variables, para que valores absolutos altos de las variables no tengan mayor peso que los valores bajos. Se añade un valor de corte para seleccionar variables que tengan un peso estadístico por encima de esta valor (en el caso estudiado 0.05). Se obtienen las variables más significativas que son las siguientes: Peso estadistico (%) but hex 50.13 hexanol 11.81 hept et 0.68 prop et 0.27 __met_1_propanol 0.09 Agrupamiento El objetivo del análisis de agrupamiento es agrupar objetos que tengan características similares. · Análisis de conglomerados (dendograma) · Con este análisis se obtiene una representación de la correlación que existe entre las variables analizadas y objetos. Se obtiene el siguiente dendograma, donde se puede observar la similitud entre las diferentes muestras, según el criterio de distancia euclídea: Dendograma Método del Vecino Más Cercano,Euclideana Cuadrada 5 4 3 Distancia 2 1 0 1 2 3 4 5 6 7 8 9 11 12 13 14 20 21 16 17 18 19 10 15 Se puede observar en el dendograma, como las muestras más correlacionadas son los distintos ensayos para una misma muestra (por ejemplo entre 1 y 2), después hay más correlación para manzanas de la misma cosecha (entre 1-2 y 3-4), y hay menor correlación entre distintos tipos de manzanas.
  3. 3. · Análisis de componentes principales · El objetivo es obtener una combinación de las variables que agrupe los datos según su variablidad y expliquen la mayor parte de la varianza del sistema. Este ensayo se realiza con las variables seleccionadas en PARVUS. Se obtienen dos gráficas con este análisis: Gráfica de sedimentación: determina las componentes (combinaciones lineales de las variables, que retienen la información de las originales) que están por encima de una varianza determinada. Con estas componentes se puede explicar con alta probabilidad la variabilidad de la mayor parte del sistema. Gráfica de Sedimentación 3 2,5 2 Eigenvalor 1,5 1 0,5 0 0 1 2 3 4 5 Componente Gráfica de dispersión 2D: es una representación de los dos componentes con las mayores varianzas. En este caso entre las dos explican el 70% de la variablilidad del sistema. Bigráfica 3,6 prop et 2,6 hept et Componente 2 1,6 __met_1_propanol 0,6 -0,4 hex but hexanol -1,4 -2,8 -1,8 -0,8 0,2 1,2 2,2 3,2 Componente 1
  4. 4. Se consigue una mayor separación entre las muestras de los diferentes tipos de manzana, como se puede ver en la gráfica. Se observa que las variables “but hex” y “hexanol”, permiten diferenciar el tipo de manzana Clara del resto. En el caso de la Coloradona, se consigue diferenciar mediante las variables “prop et” y “hep et”. Mientras que para diferenciar la Ernestina del resto, se usaría la variable “2-met-1-propanol” Clasificación Se realizó un análisis clasificatorio para poder predecir el grupo al que pertenece una muestra de manzanas a partir de otras variables cuantitativas. El factor discriminante utilizado es los diferentes grupos de manzanas (Clara, Coloradona y Ernestina). Se utilizan las variables seleccionadas con PARVUS: “but hex”, “hexanol”, “hep et”, “prop et” y “2-met_1_propanol”. Con este análisis se obtienen unas combinaciones lineales de las variables seleccionadas con el objetivo de diferenciar entre los grupos de manzanas (mayor varianza) al tiempo que minimizar (menor varianza) entre las muestras de un mismo grupo. Gráfica de Funciones Discriminantes 10 Col_28 1 7 2 3 4 Centroides Función 2 1 -2 -5 -8 -7 -4 -1 2 5 8 11 Función 1 La gráfica representa las dos funciones discriminantes obtenidas con este análisis que mejor diferencian los grupos. Se puede observar que las diferentes muestras de cada grupo de manzana están alineadas en la gráfica, por lo que se consigue separar en buena medida los diferentes grupos de manzanas (de manera probabilística). De este modo, teniendo el análisis de una muestra se podría determinar con una alta probabilidad a que grupo de manzanas pertenece.

×