Manual práctico de quimiometría 2011 v2

6,483 views

Published on

Una presentación sobre los conceptos básicos de quimiometría

Published in: Education
1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total views
6,483
On SlideShare
0
From Embeds
0
Number of Embeds
1,247
Actions
Shares
0
Downloads
226
Comments
1
Likes
1
Embeds 0
No embeds

No notes for slide

Manual práctico de quimiometría 2011 v2

  1. 1. Manual práctico de Quimiometría Dr. Germán Tortosa Muñoz Departamento de Microbiología del Suelo y Sistemas Simbióticos Estación Experimental del Zaidín (EEZ-CSIC) http://www.metabolismodelnitrogeno.blogspot.com “ Técnicas básicas de análisis químico en muestras de interés biológico”
  2. 2. ¿Qué es la Quimiometría? “ La aplicación de la estadística a los problemas de la Química (Analítica)” <ul><li>Probabilidad (descifra el comportamiento de los fenómenos o sucesos aleatorios) </li></ul><ul><li>Estadística descriptiva (análisis descriptivo de los fenómenos o sucesos aleatorios) </li></ul><ul><li>Estadístida inferencial (predicción y conclusiones de los fenómenos o sucesos aleatorios) </li></ul>
  3. 3. Conceptos básicos ¿Qué es un fenómeno (o suceso) aleatorio? “ aquel en que los resultados son inciertos, imprevisibles o impredecibles” En la Ciencia y en la Química, se estudian fenómenos (o sucesos) aleatorios… ¿Fenómenos determinista? Población, muestra poblacional y variable - Población: Conjunto global del sistema a estudiar - Muestra poblacional : Un subconjunto representativo - Variable: Propiedad medible de la muestra
  4. 4. Variable Conceptos básicos POBLACIÓN Muestra Poblacional
  5. 5. Probabilidad Ejemplo: ¿Cuál es la probabilidad de que me salga cara al tirar una moneda? Frecuencia relativa: en un experimento aleatorio, el cociente entre el número de veces que se obtiene un resultado deseado con respecto al total de veces que se realiza http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.html Probabilidad: Valor al cual tiende la frecuencia relativa Con la probabilidad trataremos de conocer el comportamiento que rigen los sucesos (o conjunto de datos aleatorios) que estudiamos Ejemplo: 50% EJEMPLO Nº1
  6. 6. ¿Cómo se distribuyen los datos aleatorios? ¿Cómo se distribuye su probabilidad? <ul><li>Estudiamos una variable </li></ul><ul><li>Representamos los resultados en forma de histograma </li></ul>
  7. 7. Tipos de distribución de probabilidad Depende del tipo de variable (discreta o continua): - Binomial - Normal - Chi-cuadrado - T de Student - F - Poisson - Beta - Gamma - Etc…
  8. 8. Tipos de distribución de probabilidad Depende del tipo de variable (discreta o continua): - Binomial - Normal - Chi-cuadrado - T de Student - F - Poisson - Beta - Gamma - Etc…
  9. 9. El caso de la distribución normalizada <ul><li>Gran cantidad de pruebas estadística se basan en ellas </li></ul><ul><li>- Simétrica con respecto a un valor μ y descrita por σ </li></ul>EJEMPLO Nº2 http://personal.us.es/jgam/applets/AppletsDocentes.htm Resultados de la concentración de nitratos en agua (μg L -1 ) 0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,50 0,47 0,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,50 0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,51 0,47 0,51 0,51 0,51 0,48 0,48 0,47 0,50 0,49 0,48 0,51 0,50 0,50 0,53 0,53 0,52 0,50 0,51 0,51
  10. 10. El caso de la distribución normalizada <ul><li>Gran cantidad de pruebas estadística se basan en ellas </li></ul><ul><li>- Simétrica con respecto a un valor μ y descrita por σ </li></ul>
  11. 11. El caso de la distribución normalizada
  12. 12. Muestra representativa y “Teorema central del límite” “ Cuando N≥30, la población muestral grande, aunque la población no esté distribuida normalmente, la media aritmética tenderá a una distribución normal”
  13. 13. Muestra representativa y “Teorema central del límite” Cuando N≥30, μ y σ (valor verdadero y dispersión) se supone que coincide con la media aritmética muestral (o también la mediana) y con la desviación estándar (DISTRIBUCIÓN NORMALIZADA)
  14. 14. Muestra representativa y “Teorema central del límite” ¿¿¿QUÉ PASA CUANDO SE TRABAJA CON N≤30???
  15. 15. Estadística Descriptiva Estadístico: “Cualquier transformación de la muestra aleatoria” EJEMPLO Nº3 http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Descriptive.htm
  16. 16. Sentido de un valor analítico ¿Qué lleva esta muestra?, ¿cuánto lleva esta muestra? Implica un valor numérico… “ No existen resultados cuantitativos de interés si no van acompañados de alguna estimación de los errores inherentes a los mismos” (Miller y Miller, 2009) <ul><li>Tipos de error: </li></ul><ul><li>- Groseros o accidentales (ej., un aparato se rompe…) </li></ul><ul><li>Aleatorio (no tendencia) </li></ul><ul><li>Sistemático (presente una tendencia, ej. Una pipeta mal calibrada, …) </li></ul>
  17. 17. Sentido de un valor analítico Otros conceptos importantes: Precisión : describe los errores aleatorios. Hace mención a la dispersión de los datos con respecto al valor real. En el caso de las distribuciones normalizadas de datos, haría referencia a la anchura de la campana gaussiana siendo más ancha cuanto más dispersos están los datos y viceversa.   Exactitud : es la proximidad al verdadero valor de una medida individual o un valor promedio (ejemplo: una pipeta mide teóricamente 50 ml y experimentalmente como media mide 49,9 ml, por lo que sería bastante exacta). Está afectada por los errores aleatorios y sistemáticos.
  18. 18. Sentido de un valor analítico Otros conceptos importantes:   Reproducibilidad : es la capacidad de obtener los mismos resultados en un análisis independientemente de las condiciones usadas (laboratorio, analista, fecha, material, etc.).   Repetibilidad : capacidad de obtener los mismos resultados en un análisis en las mismas condiciones usadas (laboratorio, analista, fecha, material, etc.).   Incertidumbre : intervalo dentro del cual es razonablemente verosímil que se encuentre el verdadero valor de la magnitud. Hace referencia a la expresión de un resultado analítico con su error inherente (aleatorio y sistemático).
  19. 19. Sentido de un valor analítico
  20. 20. Incertidumbre de un valor analítico En ausencia de error sistemático, la media aritmética debería coincidir con el verdadero valor que se espera. Intervalo de valores donde sea probable encontrar el valor verdadero. Este depende de dos factores: -Precisión de las medidas (dispersión o desviación estándar) -Número de medidas que se realice N≥30 es poco viable (IMPORTANTE) Desde el punto de vista analítico, para medidas de muestras repetidas, se puede suponer una distribución casi normal y se asume que las medias de las muestras muy pequeñas se distribuyen normalmente…
  21. 21. Límite de Confianza de la Media Intervalo de confianza para muestras grandes: Z dependerá del grado de confianza requerido 95%, z=1,96 ; 99%,z=2,58; 99,7%, z=2,97 Intervalo de confianza para muestras pequeñas: Valores de t para intervalos de confianza de Grados de libertad 95 % 99% 2 4,30 9,92 5 2,57 4,03 10 2,23 3,17 20 2,09 2,85 50 2,01 2,68 100 1,98 2,63
  22. 22. Límite de Confianza de la Media EJEMPLO Nº4 http://graphpad.com/quickcalcs/CImean1.cfm?Format=C
  23. 23. Imagen conceptual del Límite de Confianza de la Media
  24. 24. Presentación de resultados No existe unaminidad. Posibilidades: - Media y desviación estándar (estimación de la cantidad medida y precisión) - Error estándar de la media ( σ /√n) - Intervalo de confianza Nota: el intervalo de confianza tiene sentido cuando tenemos muchas repeticiones. Cuando son pocas, (n ≤ 10) no tiene mucho sentido “ Las cifras significativas no deben exceder de nuestra precisión”
  25. 25. Presentación de resultados
  26. 26. Presentación de resultados
  27. 27. Presentación de resultados
  28. 28. Propagación de errores EJEMPLO Nº5 http://graphpad.com/quickcalcs/ErrorProp1.cfm?Format=SD
  29. 29. Inferencia estadística Decisión correcta de Tipo A : Suponemos que los nitratos son menores de 50 mg L -1 y lo confirmamos con los análisis. Podemos afirmar que NO HAY contaminación. Decisión correcta de Tipo B : Suponemos que los nitratos son mayores de 50 mg L -1 y lo confirmamos con los análisis. Podemos afirmar que HAY contaminación.   Error de Tipo I (o de tipo α) : Suponemos que la concentración de nitratos era mayor de 50 mg L -1 y no lo era. Error de Tipo II (de tipo β) : Suponemos que la concentración de nitratos era menor de 50 mg L -1 y no lo era.
  30. 30. Inferencia estadística A la hora de descartar una u otra hipótesis, no podremos afirmar exactamente cual es la decisión correcta debido a que solo tenemos acceso a una parte de la población (una muestra de ella). Por lo tanto, es lógico que hablemos en términos probabilísticos, ya que así podremos evaluar el error que cometemos al equivocarnos. Así, en términos de probabilidad tendríamos lo siguiente: Probabilidad de escoger H 0 siendo H 0 cierta = 1-α Probabilidad de escoger H 0 siendo H 1 cierta = β Probabilidad de escoger H 1 siendo H 0 cierta = α Probabilidad de escoger H 1 siendo H 1 cierta = 1-β
  31. 31. Inferencia estadística
  32. 32. Inferencia estadística
  33. 33. Estadístico de contraste y p -valor <ul><li>¿Cuál es el criterio que debemos seguir para poder afirmar u descartar una hipótesis? </li></ul><ul><li>Cálculo del estadístico de contraste </li></ul><ul><li>-Este es un parámetro que se calcula teniendo en cuenta que los datos cumplen la distribución normalizada y se relaciona con el área de la curva la cual se correspondería con la región de rechazo, es decir, que si nuestra muestra está en esa zona podríamos descartar la hipótesis nula (H 0 ). </li></ul><ul><li>Si ese valor fuese menor que el nivel de significación (α) que hemos prefijado, podríamos rechazar la hipótesis nula. </li></ul><ul><li>Nota: los valores más usados para α son 0,05, 0,01 y 0,001, es decir, que la probabilidad de acertar en nuestra afirmación sería del 95%, 99% y 99,9% respectivamente. </li></ul>
  34. 34. Estadístico de contraste y p -valor En resumen, descartaremos H 0 si p -valor ≤ α, siendo α = 0,05, (también puede ser 0,01 y 0,001). http://bcs.whfreeman.com/ips4e/cat_010/applets/pvalue_ips.html Queremos saber si hay contaminación en estas aguas. ¿El valor obtenido de nuestras muestras es distinto significativamente de 50 mg L -1 , valor que según el cual la legislación te dice que tienes contaminación por nitratos? Al hacer el contraste de hipótesis, definimos H 0 y H 1 : H 0 : El valor de nuestros análisis es igual a 50 mg L -1 H 1 : El valor de nuestros análisis es mayor a 50 mg L -1 EJEMPLO Nº6
  35. 35. Estadístico de contraste y p -valor http://bcs.whfreeman.com/ips4e/cat_010/applets/pvalue_ips.html Como podemos observar, nos ha salido un p -valor = 0,0001 ( p -valor ≤ 0,05). Por lo tanto, podemos rechazar la hipótesis nula y confirmar que la concentración de nitratos obtenida en las muestras analizadas es mayor que 50 significativamente (con un 95% de probabilidad).
  36. 36. Tipos de variables Cualitativas. Son aquellas que expresan una propiedad de las muestras que no se puede expresar numéricamente (ejemplo: el color de los ojos). A su vez, podemos clasificarlas en dos grupos: - Ordinal o cuasicuantitativa , en la cual puede adoptar varios regidos por un cierto orden (ejemplo: leve, moderado o grave). - Nominal, en la cual no existe ningún tipo de orden (ejemplo: tipo de medio de locomoción, coche, motocicleta, etc.). Cuantitativas o numéricas, las cuales se pueden expresar mediante un valor numérico (ejemplo: la concentración de nitratos de 50 mg L -1 ). A su vez, se pueden clasificar en dos grupos: - Discretas, en las cuales solo pueden adoptar valores enteros (ejemplo: número de hijos, días, etc.). - Continuas, en las cuales pueden adoptar todos los valores posibles reales (ejemplo: la altura de un jugador de baloncesto es de 2,15 metros, hace -2ºC en la calle, etc.).
  37. 37. Tipos de variables y tests estadísticos - Variable independiente. Es aquella que no depende de ningún factor concreto y que a su vez, puede provocar una modificación en otras variables. - Variable dependiente. Es aquella que puede ser modificada por otra variable (independiente). Un ejemplo es aquella propiedad que se mide en una muestra a lo largo del tiempo. TIPOS DE TEST ESTADÍSTICOS: Técnicas paramétricas. Se utilizan cuando las variables siguen una distribución normalizada y se basan en la media y la varianza. Técnicas no paramétricas o “robustas”. Se utilizan cuando no siguen un tipo de distribución conocida. Están basadas en el empleo de la mediana.
  38. 38. Tests estadísticos de interés en análisis químico de muestras biológicas <ul><li>- Análisis para una muestra poblacional </li></ul><ul><li>- Análisis para dos muestras poblacionales </li></ul><ul><li>Análisis para más de dos muestras poblacionales </li></ul><ul><li>-Análisis de la correlación </li></ul>
  39. 39. Tests estadísticos de interés en análisis químico de muestras biológicas - Análisis para una muestra poblacional - Análisis descriptivos
  40. 40. Tests estadísticos de interés en análisis químico de muestras biológicas - Análisis para una muestra poblacional - Test de normalidad http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm EJEMPLO 7
  41. 41. Tests estadísticos de interés en análisis químico de muestras biológicas - Análisis para una muestra poblacional - Contrastes de la media de una población con un valor de referencia (t de Student, paramétrico y de signos, no paramétrico) p >0,05, no significativo, (NS) p entre 0,01 y 0,05, significativo, (*) p entre 0,001 y 0,01, muy significativo, (**) p < 0,001, extremadamente significativo, (***) http://www.graphpad.com/quickcalcs/OneSampleT1.cfm?Format=SD http://www.fon.hum.uva.nl/Service/Statistics/Sign_Test.html EJEMPLO 8
  42. 42. Tests estadísticos de interés en análisis químico de muestras biológicas <ul><li>Análisis para dos muestras poblacionales </li></ul>- t de Student (paramétrico) - U de Mann-Whitney (no paramétrico) http://graphpad.com/quickcalcs/ttest1.cfm http://faculty.vassar.edu/lowry/utest.html EJEMPLO 9
  43. 43. Tests estadísticos de interés en análisis químico de muestras biológicas - Análisis para más de dos muestras poblacionales <ul><li>ANOVA (paramétrico) </li></ul><ul><li>Que las variables sean independientes </li></ul><ul><li>Que tengan una distribución normalizada </li></ul><ul><li>Que sus varianzas no difieran significativamente. </li></ul><ul><li>Pruebas “post-hoc” </li></ul><ul><li>Análisis de Kruskal-Wallis (no paramétrico) </li></ul>http:// www.amstat.org/publications/jse/v18n2/ANOVAExercise.xls http://department.obg.cuhk.edu.hk/researchsupport/KruskallWallis.asp EJEMPLO 10
  44. 44. Inferencia estadística ANÁLISIS DE REGRESIÓN (LINEAL ) RECTA DE REGRESIÓN DE Y SOBRE X (MÉTODO DE LOS MÍNIMOS CUADRADOS) y=y 0 +ax R (coeficiente de correlación) http://faculty.vassar.edu/lowry/corr_stats.html EJEMPLO 11
  45. 45. Bibliografía imprescindible: - Estadística y Quimiometría para Química Analítica. Miller y Miller. ISBN: 84-205-3514-1 - Quimiometría . Carlos Mongay Fernández. ISBN: 9788437059235 - Quimiometría .Guillermo Ramis Ramos y Mª Cecilia García Álvarez-Coque. ISBN: 8477389047
  46. 46. Webs: Web Pages that Perform Statistical Calculations! ( http://statpages.org ) STAT-ATTIC STATistics Applets for Teaching Topics in Introductory Courses. ( http://sapphire.indstate.edu/~stat-attic/index.php ) Apuntes sobre Bioestadística, Universidad de Málaga ( http://www.bioestadistica.uma.es/baron/apuntes/ ). Aula Virtual de Bioestadística. http://e-stadistica.bio.ucm.es/index.html Dr Arsham´s Statistic site ( http://home.ubalt.edu/ntsbarsh/Business-stat/opre504.htm ) Material de clase de la asignatura Estadística 2 ( http://augusta.uao.edu.co/moodle/course/view.php?id=284 ) Estadística aplicada a la Bioinformática ( http://sebbm.bq.ub.es/BioROM/contenido/UIB/bioinfo/index.htm ) Bioestadística, Universidad de Granada ( http://www.ugr.es/~bioestad/ ) Department of Obstetrics and Gynaecology. The Chinese University of Hong Kong. ( http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp )   Applets y software gratuito:   Recopilación muy completa sobre software estadístico libre y de pago ( http://statpages.org/javasta2.html )
  47. 47. <ul><li>Variable: </li></ul><ul><li>Estadística descriptiva (media, DE, …) </li></ul><ul><li>Representación gráfica </li></ul><ul><li>Test de Normalidad : </li></ul><ul><ul><li>Paramétrico (p) </li></ul></ul><ul><ul><li>No paramétrico (np) </li></ul></ul>POBLACIÓN Muestra Poblacional Representativa N≥30 <ul><li>Estadística inferencial </li></ul><ul><li>1 muestra poblacional: </li></ul><ul><ul><li>Contraste con valor de refencia </li></ul></ul><ul><ul><ul><li>t de Student (p) </li></ul></ul></ul><ul><ul><ul><li>Prueba de signos (np) </li></ul></ul></ul><ul><li>2 muestras poblacionales: </li></ul><ul><ul><ul><li>t de Student (p), </li></ul></ul></ul><ul><ul><ul><li>U de Mann-Whitney (np) </li></ul></ul></ul><ul><ul><ul><li>Más de 2 muestras poblacionales: </li></ul></ul></ul><ul><ul><ul><li>ANOVA (p), </li></ul></ul></ul><ul><ul><ul><li>Krustal-Wallis (np) </li></ul></ul></ul><ul><ul><ul><li>Relación entre variables (Correlación): </li></ul></ul></ul><ul><ul><ul><li>Regresión lineal </li></ul></ul></ul>

×