Aqa estadistica fundamental
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Aqa estadistica fundamental

  • 585 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
585
On Slideshare
585
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
5
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 1 FUNDAMENTOS DE ESTADÍSTICA Objetivos Familiarizarse con la estadística básica de las medidas repetitivas Poder hacer una interpretación estadística de los resultados analíticos Aprender a realizar las pruebas de comparación de los resultados analíticos Comprender y utilizar el análisis de varianza Profundizar en el uso estadístico del concepto de incertidumbreBibliografía J.C. Miller y J.N. Miller, Estadística para química analítica, 2a Edición, Addison-Wesley Iberoamericana, EEBB, 1993 M. Otto, Chemometrics, Wiley-VCH, Weinheim, 1999 J.K. Taylor, Quality assurance of chemical measurements, Lewis Publ., CRC Press, Boca Raton, EEBB, 1987 EURACHEM, Quantifying uncertainty in analytical measurement, 2a Edición, Helsinki, 2000 (URL: http://www.eurolab.de)1.1. Introducción En la química analítica se utilizan herramientas estadísticas para el tratamiento de datos y resultados analíticos, parasu pretratamiento, para disminuir su tamaño y, sobre todo, para ayudar a su interpretación y comprensión. Por ello, espreciso comprender y dominar los fundamentos del tratamiento estadístico de los datos analíticos. Estos fundamentos seaplicarán posteriormente para mostrar el control estadístico de los datos, para ayudar a la comprensión de los mismos,para planificar las medidas y la toma de muestras así como para poder tomar decisiones de diferente carácter con los datoso resultados. Para poder aplicar los conceptos estadísticos a las medidas analíticas éstas deben cumplir las siguientes condiciones: El sistema de medida ha de ser estable. Cada una de las medidas debe ser independiente del resto. Cada medida debe ser un representante aleatorio de la población a la que pertenece.En este sentido, si en vez de medidas se consideran materiales, éstos han de cumplir condiciones similares.1.1.1. Incertidumbre y Tipos de Error Las medidas analíticas, al igual que las de otras propiedades físicas, siempre llevan asociada una incertidumbre1 .Esta incertidumbre lleva aparejado el concepto de duda respecto a esa medida lo que implica que, independientementede nuestras pretensiones respecto a esa medida, la utilidad de los resultados puede verse comprometida. El concepto deincertidumbre es básico en Metrología 2 : “Un parámetro asociado con el resultado de la medida, que caracteriza la 1 En inglés ’uncertainty’. 2 Ver “Guide to the Expresion of Uncertainty Measurement”. ISO, Geneva, 1993 (ISBN 92-67-10188-9). 1
  • 2. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICAdispersión de los valores que, razonablemente, se podrían atribuir a aquello que se mide”3 . La incertidumbre toma laforma de intervalo y si se estima para un procedimiento analítico y un tipo de muestra dado puede aplicarse a todas lasdeterminaciones hechas con ese método a ese tipo concreto de muestras. En general, el valor de la incertidumbre no puedeser utilizado para corregir el resultado de una medida. Por lo que respecta al error, éste es la diferencia entre el valor verdadero de aquello que se mide y el valor medido. Deesta manera, el concepto de error se idealiza dado que el valor verdadero de la medida se suele desconocer. Como ya sesabe, el error puede tener dos componentes: el componente aleatorio y el sistemático. El primero incluye las diferencias entre los resultados de medidas que se repiten y es un indicador de factores que pueder estar ocultos o resultar evidentes. Este error no se puede corregir pero se puede disminuir aumentando el número de medidas. Por otra parte, el error sistemático implica una desviación del valor de la medida en un sentido concreto y significa la falta de subordinación de dicha medida al conjunto de medidas realizadas. Por tanto, es preciso corregir los componentes que tienen una influencia sistemática en el valor de una medida.La incertidumbre en las medidas analíticas puede tener orígenes diferentes. Entre otros, la toma de las muestras, la purezade los reactivos, las condiciones físicas de la medición (temperatura, humedad, etc.), la influencia de la matriz, así como lapresencia de otros analitos que pueden tener una influencia contaminante. Dado que las medidas analíticas se componende diferentes procesos: la pesada, la preparación de las disoluciones, la calibración, etc. es importante saber de antemanoel grado de incertidumbre que tiene cada uno para poder establecer un resultado analítico definitivo. Cuando se dan detalles de un método analítico se habla, entre otras cosas, de su precisión, linealidad, límite de detección,fiabilidad-trazabilidad, selectividad y especificidad. Mediante el uso de estos conceptos se trata de denotar la adecuaciónde dicho método a un fin concreto. Algunos de los conceptos mencionados anteriormente son ya conocidos. Entre ellos está la exactitud, la cual significa elgrado de adecuación entre el valor verdadero de la medida y el resultado que se mide. Por otra parte, la precisión significael grado de proximidad entre medidas independientes realizadas de una manera definida en condiciones específicas. Losdemás conceptos se irán tratando en los temas siguientes.1.1.2. Estadística de Medidas Repetidas Una vez que se dispone de un conjunto de medidas se pueden dar una serie de resultados estadísticos comunes relativosa ellos, lo que se suele conocer como estadística descriptiva de un conjunto de medidas repetidas. Por ejemplo, en laTabla 1.1 se han reunido los resultados de las medidas espectrofotométricas (absorbancia) de una disolución. De los resultados que se recogen no se puede obtener más información ya que no se dispone de nada con que compa-rarlos ni se tiene de antemano ningún tipo de duda especifica sobre la validez de los mismos. De cualquier manera, losresultados que se dan en la Tabla 1.1 son conocidos y se utilizarán a menudo para describir conjuntos de datos de este tipo.En este caso, los valores de los parámetros se han calculado en la hoja de cálculo Excel sin utilizar ningún procedimientomatemático especial. La representación gráfica de los resultados obtenidos permite varias opciones. De entre ellas, la Figura 1.1 recogedos: la representación del ’Box-and-Whisker’ y la representación de la probabilidad de una distribución normal. En elprimer caso, el diagrama de Box-and-Whisker divide los resultados en función de la frecuencia de los mismos en cuatrocampos: el 50 % de los resultados los incluye en una caja central en donde incluye el valor de la mediana mediante unalínea vertical y el valor medio mediante un punto. Las líneas horizontales o “whiskers” se extienden a ambos lados dela caja y cada extremo recoge el 25 % de los resultados. Mediante esta representación se puede resumir un conjunto dedatos unidimensionales. De hecho, esta representación permite conocer las características de la distribución de los datosy la presencia de puntos marginales así como su comparación con otras distribuciones. La segunda gráfica se utiliza paraconocer si los resultados siguen una distribución normal. Si es así, los datos se ordenan a lo largo de una línea recta. Si 3 En inglés original: “A parameter associated with the result of a measurement, that characterizes the dispersion of the values that could be reasonably attributed to the measurand”. 2
  • 3. 1.2. PROPAGACIÓN DE ERRORES Cuadro 1.1: Estadística descriptiva de una serie de medidas espectrofotométricas # Medida Parámetro Resultado 1 0.3410 2 0.3350 Media 0.349 3 0.3470 Error típico (de la media) 0.0019 4 0.3590 Mediana 0.347 5 0.3530 Moda 0.347 6 0.3460 Desviación estándar 0.0073 7 0.3470 Varianza de la muestra 5.34E-05 8 0.3460 Coeficiente de Kurtosis 0.045 9 0.3430 Coeficiente de Asimetría 0.259 10 0.3420 Rango 0.028 11 0.3560 Mínimo 0.335 12 0.3500 Máximo 0.363 13 0.3630 Suma 5.229 14 0.3530 Número de medidas 15 15 0.3480 Nivel de Confianza (95.0 %) 0.004se observaran desviaciones con respecto a esa recta eso indicaría la existencia de puntos marginales o distribuciones nonormales. a b Figura 1.1: a) Diagrama de ’Box-and-Whisker’; b) Diagrama de la probabilidad de una distribución normal.1.2. Propagación de Errores Como se ha señalado anteriormente, la incertidumbre de las medidas analíticas tiene diferentes orígenes. Entre otros sepueden señalar: el muestreo, las desviaciones instrumentales (i.e., una balanza mal calibrada), impurezas de los reactivos,las condiciones de medida (i.e., la influencia de la temperatura o la humedad), los efectos matriz, los errores de redondeo,la contaminación de las muestras, la influencia del operador y otros efectos aleatorios. Si se quiere estimar la incertidumbre de un resultado analítico no se puede considerar de forma aislada la propagacióndel error para un único efecto (por ejemplo, la reproducibilidad de la medida instrumental) sino que ha de considerarse 3
  • 4. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICAde forma conjunta la incertidumbre de todos y cada uno de los pasos del procedimiento analítico que dan origen a eseresultado. La incetidumbre de un resultado analítico se obtiene a partir de la ley de Gauss de propagación de errores. De formageneral, se supone que un resultado analítico, y, depende de m factores xm de acuerdo con una función y = f (x1 , x2 , ..., xm ) La incertidumbre de y, en términos de desviación de su valor medio, puede describirse en función de la dependencia decada uno de los factores como dy = d f (x1 , x2 , ..., xm ) Esta diferencial total puede calcularse de acuerdo con δy δy δy dy = δx1 dx1 + δx2 dx2 + ... + δxm dxm x2 ,...xm x1 ,...xm x1 ,...xm−1 Para relacionar la expresión anterior con la varianza de la medida se han de elevar al cuadrado ambos términos 2 (dy)2 = δy δx1 dx1 + δy δx2 dx2 + ... + δy δxm dxm x2 ,...xm x1 ,...xm x1 ,...xm−1 2 y al desarrollar la operación anterior aparecerán términos cuadráticos del tipo δy 2 dxi y términos cruzados del δxi δy δytipo δxi δx j dxi dx j . Los términos cuadráticos han de considerarse en todos los casos ya que su valor siempre espositivo mientras que los cruzados pueden omitirse ya que, normalmente, se cancelan unos con otros. De acuerdo con esterazonamiento, se puede expresar la varianza de y mediante la siguiente expresión: 2 2 2 s2 = y δy δx1 s21 + x δy δx2 s22 + ... + x δy δxm s2m x Normalmente, la incertudumbre se expresa mediante la desviación sy . El cálculo concreto de la incertidumbre de un valor cuando se conocen las incertidumbres de todas las cantidades delas que éste depende puede hacerse mediante una hoja de cálculo como Excel siguiendo el procedimiento de Kragten4 .1.3. Pruebas de Comparación: el Protocolo de Comparación Como se ha señalado anteriormente, la interpretación y la capacidad de tomar decisiones sobre la utilidad de un conjuntode medidas no puede hacerse de una manera descriptiva sino comparativa. Esto significa que la interpretación de lasmedidas analíticas, en el sentido más amplio, viene dada por la comparación con otros valores que se puedan medir. Paraque esto tenga algún tipo de consistencia estadística es necesario realizar pruebas (tests) estadísticas. El tipo de cuestionesa dilucidar puede ser, a modo de ejemplo, si las medias de los resultados de dos determinaciones son iguales o si unavariable estudiada afecta o no a los resultados obtenidos. En general, la comparación estadística implica la comprobación de una hipótesis. Para ello, que hay que seguir elsiguiente protocolo: 1. Han de definirse la hipótesis nula (Ho ) y la hipótesis alternativa (H1 ). La mayor parte de las veces Ho significa la falta de diferencias entre los elementos o magnitudes que se quieren comparar, esto es, que la diferencia es meramente aleatoria. H1 , sin embargo, significa que hay diferencias, esto es, que además de la desviación aleatoria los elementos o magnitudes comparadas son diferentes. 2. Hay que elegir la prueba estadística. Para ello, la distribución estadística de los resultados a comparar ha de ser conocida. Entre otras, se utilizarán las distribuciones t-, F- y χ2 . 4 J. Kragten, Analyst, 119, 2161-2166 (1994). Este procedimiento se explicará en detalle en las clases prácticas. 4
  • 5. 1.4. COMPARACIÓN ENTRE LOS VALORES VERDADERO Y PROMEDIO: TEST T DE UNA SOLA VARIABLE 3. Es preciso fijar el nivel de confianza (α). Este nivel indicará la posibilidad de contradecir Ho aunque sea verdadera. De alguna forma, indicará el riesgo de anular la hipótesis nula y por lo tanto la posibilidad de aceptar la hipótesis alternativa H1 a pesar de que los elementos o magnitudes que se han comparado tengan una desigualdad aleatoria. 4. Hay que calcular los parámetros estadísticos de los elementos o magnitudes que se quieren comparar. Según sea la prueba estadística, esos parámetros pueden ser tcalc , Fcalc , etc. 5. Según el nivel de confianza de la prueba estadística, los valores críticos de los parámetros anteriores se pueden tomar de su correspondiente tabla y se compararán con los valores calculados con anterioridad. 6. Como consecuencia de la comparación se podrá mantener la hipótesis nula Ho o, por el contrario, aceptar la hipótesis alternativa H1 .1.3.1. Conclusiones de la comparación Como se ha dicho anteriormente, la comparación tiene una base probabilística. Es decir, antes de hacer la comparaciónhay que fijar cual es la probabilidad de negar la hipótesis nula (α = 0.05, por ejemplo) aunque esa hipótesis sea verdadera.Si ésto sucediera se dice que se ha cometido un error de Tipo I o error α. El nivel de confianza establecido (α) no se puedefijar de cualquier manera, dado que la probabilidad de incurrir en los denominados errores de Tipo II aumentará si se haceasí. Los errores de Tipo II (también llamados errores β o errores de aceptación) significan la aceptación de la hipótesisnula aunque esta sea falsa. La Tabla 1.2 puede servir de ayuda para aclarar estos conceptos. Cuadro 1.2: Relación entre la comparación de hipótesis y los errores de Tipo I y II. Decisión tomada Situación real H0 es cierta H1 es cierta H0 es cierta Decisión correcta (P=1-α) Error de Tipo II (P = β) H1 es cierta Error de tipo I (P = α) Decisión correcta (P=1-β) Hasta ahora, solo se ha tenido en cuenta la probabilidad de negar la hipótesis nula (P = α) pero no hay que olvidarque existe también la probabilidad de admitir la hipótesis alternativa cuando resulta falsa (P = β). De alguna manera,estos dos riesgos son complementarios y no se puede disminuir uno de ellos tanto como se quiera dado que el otro, comoconsecuencia de ello, aumentará. La Figura 1.2 ilustra la relación entre los errores de Tipo I y II cuando se lleva a cabo laprueba de comparación de 2 medias5 . Un error del Tipo I indica que las 2 medias se toman como diferentes, aunque solodiscrepen aleatoriamente. Un error de Tipo II indica que se establece erroneamente que las dos medias son comparables. Se han de tener en cuenta las implicaciones de los dos tipos de errores dependiendo de la prueba que se esté realizandoy si, en su caso, es preciso realizar un mayor número de medidas. Asi, por ejemplo, el fallo a la hora de reconocer unaenfermedad es mucho más peligroso que aconsejar a un paciente una terapia preventiva. En el último caso un error deTipo I sería aceptable (por ejemplo, diagnosticar una enfermedad a una persona a partir de análisis clínicos). Sin embargo,el fallo en el diagnóstico de la enfermedad a partir de esos mismos análisis sería un error de Tipo II.1.4. Comparación entre los valores verdadero y promedio: test t de una sola variable La distribución de un grupo de medidas alrededor de la media (x) se puede comparar con la correspondiente a unadistribución normal (µ) mediante el test t. Esta comparación puede usarse para mostrar la validez de las medidas. Sise sigue el protocolo indicado anteriormente, la hipótesis nula (Ho ) dará como bueno que dos muestras (x, s y µ, σ) 5 Prueba que se detalla más adelante en el texto. 5
  • 6. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA Figura 1.2: Probabilidades α y β de los errores de tipo I y II.pertenecen a la misma población, es decir, que si la desigualdad ente ellas es aleatoria, x = µ. Por el contrario, para probarla falsedad de la hipótesis anterior hay que considerar la hipótesis alternativa H1 , esto es, que las dos muestras pertenecena poblaciones distintas. Antes de realizar la comparación, es preciso fijar el nivel de confianza, es decir, hay que delimitar la probabilidad denegar la hipótesis nula cuando realmente ésta es verdadera. En la mayor parte de los casos este nivel es 0.05 (5 %) o 0.01(1 %). Por otra parte, si la desviación estándar (σ) de la muestra de una población es desconocida, habrá de utilizarseel test t de Student para hacer la comparación. Cuando es desconocido, el valor de t se puede calcular con la siguientefórmula: |x − µ| √ tcalc = n (1.1) s donde s es la desviación estándar estimada de un conjunto de medidas n. De esta manera, el valor calculado de t hay que compararlo que el valor crítico de t que le corresponde. El denominadotcrit depende del nivel de confianza elegido (α = 0.05) y del número de grados de libertad (f = n-1). Por lo tanto, el valorde tcrit (1−α/2, f ) habrá de tomarse de las tablas. La comparación estadística entre los valores de tcalc y tcrit tendrá las siguientes consecuencias: si tcalc <tcrit ⇒ habrá de aceptarse H0 y, por tanto, x = µ si tcalc >tcrit ⇒ habrá de aceptarse H1 y , por tanto, x = µEn el ejemplo precedente se ha realizado el test t de dos extremos (colas), esto es, el nivel de confianza elegido es 1 -α/2. Del mismo modo, se podría hacer la comparación mediante un test t con un solo extremo. Es decir, si se acepta ladesigualdad en sentido único en la hipótesis alternativa (x <µ o x >µ ) el valor de tcrit tabulado será tcrit(1−α, f ) . 6
  • 7. 1.5. COMPARACIÓN DE VARIANZAS: TEST-FEjemplo 1.1 Supongamos que se realizado una valoración de Ca2+ con los siguientes resultados: 0.0268, 0.0263, 0.0274, 0.0271, 0.0278 y 0.0269mol·dm−3 . Si se quiere saber si la media de estos resultados puede compararse con la concentración verdadera (0.0286 mol·dm−3 )habrá de realizarse la siguiente comparación: CCa = 0.0270 mol·dm−3 y s = 0.0005 mol·dm−3 H0 : CCa = 0.0270 mol·dm−3 y el valor verdadero (0.0286 mol·dm−3 ) son semejantes H1 : La concentración media no proporciona un valor comparable al verdadero El parámetro adecuado para esta comparación es el valor de tcalc , que se calcula como: |0,0270 − 0,0286| √ tcalc = 6 = 7,383 0,0005 tcrit(1−α/2, f ) = t(0,975,5) = 2.57 tcalc >tcrit ⇒ si se acepta H1 habrá que concluir que nuestros resultados no dan una concentración comparable con la verdadera.Ejemplo 1.2 Supongamos que se ha realizado una determinación de nitrato en un agua potable. Los resultados obtenidos son 51.0, 51.3, 51.6 y50.9 mg.l−1 y según la normativa la concentración máxima permitida es de 50 mg.l−1 . Si se quiere saber si el agua examinada tieneuna concentración mayor que la establecida por la normativa habrá de realizarse la siguiente comparación: CNO− = 51.2 mg.l−1 y s = 0.316 mg.l−1 3 |51,2 − 50,0| √ tcalc = 4 = 7,59 0,316 En esta situación, hay que hacer una comparación de un único extremo (cola) ya que la cuestión es averiguar si la concentración esmayor que la establecida en la norma. tcrit(1−α, f ) = t(0,95,3) = 2.35 (un extremo) tcalc >tcrit ⇒ Habrá de aceptarse H1 y concluir que la muestra tiene una concentración mayor que la permitida.1.5. Comparación de varianzas: test-F Para comparar las varianzas de dos grupos de medidas hay que aplicar el test F. Después de seguir el protocolo detalladoanteriormente, la hipótesis nula H0 aceptará que las varianzas son iguales y la hipótesis alternativa H1 que son diferentes.Como antes, después de fijar el nivel de confianza (α) se calculará el valor de Fcalc : s2 Fcalc = 1 (s2 > s2 ) 1 2 (1.2) s2 2 Teniendo en cuenta el nivel de confianza elegido y los valores de f1 (= n1 -1) y f2 (= n2 -1), el valor de Fcrit se puedeencontrar en las tablas. Entonces, para hacer la comparación estadística: si Fcalc ≤ Fcrit ⇒ habrá de aceptarse H0 y, por tanto, las varianzas son iguales. si Fcalc > Fcrit ⇒ habrá de aceptarse H1 y, por tanto, las varianzas son distintas.Ejemplo 1.3a. Se ha determinado en dos laboratorios distintos el % de contenido de titanio de un acero mediante una técnica instrumental adecuada.Los resultados obtenidos se muestran en la siguiente tabla y se desea averiguar si los dos laboratorios proporcionan resultados de unaprecisión comparable o no. Lab.1 0.470 0.448 0.463 0.449 0.482 0.454 0.477 0.409 Lab.2 0.529 0.490 0.489 0.521 0.486 0.502 Lab. 1: s1 = %0.0229 Lab. 2: s2 = %0.0182 7
  • 8. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA s2 0,02292 Fcalc = 1 s2 = 0,01822 = 1,58 2 Fcrit = F(1−α/2, f1 , f2 ) = F(0,975,7,5) = 6.85 Fcalc ≤ Fcrit ⇒habrá de aceptarse H0 y, por tanto, los dos laboratorios muestran una precisión comparable.1.6. Comparación de dos medias: test t de dos variables La comparación de las medias de dos muestras se puede hacer de dos modos según sean las varianzas de esas muestras. Muestra A: xa y s2 a Muestra B: xb y s2 b Cuando las varianzas son comparables: s2 a s2 b Es preciso calcular la varianza ponderada : fa s2 + fb s2 a s2 = pond b (1.3) fa + fb y el valor de tcalc : (xa − xb ) na nb tcalc = (1.4) s pond na + nb para comparar con el valor tabulado de t(1−α/2, f ) . En este caso, f = fa + fb . Cuando la varianzas son diferentes: s2 = s2 a b En estas condiciones, el valor de tcalc se puede calcular directamente como |xa − xb | tcalc = (1.5) s2 a s2 na + nb b pero el numero de grados de libertad ponderado (f) se calcula mediante la ecuación siguiente: 2 s2 a s2 na + nb b f= 2 2 (1.6) s2 a s2 b na nb na −1 + nb −1Ejemplo 1.3b. Después de concluir que las varianzas de los resultados en los laboratorios antes citados son equivalentes se quiere saber si lasdeterminaciones del contenido de titanio son equivalentes o no. Lab 1:xa = %0.467 Lab 2: xb = %0.503 Dado que las varianzas de los dos grupos de medidas son equivalentes, hay que calcular la varianza ponderada: 7 · 0,02992 + 5 · 0,01822 s2 = pond = 0,0211 7+5 el valor de tcalc se puede calcular como 8
  • 9. 1.7. TEST T DE PAREJAS (0,467 − 0,503) 6·8 tcalc = = 4,07 0,0211 6+8 Siendo el valor que se puede encontrar en las tablas de tcrit = t(0,975,12) = 2.18 menor que el de tcalc , no se puede mantener la hipótesisnula. Por tanto, se puede concluir que las medias de ambos laboratorios son diferentes.Ejemplo 1.4. En la tabla siguiente se dan concentraciones de tiol (en mmol·dm−3 ) correspondientes a individuos sanos y enfermos de artritisreumática. Sanos 1.84 1.92 1.94 1.92 1.85 1.91 2.07 Enfermos 2.81 4.06 3.62 3.27 3.27 3.76 Según los resultados obtenidos se quiere saber si la concentración de tiol es significativamente más alta entre los enfermos que entrela gente sana. Los resultados analíticos se pueden resumir así: Sanos n1 = 7 x1 = 1.921 s1 =0.076 Enfermos n2 = 6 x2 = 3.465 s2 = 0.440 En primer lugar se compararán las varianzas de ambos grupos de medidas. Para ello, se llevará a cabo el test F: 0,4402 Fcalc = = 33,52 0,0762 El valor encontrado en las tablas de Fcrit = F(0,975,5,6) = 5.988 . Como Fcrit <Fcalc , ha de concluirse que ambas varianzas sondiferentes. Para hacer la comparación entre las concentraciones de tiol, se han de calcular los valores del numero de grados de libertad ponde-rados y de tcalc : |1,921 − 3,456| tcalc = = 8,44 0,0762 2 7 + 0,440 6 2 0,0762 2 7 + 0,440 6 f pond = 2 2 = 5,25 5 0,0762 0,4402 7 6 6 + 5 Para ese número de grados de libertad el valor correspondiente de tcrit = t(0,95,5) = 2.02 (un extremo). Por tanto, al ser menor quetcalc se puede concluir que la concentración de tiol es significativamente más alta.1.7. Test t de parejas A menudo, las muestras u objetos que se quieren comparar no son homólogos. Por ejemplo, si se quiere analizar laadecuación de dos procedimientos analíticos y las muestras sobre las que se aplican son de diferente tipo, no tiene ningúnsentido calcular las medias de esas muestras dado que dichas muestras pueden tener un origen y composición diferentes.Debido a ello, para poder realizar un test t significativo no se compararán las medias de los dos grupos sino las diferenciasentre los procedimientos para cada una de las muestras. En general, si estos dos procedimientos son equivalentes lasdiferencias entre las muestras no se desviarán del 0 de una forma significativa. Esta última comparación se puede llevar acabo mediante el test t para una única variable visto anteriormente.Ejemplo 1.5. En la siguiente tabla se muestran los resultados de la determinación de Pb efectuada con dos métodos diferentes. Ambos métodos sehan ensayado sobre cuatro muestras diferentes. 9
  • 10. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA Muestra Oxidación por vía húmeda Extracción directa ∆ 1 71 76 -5 2 61 68 -7 3 50 48 2 4 60 57 3 La media de las diferencias es de -1.75 y su desviación estándar de 4.99. En este caso, se aceptará como hipótesis nula que la media de las poblaciones de las diferencias (µ) es cero ya que es la que considerala ausencia de diferencias. H0 : x = µ H1 : x = µ En las tablas se puede observar que tcrit = t(0.975,3) = 3.18 (dos extremos). Por tanto, al ser este valor mayor que tcalc deberá mantenerse la hipótesis nula.1.8. Distribución normal de medidas: Test de Kolmogorov- Smirnov Muy a menudo, las pruebas estadísticas que se quieren aplicar tienen una validez limitada dado que solo se puedenaplicar cuando los resultados presentan una distribución determinada (la denominada distribución Normal o Gaussiana).A diferencia de otras pruebas, en el test de Kolmogorov-Smirnov se compara la función de distribución que se quiereexaminar (F(x)) con la función normal de distribución (F0 (x)). Como anteriormente: H0 : F(x) = F0 (x) H1 : F(x) = F0 (x) Para hacer la comparación se habrá de tener en cuenta la máxima diferencia entre esas dos distribuciones (dmax ) yse comparará con el valor crítico dcrit = d(1−α,n) . Los valores de dcrit para una distribución normal se pueden encontrartabulados.Ejemplo 1.6. Con objeto de saber si las medidas espectrofotométricas recogidas en la Tabla 1.1 tienen una distribución normal o no se puederealizar el test de Kolmogorov-Smirnov. Para ello, en primer lugar hay que representar una función de distribución normal F0 (x) correspondinete a una distribución de mediaµ y desviación estándar σ. Mediante una hoja de cálculo como Excel se puede obtener y representar la correspondiente función F0 (x)una vez obtenidos los valores de la media x y la desviación estándar s de las medidas espectrofotométricas. Los valores de x y s seutilizan como estimadores de los verdaderos valores de µ y σ de la población cuya normalidad se quiere comprobar, dado que estosúltimos son, en realidad, desconocidos. Las medidas se han de ordenar en orden creciente y a cada medida se le asigna su orden entre el número total de medidas. Deesta forma se puede obtener el valor de la función F(x) correspondiente a cada una de esas medidas. Esta operación también se puederealizar en Excel. Una vez calculadas las dos funciones, la experimental F(x) y la correspondiente función teórica F0 (x) habría que calcular su dife-rencia máxima dmax y compararla con dcrit o, como se muestra en la Figura 1.3, observar si F(x) se encuentra dentro del intervalo deconfianza de F0 (X).1.9. Test de puntos marginales: Test Q de Dixon De entre las comparaciones estadísticas, una de las más polémicas suele ser la detección de medidas extremas (puntosmarginales). Frecuentemente, se puede pensar que en un grupo de medidas hay una o varias que se alejan del resto ymuchas veces dichas medidas son eliminadas sin más. Existe más de una prueba para llevar a cabo esta eliminación confundamento estadístico. Sin embargo, cuando se sospecha de la presencia de una medida marginal, lo primero que sedebería preguntar es qué ha pasado para que esa medida se aleje del resto. A menudo, tras encontrar algún argumentotécnico que justifique ese resultado marginal, por ejemplo algún error en la medida o alguna mala anotación del resultado, 10
  • 11. 1.10. ANÁLISIS DE VARIANZA (ANOVA) 1.2 F(x) 1 Fo(x) 0.8 F(x) 0.6 0.4 0.2 0 x -0.2 0.33 0.34 0.35 0.36 0.37Figura 1.3: Representación gráfica del test de Kolmogorov-Smirnov para comprobar la distribución normal de una serie de medidas. Además de las funciones F0 (x) y F(x) se ha incluido el intervalo de confianza de como: F0 (x) ± dcritantes de hacer la prueba estadística habría que corregir el error. Si no se puede justificar ni fundamentar esa medidamarginal se pueden emplear estas pruebas para dilucidar si la medida es marginal o debe considerarse junto con el restode las medidas. En cualquier caso, el test de Q de Dixon utilizará el intervalo de las medidas. Por lo tanto, después de organizar las nmedidas en orden ascendente (siendo x1 el resultado más bajo y xn el más alto), únicamente las medidas extremas seránobjeto de análisis. Con esto, los valores de Qcalc se pueden calcular como: |x2 − x1 | |xn − xn−1 | Q1 = Qn = (1.7) |xn − x1 | |xn − x1 | En estas condiciones, la hipótesis nula, por tanto, será que se acepte que esa medida pertenece a la misma poblaciónque el resto si Qcalc <Qcrit = Q(1−α,n) .Ejemplo 1.7. En el análisis de suelos que contienen hidrocarburos aromáticos policíclicos (PAH’s) se han obtenido los siguientes resultados (enmg.kg−1 ) para benzo[a]pireno: 5.30, 5.00, 5.10, 5.20, 5.10, 6.20, 5.15 Se puede utilizar el test Q para averiguar si el resultado más bajo y más alto son valores marginales. Por tanto, tras ordenar en ordencreciente los resultados: x1 .. .. .. .. .. x7 5.00 5.10 5.10 5.15 5.20 5.30 6.20 y como Qcrit =Q(0,99,7) = 0.64 se puede concluir que el valor más bajo no es marginal mientras que el más alto si lo es.1.10. Análisis de Varianza (ANOVA6 ) El análisis de varianza se puede utilizar para analizar la influencia de una o más variables en un grupo de resultados.En este punto hay que distinguir entre variable y factor. La palabra variable tiene un significado amplio y, en muchoscasos, algunas variables no suelen tener influencia en los sistemas examinados. Aquellas variables que tengan influenciase denominarán, de ahora en adelante, factores. Para saber de antemano si una variable va a tener o no influencia en unsistema hay que examinarla exhaustivamente. Los resultados obtenidos se examinarán mediante ANOVA y la supuesta 6 ANalysis Of VARiance 11
  • 12. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICAinfluencia quedará aclarada. En última instancia, es necesario diferenciar entre las variaciones de carácter aleatorio acae-cidas en un sistema y aquellas producidas por variables supuestamente influyentes. Para ello es necesario comparar ambascontribuciones sobre el conjunto de las medidas y decidir su nivel de significancia.1.10.1. ANOVA de un solo factor Supongamos que se quiere comprobar la influencia de una variable en un sistema. Para ello, se organizarán los experi-mentos para examinar esa variable en distintas condiciones y para cada una de las condiciones se realizarán una serie demedidas. Los resultados obtenidos de esta forma pueden presentarse de la forma que se indica en la Tabla 1.3: Cuadro 1.3: Tabla de ANOVA de un solo factor Niveles o grupos Medidas 1 2 :::: q 1 y11 y12 y1q 2 y21 y22 y2q : N yn1 yn2 ynq Media y1 y2 yq ytotal Para comprobar sistemáticamente la influencia entre los niveles o grupos, cada medida (yi j ) puede expresarse de lasiguiente forma: yi j = yo + (y j − ytotal ) + ei j (1.8) donde (yj − ytotal ) es la variación de cada nivel o grupo ei j es la variación o error aleatorioLa suma de los cuadrados de las diferencias (SStotal ) entre los valores medidos y el valor medio de todas las observacionesytotal puede dividirse en dos grupos: la suma de cuadrados correspondiente a cada nivel o grupo estudiado (SS f act ) y lacorrespondiente a los residuos (SSR ). SStotal = SS f act + SSR (1.9) Las sumas cuadráticas se definen de la siguiente forma: q n SStotal = ∑ ∑ (yi j − ytotal )2 (1.10) j=1 n=1 q SS f act = ∑ n · (y j − ytotal )2 (1.11) j=1 q n SSR = ∑ ∑ (yi j − y j )2 (1.12) j=1 n=1y las medias utilizadas: q n 1 ytotal = ∑ ∑ yi j (1.13) n·q j=1 i=1 12
  • 13. 1.10. ANÁLISIS DE VARIANZA (ANOVA) 1 n yj = ∑ yi j (1.14) n i=1La base de la comparación estadística es la relación entre SS f act y SSR , teniendo en cuenta el número de grados de libertadde cada una. Debido a que la comparación se ha de realizar entre las varianzas correspondientes a cada fuente de variaciónes necesario aplicar el test F. En lo referente al numero de grados de libertad, se puede hacer la descomposición siguiente: ftotal = f f act + fR (1.15) donde ftotal = n·q - 1 f f act = q - 1 fR = q·(n - 1)De acuerdo con la hipótesis nula, se aceptará que la varianza del factor y la varianza residual corresponden a la mismapoblación y, de acuerdo con la hipótesis alternativa, que la varianza del factor es significativamente más grande que laresidual. Por lo tanto, se podrá expresar Fcalc como: SS f act q−1 Fcalc = SSR (1.16) q(n−1) Para el nivel de confianza elegido se podrá obtener Fcrit = F(1−α , (q−1)/q(n−1) de la tablas.Ejemplo 1.8. Se ha llevado a cabo la determinación de potasio en agua por cuatro laboratorios. Los resultados (en mg.l−1 ) se han reunido en lasiguiente tabla: Lab Medidas 1 2 3 4 1 10.2 10.6 10.3 10.5 2 10.4 10.8 10.4 10.7 3 10.0 10.9 10.7 10.4 Media 10.2 10.77 10.47 10.53 Antes de compilar y examinar los resultados en su totalidad, hay que averiguar la influencia que pueda tener cada laboratorio. Paraello, se han llevado a cabo los cálculos de ANOVA de un solo factor que se recogen en la siguiente tabla: Fuente de variación f SS Var. F Entre Lab. (SS f act ) 3 0.489 0.163 5.02 Dentro de cada Lab (SSR ) 8 0.260 0.0325 Total (SStotal ) 11 0.749 0.0681 Fcrit = F(0,95,3,8) = 4.07 (un extremo). Por tanto, hay que destacar que las diferencias que hay entre laboratorios no se pueden atribuira una variabilidad aleatoria. 13
  • 14. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA1.10.2. ANOVA de dos factores Si se quiere examinar la influencia de dos variables que actúan a la vez en un sistema, habrá de utilizarse el ANOVA dedos factores para extraer conclusiones de los resultados. Si las variables son A y B se puede aceptar el siguiente modelo: yi j = ytotal + (yA − ytotal ) + (yB − ytotal ) + ei j i j (1.17) La disposición de los resultados experimentales se puede efectuar de acuerdo con la Tabla 1.4. Cuadro 1.4: Tabla de ANOVA de dos factores Variable B 1 2 ::: q yA i 1 y11 y12 y1q yA 1 2 y21 y22 y2q yA 2 Variable A : p y p1 y p2 y pq yB p yBj yB1 yB2 yBq ytotal En este caso, se tendrá la siguiente distribución de las sumas cuadráticas: SStotal = SSA + SSB + SSR (1.18) y los niveles de significancia y numero de grados de libertad de cada elemento se han resumido en la Tabla 1.5. Cuadro 1.5: Expresiones de las sumas y comparaciones de ANOVA de dos factores Fuente de variación SS f F p q SStotal ∑ ∑ (yi j − ytotal ) ¯ p·q-1 i=1 j=1 p SSA (p−1) SSA q· ∑ (yA − ytotal )2 i p-1 F= SSR i=1 (p−1)(q−1) q SSB (q−1) SSB p · ∑ (yB − ytotal )2 j q-1 F= SSR j=1 (p−1)(q−1) SSR SStotal -SSA -SSB (p-1)(q-1)Ejemplo 1.9. Se quiere determinar la concentración de manganeso en una muestra de referencia de un acero. Para ello, han participado cuatrolaboratorios y cada uno ha utilizado tres procedimientos prefijados. Los resultados de esos ensayos se han recogido (en %) en lasiguiente tabla. Se quiere saber si los laboratorios y los procedimientos utilizados tienen influencia en los resultados obtenidos. Estosson los siguientes: Lab proc 1 2 3 4 yi 1 2.01 1.96 1.99 2.03 2.00 Proc. 2 1.97 2.05 2.04 1.99 2.01 analítico 3 2.05 2.06 2.11 2.12 2.09 ylab j 2.01 2.02 2.05 2.05 ytotal =2.03 Mediante ANOVA de dos factores se pueden obtener los siguientes resultados: 14
  • 15. 1.11. COVARIANZA Y CORRELACIÓN Fuente de variación SS f Fcalc Fcrit(0,95, fi , fr ) Total 0.02837 11 Procedimiento 0.01752 2 6.67 5.14 Laboratorio 0.00297 3 0.753 4.76 Residual 0.00788 6 Como se puede observar, mientras que las diferencias entre laboratorios no son significativas no se puede afirmar que las diferenciasentre los procedimientos sean aleatorias. El método ANOVA no tiene, en este sentido, límites y puede extenderse a cuantos factores se necesite. Para ello, si seutiliza un programa de ordenador adecuado, los cálculos necesarios no son tan tediosos. Además, cuando existen muchasfuentes de variación se puede utilizar la regresión lineal en lugar de ANOVA.1.11. Covarianza y correlación Las métodos para el análisis de datos vistos hasta aquí son, en su mayoría, de aplicación en aquellos casos en los que semide únicamente una variable. Aunque la determinación de un único analito es una parte muy importante de las cienciasanalíticas, cada vez hay un interés mayor en el análisis multicomponente y en la utilización de medidas de múltiplesanalitos en el análisis de los datos. Los problemas asociados con la manipulación e investigación de medidas de múltiplesanalitos en una o varias muestras constituye una rama de la estadística aplicada conocida como análisis multivariante yes uno de los temas de mayor importancia en la quimiometría7 . Sin pretender adentrase en procedimientos más avanzadosde esta disciplina se presentarán a continuación dos conceptos importantes como son los de covarianza y correlación. La representación de datos multivariantes se simplifica bastante utilizando, como es común en la bibliografía científica,una notación matricial. De esta forma los datos se agrupan en matrices de dimensión n × m, donde n pueden ser los objetos(o, comúnmente, muestras) y m las variables (o, comúnmente, las medidas de alguna propiedad físico-química): x11 x12 ..... x1m x21 x21 x21 X= (1.19) ... ... xn1 xn2 xnm De este modo, el conjunto de datos multivariantes se representa mediante la matiz X8 y cada uno de sus elementosmediante la notación xi j . A modo de ejemplo, en la Tabla 1.6 se presentan los resultados del análisis (en mg·kg−1 ) de Na+ , K+ , Ca2+ y Mg2+de 6 muestras diferentes. Cuadro 1.6: Resultados del análisis de un agua mineral (mg·kg−1 ) Muestra Na+ K+ Ca+2 Mg+2 1 10.8 1.6 41.3 7.2 2 7.1 1.1 72.0 8.0 3 14.1 2.0 92.0 8.2 4 17.0 3.1 117.0 18.0 5 5.7 0.4 47.5 16.4 6 11.3 1.8 62.2 14.6 Media 11.0 1.7 72.0 12.1 Varianza 17.8 0.8 812.8 23.3 7 La quimiometría es la disciplina que utiliza métodos matemáticos y estadísticos para (a) el diseño o selección de los procedimientos óptimos de medida y experimentación y (b) para la extracción de la máxima información química mediante el análisis de los datos químicos. 8 La notación matricial se suele hacer normalmente con letras mayúsculas y negritas 15
  • 16. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA La información de la tabla anterior se podría resumir dando la media y la varianza por cada muestra o por cada analito.Sin embargo, tal resumen no contiene demasiada información ni permite extraer ninguna conclusión sobre la relación,si la hubiere, entre las muestras y/o los analitos. Aunque se diga que las variables utilizadas son independientes, esto noquiere decir que no haya relación entre ellas. La relación entre las variables se puede indicar mediante su covarianza. Se puede suponer que hay relación entre dos variables xi y x j si al aumentar el valor de xi el valor x j aumenta o si aldisminuir el valor de xi el de x j también disminuye. En este caso se dice que entre ambas variables hay una covarianzapositiva. Del mismo modo, si al aumentar el valor de una de ellas la otra disminuye se dice que la covarianza es negativa.Cuando la covarianza entre dos variables es grande (en valor absoluto) se pude suponer que existe una relación linealentre ellas. Si la covarianza es pequeña, se puede decir que ambas variables son independientes. La forma más sencilla deaveriguar si hay relación entre dos variables es representando una frente a la otra, como se muestra en la Figura 1.4. Ur-minelara Ur-minerala Magnesioa (mg·kg-1) 4 20 Potasioa (mg·kg-1) 3 15 R2 = 0.9456 2 10 R2 = 0.0399 1 5 0 0 0 5 10 15 20 0 1 2 3 4 Sodioa (mg·kg-1) Potasioa (mg·kg-1)Figura 1.4: Ejemplo de correlación (dependencia) entre las concentraciones de sodio y potasio y de independencia entre las concentraciones de potasio y magnesio de los datos recogidos en la Tabla 1.6. La covarianza entre dos variables (xi y x j ) se puede calcular por medio de la siguiente expresión: ∑n (xki − xi )(xk j − x j ) k=1 cov(xi , x j ) = (1.20) n−1 Este cálculo se pude extender a todas las variables xi y x j y expresarlo en forma matricial (lo que se denomina matrizde covarianza) como: XT X cov(X) = (1.21) n−1 donde X T es la matriz traspuesta de X. Los valores de la covarianza, per se, no son demasiado informativos ni específicos. Por ejemplo, si se dice que unsistema la covarianza entre la presión y la temperatura es de 520 0 C·atm, ¿significa ésto que la covarianza es grande? Delmismo modo, si la covarianza entre la concentración y la temperatura es 8.2 0 C·mg·kg−1 ¿significa esto que es pequeña? Sin lugar a dudas, la covarianza es una medida directa de la dependencia entre las variables de un sistema que, por otraparte, no se puede estimar de antemano si no se tiene un conocimiento preliminar del mismo. Aunque en la siguiente tablase recoge la matriz de varianza-covarianza correspondiente a los datos de la Tabla 1.6, éstos no ofrecen, por ahora, másinformación de relevancia. Sodio Potasio Calcio Magnesio Sodio 17.81 Potasio 3.72 0.82 Calcio 93.01 20.59 812.76 Magnesio 3.54 0.91 41.13 23.29 De la misma forma que la varianza depende de las unidades de medida, la covarianza sufre una dependencia similar.Para estimar el grado de interrelación entre las variables, independientemente de las unidades en que éstas se midan, ha 16
  • 17. 1.12. EJERCICIOSde sustraerse la dependencia de cada una de las variables9 . Para ello puede utilizarse el coeficiente de correlación. Elcoeficiente de correlación lineal entre dos variables xi y x j , ri j , se define como: cov(xi , x j ) ri j = (1.22) si ∆s j La correlación puede expandirse en el intervalo de -1 a +1. Cuanto más cerca de +1, se dice que es más positiva lacorrelación y cuanto más cerca de -1, que es más negativa. En algunas ocasiones, cuando se quiere expresar la relaciónlineal entre dos variables se suele dar el coeficiente de correlación r2 . En ese caso, este valor varía entre 0 y 1. En lasiguiente tabla se reune la matriz de correlación para el ejemplo del análisis de agua anteriormente expuesto: Sodio Potasio Calcio Magnesio Sodio 1 Potasio 0.97 1 Calcio 0.77 0.80 1 Magnesio 0.17 0.21 0.3 1 Mediante la correlación, la relación entre las variables se puede expresar muy fácilmente. En el ejemplo anterior sepuede observar una gran correlación entre sodio-potasio y potasio-calcio y una correlación pequeña entre sodio-magnesioy potasio-magnesio Una última observación. La correlación, como método de expresión de una relación lineal es un concepto estadístico.Sin embargo, no es un parámetro que identifique necesariamente una causa con un efecto. Para establecer esta relación hade tenerse una comprensión más completa del sistema que se estudia ya que si se mezclan ambos conceptos10 se puedecaer en el riesgo de producir más confusión. A modo de ejemplo, se puede señalar un ejercicio estadístico llevado a caboen poblaciones rurales de Dinamarca. En dicho estudio se observó una correlación de 0.75 entre el número de cigüeñasque habitaban en dichas poblaciones y el número de niños nacidos por familia. Hoy día nadie podría pensar que, a pesarde la alta correlación observada, haya ninguna relación entre dichas variables.1.12. Ejercicios 1. Se quiere determinar el contenido de Ag de los residuos de una mina para saber si la extracción de ese metal puede ser provechosa. Para ello, se realizó un diseño preliminar de la toma de muestras y de los análisis que proporcionó los siguientes resultados: Análisis : Utilizando un material de referencia de las siguientes características: CAg = 12.18 mg·g−1 , sAg = 0.12 mg·g−1 (n=20), se obtuvieron los siguientes resultados (para dicho material) con el método empleado: 1 2 3 4 5 6 CAg 12.12 12.25 12.60 11.93 12.25 12.07 Recogida de Muestras: Se prepararon tres lotes de residuos (A, B y C) y de cada uno se realizó el análisis de diez submuestras. Tras llevar a cabo todo el procedimiento en dos días se obtuvieron los siguientes resultados: 9 Se entiende aquí que las variables han de tener la misma escala (operación que, en sentido más amplio, se suele denominar ’escalado’ de un valor o función).10 es decir ’gran correlación’ ≈ ’relación causa-efecto’ 17
  • 18. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA 1er día 2o día A B C A B C 1 19.63 19.98 18.77 19.72 20.85 19.92 2 20.22 20.95 19.64 20.11 19.83 18.61 3 19.87 19.90 18.48 19.80 20.09 18.81 4 20.43 20.95 19.13 20.46 21.00 18.47 5 19.54 19.77 19.14 20.41 20.79 19.90 6 20.26 20.91 19.54 19.98 19.70 18.52 7 19.52 20.38 19.99 20.02 20.52 19.44 8 20.39 20.73 18.89 19.71 20.59 19.52 9 19.83 20.12 18.47 20.07 20.44 18.33 10 20.48 20.48 18.91 19.63 20.69 20.16 Sirviéndose de esos resultados se quieren aclarar las siguientes dudas: a) ¿Es adecuado el método analítico utilizado para determinar Ag? Compara la precisión y exactitud de las muestras de referencia. b) ¿Son homogéneos los lotes preparados (A, B y C)? Examina la normalidad de la concentración de Ag de cualquier lote. c) ¿Se puede aceptar que los diferentes lotes (A, B y C) son comparables? Se puede saber ésto utilizando ANOVA para los lotes de un día. d) ¿Son comparables los resultados obtenidos en días diferentes? Se puede hacer la comparación mediante mues- tras emparejadas. e) ¿Cual sería el contenido de Ag de esos residuos que se podría dar? 2. Utilizando dos métodos distintos, se ha medido el contenido de Ti en cinco muestras diferentes con los siguientes resultados: A B C D E Met.1 0.0134 0.0144 0.0126 0.0125 0.0137 Met. 2 0.0135 0.0156 0.0137 0.0137 0.0136 Al 95 % de confianza, ¿proporcionan ambos métodos resultados comparables? 3. El contenido de calcio de la orina de un enfermo se ha medido en dos días diferentes obteniéndose los siguientes resultados: Día Media (mg·l−1 ) No de determinaciones 1 238 4 2 255 5 Tras examinar un gran número de muestras, este método ha proporcionado una desviación estándar de 14 mg·ml−1 . Establecer si los resultados correspondientes a los dos días son comparables con un nivel de confianza del 95 %. 4. Se han comprobado los resultados de un método nuevo para la determinación de Sb en la atmósfera por absorción atómica con los obtenidos mediante el método habitual espectrofotométrico. Los resultados de distintas muestras de atmósfera ciudadana se recogen el la siguiente tabla: 18
  • 19. 1.12. EJERCICIOS Sb mg·m−3 Muestra Met. nuevo Met. habitual 1 22.2 25.0 2 19.2 16.5 3 15.7 16.6 4 20.4 21.3 5 19.6 20.7 6 15.7 16.8 ¿Se puede afirmar que los resultados de ambos métodos son comparables?5. Para examinar la persistencia de los pesticidas en suelos agrícolas se han tomado a modo de ejemplo el DDT y un derivado ácido. Para hacer estos análisis, se ha llevado a cabo la extracción asistida por microondas usando dos procedimientos: uno con agua/n-decano y otro con ácido acético/n-decano como disolventes. Junto con los valores de CDDT = 49.6 ± 2.6 ng ·g−1 y Cderiv = 26.2 ± 1.5 ng·g−1 (n = 15), obtenidos para una muestra de referencia certificada, en la siguiente tabla se recogen los resultados obtenidos: Muestra Agua / n-decano HAc / n-Decano DDT Derivado DDT Derivado 1 37.2 24.3 49.7 27.2 2 38.4 27.5 51.3 25.0 3 38.3 28.7 52.2 26.6 4 36.5 27.7 48.3 25.7 5 41.9 23.0 51.2 26.2 6 37.5 30.9 49.1 24.6 Por otra parte, con objeto de examinar la persistencia, se obtuvieron los resultados recogidos en la siguiente tabla: Tiempo (días) 1 4 12 20 30 60 90 DDT (ng·g−1 ) 918 923 939 927 931 923 911 Derivado (ng·g−1 ) 214 212 208 200 191 165 142 a) Usando los fundamentos estadísticos, ¿cual es la técnica de extracción más adecuada para analizar los dos compuestos?.¿Por qué? b) Teniendo en cuenta los métodos utilizados para tratar las muestras, ¿a que le atribuirías las diferencias entre las técnicas de extracción? c) Explicar las conclusiones del análisis de las muestras en función del tiempo.6. Se sabe que la concentración de ácido bórico de un colirio para los ojos es de 3.0 ± 0.17 mg.ml−1 . Dicho esto, si se sabe que debido a las necesidades de producción se obtiene una precisión del 5 %, da algunos ejemplos de resultados de análisis con un nivel de confianza del 95 %.7. Se han tomado muestras de agua de una ría a diferentes profundidades y además del pH y la conductividad se han medido las concentraciones de Fe y Mn con una filtración previa de las mismas (filtro de 0.45mm) y sin ella. los resultados obtenidos se recogen en la siguiente tabla: 19
  • 20. CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA Profundidad Mn (ng/ml) Fe (ng/ml) pH λ (m) φ Filtrada φ Filtrada (mS) 0 0.55 0.43 2.12 1.98 8.03 30.2 0.5 0.58 0.44 2.15 2.05 7.99 29.8 1 0.62 0.46 2.17 2.11 7.96 29.6 1.5 0.65 0.45 2.22 2.12 7.97 28.3 2 0.85 0.58 3.19 2.58 7.68 12.6 2.5 0.89 0.6 3.22 2.6 7.66 8.6 3 0.88 0.61 3.23 2.61 7.67 7.3 3.5 0.90 0.60 3.22 2.59 7.66 6.9 a) ¿Tiene alguna influencia el proceso de filtrado en los resultados de Fe y Mn? b) ¿Se puede dar algún resultado analítico representativo de alguna variable o parámetro químico de la muestra de agua? c) ¿A que atribuirías la variabilidad observada? 8. La determinación de Vitamina E en un aceite vegetal se ha llevado a cabo con el método habitual voltamétrico y por medio de análisis por inyección en flujo (FIA). Se han obtenido los siguientes resultados (en %): Método 1 2 3 4 5 6 7 Met. Voltamp. 32.1 32.3 31.9 32.1 32.0 32.1 31.8 FIA 31.9 31.8 31.7 31.8 31.6 31.9 31.8 Discutir si ambos métodos proporcionan resultados comparables o no. 20